WO2006025339A1 - 復号化装置、符号化装置、復号化方法、符号化方法 - Google Patents

復号化装置、符号化装置、復号化方法、符号化方法 Download PDF

Info

Publication number
WO2006025339A1
WO2006025339A1 PCT/JP2005/015679 JP2005015679W WO2006025339A1 WO 2006025339 A1 WO2006025339 A1 WO 2006025339A1 JP 2005015679 W JP2005015679 W JP 2005015679W WO 2006025339 A1 WO2006025339 A1 WO 2006025339A1
Authority
WO
WIPO (PCT)
Prior art keywords
video data
image
data
additional information
resolution
Prior art date
Application number
PCT/JP2005/015679
Other languages
English (en)
French (fr)
Inventor
Hisao Sasai
Satoshi Kondo
Thomas Wedi
Steffen Wittmann
Martin Schlockermann
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to EP05775151A priority Critical patent/EP1788817A4/en
Priority to US11/661,277 priority patent/US8208549B2/en
Priority to JP2006532683A priority patent/JP4949028B2/ja
Publication of WO2006025339A1 publication Critical patent/WO2006025339A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0135Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes
    • H04N7/014Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes involving the use of motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0125Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level one of the standards being a high definition standard

Definitions

  • Decoding device encoding device, decoding method, encoding method
  • the present invention relates to a video data encoding apparatus and decoding apparatus that involve resolution conversion.
  • Patent Document 1 discloses a technique for converting an interlaced image into a progressive image as a decoding device that involves resolution conversion.
  • a progressive image is generated by using a motion vector included in a coded bitstream of an interlaced image.
  • Non-Patent Document 1 a progressive image pixel is estimated from an interlaced image using a filter or the like, and high resolution is realized by motion prediction of an image region similar to the pixel.
  • Patent Document 2 in addition to scalable encoding that encodes a base video that is a base and an extended video that is an extension of the base video, the pixel values of the base video are encoded, A technique for encoding a difference between pixel values of a base moving image is disclosed.
  • Patent Document 1 Japanese Patent Laid-Open No. 10-126749
  • Non-Patent Document 1 “Sequential Scanning Conversion Method for Interlaced Scanning Images Using Motion Compensation” (Taichiro Kurita, Yukio Sugiura, Theory of Science (D-II), V01.J78-D-II, no.l , pp.40-49, Jan. 1995)
  • Patent Document 2 International Publication 2004 / 73312A1 Pamphlet
  • Non-Patent Document 1 if the accuracy of the filter for high resolution estimation is poor, an incorrect motion vector may be used, and a high resolution image may be used. There is a problem that the accuracy of is bad.
  • Patent Document 1 since the motion vector included in the bitstream is not necessarily equal to the motion of the image, the motion vector may be incorrect, and the accuracy of the high-resolution image is poor. There is a problem.
  • Non-Patent Document 1 since the motion vector is detected in the decoding device, it can be closer to the motion of the image than the motion vector included in the bitstream, but the processing load on the decoding device is remarkably high. There is a problem of increasing.
  • Patent Document 2 there is a problem that it is difficult to obtain a low bit rate because a difference pixel value of an extended moving image that is obtained only by a pixel value of the base moving image is encoded.
  • An object of the present invention is to provide a decoding device and a coding device that can generate a high-resolution image from a low-resolution image with a low bit rate, a low processing amount, and high image quality.
  • the decoding apparatus of the present invention includes additional information including a motion vector indicating the motion of an image in the first video data, and the same content as the first video data, and the first video.
  • Acquisition means for acquiring stream data that is encoded data of the second video data having a resolution lower than that of the data, decoding means for decoding the stream data into an image of the second video data, and decoding Conversion means for converting the image of the second video data into the third video data having the same resolution as the first video data by interpolating using the attached calorie information.
  • the decoding apparatus can obtain the additional information indicating the motion of the image together with the stream data, it is not necessary to detect the motion of the image for generating a high-resolution image, and real-time at the time of decoding. In addition, since it is not necessary to detect motion, the amount of processing for high resolution can be reduced. In addition, since the additional information does not include a code indicating the pixel value of the first video data, a low bit rate can be obtained.
  • the conversion means includes an extraction means for extracting a motion vector from the additional information, and an interpolation means for interpolating a pixel in the image of the second video data using the extracted motion vector. You may do it.
  • a high-resolution image can be obtained by interpolating pixels according to the motion vector with respect to the image of the second video data, so that the processing amount can be reduced.
  • the conversion means includes extraction means for extracting a motion vector from the additional information; A first interpolation means for interpolating pixels using the image pixels of the second video data image decoded by the decoding means, and an image of the second video data decoded by the decoding means.
  • the second interpolation means for interpolating pixels in the image of the second video data using the extracted motion vector, and the third video data by selectively using the first interpolation means and the second interpolation means.
  • Generation means for generating the image may be provided.
  • the image of the third video data can be efficiently generated by selectively using the interpolation in the image by the first interpolation means and the interpolation between the images by the second interpolation means.
  • Power S can be.
  • the second interpolation means includes a converted image of the third video data, an image of the third video data to be converted, a memory means for holding, and a third video data to be converted.
  • First identifying means for identifying a pixel position to be interpolated in an image and first corresponding to a pixel position identified by the first identifying means in a converted third video data image according to a moving beta. 2 specifying means, a reading means for reading out the pixel value specified by the second specifying means, and an interpolated pixel at the pixel position specified by the first specifying means according to the pixel value read by the reading means. It may be provided with a writing means for writing values.
  • the pixels to be interpolated in the image of the third video data to be converted are obtained from the converted image of the third video data according to the motion vector. Can be interpolated.
  • the additional information includes a motion vector in units of blocks constituting the first video data
  • the first specifying means specifies a pixel position to be interpolated in the block
  • the specifying means may specify the pixel corresponding to the pixel position specified by the first specifying means in accordance with the motion vector in block units.
  • the additional information includes two motion vectors in units of blocks constituting the first video data, and includes two images of the second specifying means and the converted third video data. Then, two pixels corresponding to the pixel position specified by the first specifying means are specified according to two motion vectors, and the reading means reads the values of the two pixels specified by the second specifying means, The writing means may calculate the value of the interpolated pixel based on the values of the two pixels read by the reading means.
  • the third video data can have higher image quality.
  • the generating means when the image of the second video data is intra-coded, the generating means generates an image of the third video data by using the first interpolation means for the image,
  • the image of the second video data when the image of the second video data is subjected to inter-picture predictive coding, the image of the third video data may be generated by using the second interpolation means for the image.
  • the encoding method of the present invention includes conversion means for converting the first video data into second video data having a resolution lower than that of the first video data, and the second video data as stream data.
  • Encoding means for encoding generating means for indicating the movement of the first video data and generating additional information for interpolating pixels in the image of the second video data, and a code indicating the pixel value of the first video data
  • output means for outputting the stream data and the additional information without being output.
  • the decoding device uses the high-resolution image. Can be generated with high image quality.
  • the decoding method, the encoding method, and the program for realizing the decoding method of the present invention have the same configuration as described above.
  • the decoding apparatus of the present invention can obtain the additional information indicating the motion of the image together with the stream data, so that it is not necessary to detect the motion of the image in order to generate a high-resolution image and the decoding is performed. Sometimes it is not necessary to detect the motion in real time. The amount of processing can be reduced. However, since the additional information does not include a code indicating the pixel value of the first video data, a low bit rate can be achieved.
  • FIG. 1 is a block diagram showing a schematic configuration of an encoding device and a decoding device according to the present invention.
  • FIG. 2 is a block diagram showing a configuration of a code key unit 101 and an additional information generation unit 102.
  • FIG. 3 is an explanatory diagram of a differential motion vector.
  • FIG. 4A is an explanatory diagram of high-resolution image generation by spatiotemporal pixel interpolation.
  • FIG. 4B is an explanatory diagram of high-resolution image generation by spatiotemporal pixel interpolation.
  • FIG. 5 is a diagram showing the relationship between a low resolution image and a high resolution image.
  • FIG. 6A is an explanatory diagram showing codes of an interpolation image generation mode.
  • FIG. 6B is an explanatory diagram showing codes in the interpolation image generation mode.
  • FIG. 7 is a flowchart showing an image code key process.
  • FIG. 8 is a flowchart showing generation mode selection processing.
  • FIG. 9A is an explanatory diagram showing a stream format of additional information associated with stream data.
  • FIG. 9B is an explanatory diagram showing a stream format of additional information associated with stream data.
  • FIG. 10 is a flowchart showing decryption processing.
  • FIG. 11A is a flowchart showing the high-resolution image generation process in S 103 of FIG.
  • FIG. 11B is a flowchart showing in more detail the high resolution processing shown in step S 113 of FIG. 11A.
  • FIG. 11C is an explanatory diagram of MC interpolation processing.
  • FIG. 11D is a flowchart showing in more detail the MC interpolation process shown in step S122 of FIG. 11B.
  • Fig. 11E shows the MC-BID interpolation process shown in step S123 of Fig. 11B in more detail. It is a flowchart shown in FIG.
  • FIG. 11F is a flowchart showing in more detail the INTRA-MC mixed interpolation process shown in step S124 of FIG. 11B.
  • FIG. 12 is a flowchart showing another example of image encoding processing.
  • FIG. 13A shows an example of a physical format of a flexible disk which is a recording medium body.
  • FIG. 13B shows an appearance, a cross-sectional structure, and a flexible disk as seen from the front of the flexible disk.
  • FIG. 13C shows a configuration for recording and reproducing the above program on the flexible disk FD.
  • FIG. 14 is a block diagram showing an overall configuration of a content supply system that realizes a content distribution service.
  • FIG. 15 is a diagram showing a mobile phone exl l5 using an image encoding method and an image decoding method.
  • FIG. 16 is a diagram showing the appearance of a mobile phone.
  • FIG. 17 is a diagram showing a digital broadcasting system.
  • FIG. 1 is a block diagram showing a schematic configuration of an encoding device and a decoding device according to Embodiment 1 of the present invention.
  • the encoding device 1 includes a resolution reduction unit 100, an encoding unit 101, and an additional information generation unit 102. More specific devices of the encoding device 1 are, for example, a computer exl 11, an internet service provider exl02, a streaming server exl03, and the like.
  • the resolution reduction unit 100 converts the high resolution video data HV1 into the low resolution video data LV1. Convert to Low resolution video data
  • the resolution of LV1 is lower than the resolution of high resolution video data.
  • the high-resolution video data HV1 is VGA (640 * 480 pixels)
  • the low-resolution video data LV1 is QVGA (320 * 240).
  • the encoding unit 101 compresses and encodes the low resolution video data LV1.
  • This compression encoding is, for example, MPEG1, 2, 4, 4AVC or the like.
  • the encoded low resolution video data LVI is output as a low resolution video stream LVS.
  • the additional information generating unit 102 generates additional information AI for increasing the resolution of the second video data.
  • Additional information AI includes motion information indicating the motion of an image in the high-resolution video data HV1, and conversion mode information for generating high-resolution video data from the low-resolution video data.
  • the conversion mode information includes (A) a first mode indicating that pixels should be interpolated using temporally and spatially surrounding pixels, and (B) additional information includes a forward motion vector.
  • the resolution should be increased by acquiring a partial image from the already increased resolution image according to the motion vector.
  • the conversion mode is selected in units of macroblocks in order to realize a low processing amount and high image quality in the decoding device 2.
  • the decoding device 2 includes a decoding device 200 and a high-resolution unit 202.
  • Specific devices of the decoding device 2 are a computer exl l l, a television ex401, an STBex407, etc., and are devices capable of displaying a high-resolution image.
  • the decoding device 200 includes a decoding unit 201, and decodes the low-resolution video stream LVS.
  • the decoding unit 201 corresponds to the encoding unit 101 and performs decoding using, for example, MPEG1, 2, 4, 4AVC or the like.
  • the low-resolution video stream LVS after decoding is output as low-resolution video data LV2.
  • Specific devices of the decoding device 200 are, for example, a computer exl ll, PDA exl l2, a mobile phone exl l4, a mobile phone exl l 5, a digital camera exl l6, a DVD recorder ex420, etc. Or a device that selectively displays a low resolution image.
  • the high resolution unit 202 converts the low resolution video data LV2 into a high resolution based on additional information AI. High resolution video image data HV2.
  • FIG. 2 is a block diagram showing a detailed configuration of the code key unit 101 and the additional information generation unit 102.
  • the encoding unit 101 includes a subtractor 110, an orthogonal transform unit 111, a quantization unit 112, a variable length encoding unit 113, an inverse quantization unit 114, an inverse orthogonal transform unit 115, an adder 116, and a prediction.
  • An image generation unit 117 and a motion vector detection unit 118 are provided.
  • the configuration of the encoding unit 101 may be configured by a conventional technique such as MPEG1, 2, 4, 4AVC, etc., and the detailed description thereof is omitted.
  • the additional information generation unit 102 includes a high-resolution image generation unit 121, a motion vector detection unit 122, a spatio-temporal interpolation image generation unit 123, a generation mode selection unit 124, and a variable length encoding 125.
  • the high-resolution image generation unit 121 has an internal memory that stores an image with a high resolution, and has already been increased in resolution according to the motion vector detected by the motion vector detection unit 122. By acquiring a partial image from the already-processed image, the resolution of the low-resolution video data locally decoded in the encoding unit 101 is increased (the second to fourth modes). This high resolution is executed in the second to fourth modes (B) to (D). The resolution enhancement is performed in the additional information generation unit 102, and the generation mode selection unit 124 evaluates the accuracy of the resolution increase and the amount of generated coding, and is used to select a generation mode.
  • the motion vector detector 122 detects a motion vector from the high-resolution video data HV1. For example, when the generation mode selected by the generation mode selection unit is the second mode, the motion vector detection unit 122 searches for a forward image from among the already high-resolution images. To detect. Similarly, in the third mode, a motion vector is detected by searching for a backward image, and in the fourth mode, a forward motion vector and a backward motion vector are detected or in the same direction. A plurality of motion vectors are detected.
  • FIG. 3 is an explanatory diagram of the difference motion vector.
  • the right side of the figure represents the current input image included in the high-resolution video data.
  • the left side shows an image with already high resolution.
  • the hatched part on the right represents the block that is the target of motion vector detection in the input image.
  • the broken line portion on the left represents a region of a similar (or the same) partial image searched from an already resolution-enhanced image.
  • the high-resolution MV in the figure shows motion vector detection.
  • the motion vector detected by the output unit 122 is shown.
  • the hatched portion on the left represents a region of the partial image detected by the motion vector detection unit 118 in the corresponding low-resolution image.
  • a stream MV in the figure shows a motion vector detected from the low-resolution image by the motion vector detection unit 118.
  • the high-resolution MV and the stream MV are scaled to the same size.
  • the variable-length encoding unit 125 encodes the differential motion vector between the high-resolution MV and the stream MV. Thereby, the code amount of motion information can be reduced. As shown in Fig. 3, the high-resolution MV and the stream MV are considered to have almost the same value. The high-resolution MV can express more accurate movement.
  • the spatiotemporal interpolation image generation unit 123 generates a high-resolution image by interpolating the pixels using pixels existing in the temporal and spatial surroundings. This higher resolution is executed in the first mode (A).
  • FIGS. 4A and 4B are explanatory diagrams of high-resolution image generation that realizes double resolution in the horizontal and vertical directions by spatiotemporal pixel interpolation.
  • Fig. 4A vertical circles represent pixels in the same image.
  • Figure 4A shows the pixels of three images at different times.
  • the hatched circles indicate the pixels of the low-resolution image, and the open circles indicate the pixels that should be interpolated in the high-resolution image.
  • interpolation is performed using information on surrounding pixels as shown in the figure. At this time, pixels with already high resolution of images having different times may be used.
  • the interpolated pixel is generated by weighting and averaging each of a plurality of surrounding pixels.
  • FIG. 4B shows two images. For example, when the pixel indicated by b is generated by spatio-temporal pixel interpolation, the pixel is similarly interpolated using temporally and spatially adjacent pixels.
  • the spatiotemporal interpolation image generation unit 123 interpolates pixels by filtering a plurality of pixels existing in the temporal direction and the spatial direction.
  • the generation mode selection unit 124 selects a high-resolution image generation mode (the above-described conversion mode) for each block.
  • a selection criterion for example, first, four signs in the sign key 101 are used.
  • the above (A) to (D) may be selected corresponding to the encoding modes (a) to (d), and the accuracy of the high-resolution image and the amount of generated code are evaluated. May be selected.
  • the four coding modes in the coding unit 101 are: (a) Intra coding mode, (b) Forward prediction coding mode, (c) Backward prediction coding mode, and (d) Bi-predictive coding. Mode.
  • FIG. 5 is a diagram showing a relationship between a low resolution image and a high resolution image.
  • II, B2, B3, ... indicate low-resolution images in display order.
  • I indicates the intra-coded picture in (a) above.
  • P indicates the unidirectional prediction code picture of (b) or (c).
  • B represents the bi-predictive coded picture of (d) above.
  • the numbers next to I, B, and P indicate the display order.
  • the numbers in () indicate the encoding order.
  • H1, H2, H3, ... in the lower part of the figure indicate high-resolution images corresponding to the respective low-resolution images.
  • the Hl, H5, and H6 pictures are increased in resolution by temporal and spatial pixel interpolation in the (A) first mode.
  • the H2, H3, H8, and H9 pictures have the same resolution as the above (A) mode, and the resolution is improved by the spatio-temporal interpolation.
  • the resolution is increased by acquiring partial images.
  • H4, H7, and H10 pictures are either high resolution by spatio-temporal interpolation in the mode (A) above, or a part from a high-resolution picture in the forward direction according to the motion vector (B)
  • the resolution is increased by acquiring a typical image.
  • different modes can be used for each block in the picture.
  • variable length encoding 125 uses the conversion mode information representing the first mode as additional information. Variable length coding is performed, and when the selected generation mode is the second to fourth modes, conversion mode information and motion information are variable length coded as additional information. At that time, the variable length coding unit 125 performs variable length coding on the motion information as a difference motion vector.
  • FIGS. 6A and 6B are explanatory views showing generation mode codes.
  • the encoding mode column indicates the encoding mode of the low resolution image.
  • the interpolation generation mode column indicates a corresponding high-resolution image generation mode (conversion mode). That is, “INTRA interpolation” indicates (A), “MC FWD” indicates (B), “MC BWD” indicates (C), and “MC BID” indicates (D).
  • ⁇ MC Weigh shows that in the case of (D) above, a high-resolution image is generated by linear prediction with weighting using multiple high-resolution images.
  • INTRA Interpolation Weight indicates that in the case of (A) above, a plurality of high resolution images are used to generate a high resolution image by weighting filtering.
  • “INTRA-MC mixing” indicates that the above (A) and any of the above (B) to (D) are mixed to generate a high-resolution image.
  • the code of the generation mode is assigned in association with the code mode of the block of the low resolution image corresponding to the block of the high resolution image. That is, the code of the generation mode is assigned so as to be shortened (to be 0) when the code key mode and the generation mode are similar. Now, pay attention to the generation mode “MC BID” column.
  • the generation mode power of a block with a high-resolution image is S "MC BID ⁇
  • the encoding mode of the block of the low-resolution image corresponding to the block is" INTER- BID ",” INTER- BWD ' ⁇ "I NTER-
  • the codes of the corresponding block of the high resolution image are “0”, “3”, “3”, and “6”, respectively.
  • FIG. 6B is a diagram showing a variable-length code table in the generation mode more specifically.
  • a table T1 indicates a variable length code table when the code mode is the above (a).
  • tables T2, ⁇ 3, and ⁇ 4 show variable length code tables when the code mode is (b) (c) (d) above.
  • the code of the generation mode is “0 ⁇ .
  • the code of the generation mode is “: T”.
  • the codes are assigned so as to be short.
  • the encoding of the generation mode is not limited to this.
  • the coding of the generation mode may be a coding method using the probability of the amount of generated code (R, so-called “arithmetic coding”).
  • FIG. 7 shows image encoding processing in encoding section 101 and additional information generation section 102 and It is a flowchart which shows an additional information production
  • encoding section 101 performs encoding in block units (more precisely, macroblock units) (S71), and generation mode selection section 124 receives the macroblock from variable length encoding section 113.
  • the sign of the lock is obtained (S72).
  • the locally decoded picture of the low-resolution image is stored in the reference memory in the predicted image generation unit 117 in units of blocks.
  • the high-resolution image generation unit 121 and the spatiotemporal interpolation image generation unit 123 generate a high-resolution image corresponding to the encoded low-resolution image (S73), and the motion vector detection unit 122 Detects the motion vector of the newly input high-resolution video data HV1 using the generated high-resolution image as a search target (S74), and detects the motion vector detected by the motion vector detection unit 118. Then, the difference motion vector from the motion vector of the high resolution image is calculated (S75).
  • the spatiotemporal interpolation image generation unit 123 generates a high resolution image from the corresponding low resolution image by pixel interpolation by spatiotemporal interpolation (S76).
  • the generation mode selection unit 124 selects an optimal generation mode based on the encoding residual of the low resolution image and the motion vector (S77).
  • the variable length coding unit 125 performs variable length coding on the additional information (S78). That is, the variable length encoding unit 125 encodes the selected generation mode, and also encodes the difference motion vector if the selected generation mode is the second to fourth modes.
  • FIG. 8 is a flowchart showing the generation mode selection process in S77 of FIG.
  • the generation mode selection unit 124 has the information amount of the coding residual acquired in S72 smaller than the threshold value Thl, and the motion vector detected in S74 or the motion detected by the motion vector detection unit 118 If the vector is smaller than the threshold Th2, the generation mode corresponding to the encoding mode is selected from the first to fourth modes (higher resolution using the motion vectors (B) to (D) above). Select (S83).
  • the generation mode selection unit 124 when the information amount of the sign key residual obtained in S72 is larger than the threshold value TH1, or the motion vector detection or motion vector detection unit 118 detected in S74 If the motion vector detected by (1) is larger than the threshold value TH2, the first mode (higher resolution by spatio-temporal pixel interpolation in (A) above) is selected as the generation mode (S84). [0066] In this generation mode selection process, when the motion in the high-resolution image and the low-resolution image is severe, the first mode is set as the generation mode to suppress the increase in the code amount.
  • the generation mode selector 124 selects the first mode ((A) above as the generation mode. Select higher resolution by spatio-temporal pixel interpolation). Specifically, the generation mode selection unit 124 calculates a variance value with the surrounding motion vector (S82a), and if the value is threshold or larger than the value (S82b), the first mode is selected. Select (S84).
  • FIGS. 9A and 9B are explanatory diagrams illustrating a stream format example of additional information associated with the stream data by the variable length coding unit 125.
  • FIG. 9A shows a format example in which additional information is added as user data in units of pictures. That is, the additional information in units of macroblocks is added as user data to the stream data portion that is the power of the picture header and picture data.
  • This user data is data that the user may arbitrarily set in the stream.
  • FIG. 9B shows a format example in which the output means embeds additional information in the stream data.
  • additional information for each macroblock is embedded in the macroblock data.
  • Fig. B can reduce the amount of data in that a macroblock address is not required.
  • the additional information may be electronically transmitted and substantially carried in the stream data by an information loading technique such as a technique, and the loaded stream data may be transmitted.
  • the encoding unit 101 acquires additional information from the additional information generation unit 102, and uses electronic watermarking technology or the like to add additional information to the image data to be encoded within a range that does not impair the image quality of the decoded image. It is good also as a structure to crawl into.
  • Digital watermarking techniques include time axis difference embedding method, space axis difference embedding method, layer structure embedding method, wavelet transform, and spectrum diffusion.
  • FIG. 10 is a flowchart showing the decryption process in the decoding device 2.
  • the decoding device 2 determines whether or not the size is a size that can be displayed on the connected display (S102).
  • the low resolution video data LV2 decoded by the encoding unit 201 is output for display. (S104). If the size is displayable, a high-resolution image is generated from the low-resolution video data LV2 decoded by the decoding unit 201 (S103), and is output for display (S104).
  • FIG. 11A is a flowchart showing the high-resolution image generation process in S103 of FIG.
  • the resolution increasing unit 202 performs variable length decoding on the additional information (S111), determines whether or not the additional mode includes generation mode information (that is, conversion mode information) (S112), In some cases, a high-resolution image is generated according to the generation mode information (S113), and if not, a high-resolution image is generated by spatio-temporal pixel interpolation (S114), and the generated high-resolution image is output (S115).
  • generation mode information that is, conversion mode information
  • this high-resolution image generation processing is performed, for example, when additional information is provided in units of macroblocks, and is processed in units of macroblocks, and when additional information is provided in units of pictures. Are processed in units of pictures.
  • FIG. 11B is a flowchart showing an outline of the high resolution processing shown in step S113 of FIG. 11A.
  • the high resolution unit 202 determines the generation mode information (that is, conversion mode information) in the additional information (S120), and if the generation mode information indicates (A) INTRA interpolation, INTRA interpolation is performed. If the generation mode information indicates (B) MC FWD or (C) MC BWD, MC interpolation is performed (SI 22), and the generation mode information indicates (D) MC BID. In this case, MC BID interpolation processing is performed (SI 23), and when the generation mode information power NTRA-MC mixing processing is indicated, INTRA-MC mixing processing is performed (S 124).
  • any interpolation processing is selected according to a certain rule. Moyore. For example, a low-resolution image encoding mode corresponding to an image to be processed by interpolation processing (the above (a) intra encoding mode, (b) forward prediction encoding mode, (c) backward prediction) Interpolation processing may be selected in accordance with the encoding mode and (d) bi-predictive encoding mode).
  • FIG. 11C is an explanatory diagram of the MC interpolation process in step S122 of FIG. 11B.
  • a high-resolution image that shows the pixels in one horizontal row or one vertical column of the reference image.
  • White circles indicate pixels included in the low-resolution image, and black circles indicate interpolated pixels.
  • the right side of the figure shows one horizontal row or one vertical column image in the high resolution processing target image.
  • White circles indicate the pixels included in the low-resolution image, and broken circles indicate the pixels to be interpolated. It is assumed that the motion vector of block B1 in the image to be processed points to a region R1 in the image with a high resolution.
  • the resolution increasing unit 202 interpolates the pixel position al to be interpolated in the block B1 using the pixel value of the pixel pi in the region R1, and the pixel position a2 to be interpolated in the block B1. Is interpolated using the pixel value of pixel p2 in region R1.
  • the high resolution unit 202 interpolates the pixel position a3 to be interpolated in the block B2 by using the pixel value of the pixel p3 in the region R2, and the pixel position a4 to be interpolated in the block B2. Is interpolated using the pixel value of pixel p4 in region R2.
  • FIG. 1 This figure shows the case where the interpolation generation modes are (B) MC- FWD and (C) MC- BWD.
  • the interpolation generation mode is (D) MC—BID
  • the high resolution unit 202 obtains a weighted average based on two pixel values obtained from two images with high resolution. The pixel value of the pixel to be interpolated is calculated.
  • FIG. 11D is a flowchart showing the MC interpolation process shown in step S122 of FIG. 11B in more detail. This figure shows the processing for one block when the resolution of the processing target image is increased in units of blocks.
  • the decoding device 2 has a memory for holding the image whose resolution has been completed and the image to be processed. The image whose resolution has been completed is referred to when interpolation is performed using motion vectors.
  • the image to be processed is composed of pixels constituting a low resolution image and pixels to be interpolated.
  • the resolution enhancement unit 202 performs variable length decoding on the differential motion vector included in the additional information.
  • the resolution increasing unit 202 interpolates all the pixels to be interpolated in the block in the loop 1 process (S133 to S137).
  • the high resolution unit 202 specifies a pixel corresponding to the pixel to be interpolated in the specified rectangular area (S134), reads the value of the specified pixel from the memory (S135), and reads the read value.
  • the obtained pixel value is written in the memory as the pixel value to be interpolated in the block (S136).
  • all the pixels to be interpolated in the processing target image are interpolated using the pixel values read from the reference image according to the motion vector.
  • FIG. 11E is a flowchart showing the MC-BID interpolation process shown in step S123 of FIG. 11B in more detail.
  • FIG. 11E is different from FIG. 11D in that steps S130a to Sl35a and SI 37a are provided instead of steps S130 to S135 and S137, and that S140 has been added. The description of the same points will be omitted, and different points will be mainly described below.
  • the resolution enhancement unit 202 performs variable length decoding on the two differential motion vectors included in the additional information (S 130a), and converts the obtained two differences into the corresponding two motion vectors of the low resolution image.
  • the two motion vectors H-MV1 and H-MV2 for the high-resolution image (S131a) the two rectangular areas in the two reference images with high resolution are specified (S132a). .
  • the resolution increasing unit 202 interpolates all the pixels to be interpolated in the block in the loop 1 process (S133a to S137a).
  • the high resolution unit 202 specifies two pixels corresponding to the pixel to be interpolated in the two specified rectangular areas (S 134a), and reads the values of the two specified pixels from the memory. (S135a).
  • the weighted average of the two read pixel values is calculated.
  • the weight of each pixel value may be determined according to the distance from the processing target image to each reference image, for example. Further, the weight may be changed according to the magnitude of the motion vector corresponding to the two pixel values.
  • the weight of the pixel value corresponding to the smaller of the two motion vectors may be greater than the weight of the other pixel value.
  • the weighted average calculation result is written in the memory as the pixel value to be interpolated (S136).
  • S136 the pixel value to be interpolated.
  • all pixels to be interpolated in the processing target image are based on two pixel values read from two reference images according to two motion vectors, Is interpolated. Note that in the MC-BID interpolation process of FIG. 11E, two motion vectors, force using two reference images, three or more motion vectors, and three or more reference images may be used.
  • FIG. 11F is a flowchart showing in more detail the INTRA-MC mixed interpolation process shown in step S124 of FIG. 11B.
  • Fig. 11F is different from Fig. 11E in that S150 and S151 forces were added. The description of the same points will be omitted, and different points will be mainly described below.
  • the high resolution unit 202 determines whether the pixel to be interpolated should be subjected to INTRA interpolation or MC interpolation. This determination can be based on the position in the block of the pixel to be interpolated and whether the pixel adjacent to the pixel to be interpolated is a pixel of a low resolution image or an interpolated pixel. For example, if the adjacent pixel is a pixel of a low resolution image, it is determined to be INTRA interpolation, and if the adjacent pixel is an interpolation pixel, it is determined to be MC interpolation. If it is determined to be INTRA interpolation, the high resolution unit 202 performs INTRA interpolation on the pixel to be interpolated in S151.
  • determination may be made for each force block or slice for determining whether the INTRA interpolation should be performed for each pixel to be interpolated or the force to be MC-interpolated.
  • variable length coding unit 125 may temporarily input the low resolution image bitstream LVS from the variable length code keying unit 113 and output it in association with the additional information.
  • the generation of a high resolution image from a low resolution image can be realized with a low processing amount and high image quality. it can.
  • the first embodiment may be modified as follows within a practical range.
  • the additional information generation unit 102 in FIG. 2 removes the high-resolution image generation unit 121, and instead uses the high-resolution image signal HV1 at the same time as the decoded high-resolution image signal as a search target to the motion vector detection unit 122.
  • An input configuration may be used.
  • the motion detection unit 122 detects a motion vector of the high resolution image from the high resolution image signal HV1, and generates a differential motion vector for the high resolution image. By doing so, the configuration of the encoding device 1 can be simplified, and a low processing amount can be realized.
  • the additional information generation unit 102 in FIG. 2 removes the high-resolution image generation unit 121 and replaces it.
  • the high resolution image signal HV2 at the same time as the decoded high resolution image signal may be input from the high resolution section 202 to the motion vector detection section 122 as a search target.
  • the motion detector 122 detects a motion vector of the high resolution image from the high resolution image signal HV1 and the high resolution image signal HV2, and generates a differential motion vector for the high resolution image.
  • the high-resolution image generation unit 121 may be used only for selecting a generation mode without removing the high-resolution image generation unit 121. In this way, it is possible to achieve high image quality while reducing the processing for increasing the resolution of the decoded image one frame before.
  • FIG. 12 is a flowchart showing another example of the image encoding process in the second embodiment. This figure is executed instead of FIG. 7 and FIG. 8 in the first embodiment.
  • a motion vector detection unit 122 detects a motion vector from an original image (high resolution image HV1) with reference to an already high resolution image in the high resolution image generation unit 121 ( A difference motion vector between the detected motion vector and the motion vector detected by the motion vector detecting unit 118 is calculated (S122).
  • the generation mode selection unit 124 calculates a difference value D between the high-resolution image generated by the high-resolution image generation unit 121 according to the differential motion vector and the original image (high-resolution image HV1) (S123).
  • the amount of generated code when the vector is encoded as additional information is calculated (S124), and the COST shown in the following equation is calculated (S125).
  • High-resolution image Interpolation-generated image I is the sum of the difference values D calculated in S123.
  • the high-resolution image generated according to the original image (high-resolution image HV1) and the difference motion vector It means the sum of pixel value differences for each block from the digitized image. If this value is 0, it means that the interpolated image is exactly the same as the original image (the image quality of the interpolated image is the best). The larger this value, the farther the interpolated image is from the original image. This means that the image quality is poor and the image quality is poor.
  • the generated code amount is calculated in S124. If the generated code amount is small, it means that the encoding efficiency of the low resolution image bitstream LVS is deteriorated too much.
  • COST value Larger means lower resolution image bitstream LVS code efficiency . If the COST value is large, it means that at least one of the image quality and coding efficiency of the high-resolution image is bad. The smaller the COST value, the better the image quality and coding of the high-resolution image. It means to achieve both efficiency and good.
  • the generation mode selection unit 124 compares the calculated COST and COST1 (S126), and if COST is small, updates the value of COST1 to the value of COST (S127).
  • the initial value of COST1 is the minimum COST threshold that should be secured.
  • COST1 is the minimum COST value in the loop processing until the search range of motion beta is completed (S128). Will be updated.
  • the generation mode selection unit 124 determines whether or not the search range has ended. However, the generation mode selection unit 124 selects several generation modes from the generation modes (second to fourth modes) similar to the encoding mode. It may be determined whether or not an attempt has been made.
  • the generation mode selection unit 124 can obtain the motion vector or the generation mode that becomes the minimum COST1 for the high-resolution image generated according to the difference motion vector.
  • the spatiotemporal interpolation image generation unit 123 generates an interpolation image by spatiotemporal interpolation (S129), and the generation mode selection unit 124 calculates the generated interpolation image and the original image (high resolution image HV1).
  • the difference value D is calculated (S130), and COST is calculated (S131).
  • the generation mode selection unit 124 compares the calculated COST and COST2 (S132), and updates the value of COST2 to the value of COST if COST is small (S133).
  • the initial value of COST2 is the minimum threshold value of COST to be secured, and may be the same value as the initial value of COST1.
  • the generation mode selection unit 124 determines whether or not the generation method by interpolation has been completed. This determination is performed while changing the type of filter used for interpolation and the selection of strength. It is only necessary to determine whether or not it has been completed. The type and strength of the filter used for interpolation may be selected according to the downsampling information DSI.
  • the generation mode selection unit 124 can obtain a generation mode that is the minimum COST2 for a high-resolution image generated by space-time interpolation.
  • the generation mode selection unit 124 corresponds to the smallest one of COST1 and COST2.
  • a generation mode is selected (S135).
  • the variable length encoding unit 125 encodes the generation mode information indicating the selected generation mode (S136).
  • COST is a measure for evaluating the poor image quality of high-resolution images and the deterioration of the coding efficiency of low-resolution images by adding additional information.
  • the generation mode selection unit 124 in the present embodiment is configured to calculate COSTs in various generation modes and select a generation mode that minimizes COST. As a result, the image quality of the high-resolution image can be improved, and the deterioration of the encoding efficiency due to the addition of additional information can be minimized.
  • an encoding and decoding program and a code string (data stream) for realizing the configuration of the encoding process and the decoding process shown in the above embodiments are recorded on a recording medium such as a flexible disk.
  • a recording medium such as a flexible disk.
  • FIGS. 13 (a) to 13 (c) show the coding process or the decoding process of Embodiments 1 and 2 described above by a computer system using a flexible disk storing the encoding and decoding programs. It is a figure for demonstrating the case where it implements.
  • Fig. 13 (b) shows the appearance, cross-sectional structure, and flexible disc as seen from the front of the flexible disc
  • Fig. 13 (a) shows an example of the physical format of the flexible disc that is the main body of the recording medium.
  • the flexible disk FD is built in the case F, and on the surface of the disk, a plurality of tracks Tr are formed concentrically from the outer periphery toward the inner periphery, and each track has 16 sectors Se in the angular direction. It is divided. Therefore, data as the program is recorded in the programmed area.
  • Fig. 13 (c) shows a configuration for recording and reproducing the program on the flexible disk FD.
  • the data as the above program is written from the computer system Cs via the flexible disk drive.
  • a flexible disk drive is used. Eve reads the program from the flexible disk and transfers it to the computer system.
  • the flexible disk is used as the recording medium, but the same can be done using an optical disk.
  • the recording medium is not limited to this, and any recording medium such as an IC card or a ROM cassette that can record a program can be used.
  • the encoding method described in the above embodiment 'decoding method is used in mobile communication devices such as mobile phones and car navigation systems, and in imaging devices such as digital video cameras and digital still cameras. It is possible to mount with the semiconductor.
  • the transmission / reception type terminal having both an encoder and a decoder there are three possible implementation formats: a transmitting terminal with only an encoder and a receiving terminal with only a decoder. Specific application examples will be described with reference to FIGS.
  • FIG. 14 is a block diagram showing the overall configuration of a content supply system exlOO that implements a content distribution service.
  • the communication service provision area is divided into desired sizes, and base stations exl07 exl10, which are fixed radio stations, are installed in each cell.
  • This content supply system exlOO is a computer exl 11 PDA (personal digital assistant) exl 12, camera exl via Internet service provider exl02 and telephone network exl04, and base station exl07 exl 10, for example.
  • PDA personal digital assistant
  • l 3 mobile phone exl 14, mobile phone with camera exl 15, etc. are connected.
  • the content supply system exlOO is not limited to the combination shown in Fig. 14, and any combination of them may be connected. Further, each device may be directly connected to the telephone network exl04 without going through the base stations exl 0 7 exl 10 which are fixed radio stations.
  • the camera exl 13 is a device capable of shooting a moving image such as a digital video camera.
  • the mobile phonetic is based on PDC (Personal Digital Communications), CDMA (Code Division Multiple Access), W—CDMA (Wideband-Code Division Multiple Access), or GSM (Global System for Mobile Communications).
  • PDC Personal Digital Communications
  • CDMA Code Division Multiple Access
  • W—CDMA Wideband-Code Division Multiple Access
  • GSM Global System for Mobile Communications
  • a mobile phone or a PHS Personal Handyphone System
  • the streaming server exl03 starts from the camera 6 113 to the base station 6 109, the telephone network exl04. It is possible to perform live distribution based on the encoded data transmitted by the user using the camera exl13.
  • the sign processing of the captured data may be performed by the camera exl 13 or may be performed by a server or the like that performs data transmission processing.
  • the moving image data shot by the camera exl 16 may be transmitted to the streaming server exl 03 via the computer exl 11.
  • the camera exl 16 is a device that can shoot still images and videos such as digital cameras. In this case, the video data can be encoded with either the camera exl 16 or the computer exl 11.
  • the encoding process is performed in LSI exl 7 included in the computer exl 11 and the camera ex 116.
  • the image encoding / decoding software may be incorporated in some storage medium (CD-ROM, flexible disk, hard disk, etc.) that is a recording medium readable by the computer exl 11 or the like. Furthermore, you may transmit moving image data with the mobile phone exl 15 with a camera. The moving image data at this time is data encoded by the LSI of the mobile phone exl 15.
  • this content supply system exlOO content (for example, video of music live) that the user has photographed with the camera exl l3, camera exll6, etc., is encoded and processed as in the above embodiment. While sending to the streaming server exl03, the streaming server exl03 streams the content data to the requested client. Examples of the client include a computer exl l l, a PDA exl l 2, a camera exl l 3 and a mobile phone exl 14 capable of decoding the encoded data. In this way, the content supply system exlOO can receive and play back the encoded data at the client, and further receive, decode and play back the data in real time at the client. It is a system that can also realize
  • the image encoding device or the image decoding device described in each of the above embodiments may be used for encoding and decoding of each device constituting the system.
  • a mobile phone will be described as an example.
  • FIG. 15 is a diagram showing a mobile phone exl 15 using the image coding method and the image decoding method described in the above embodiment.
  • the mobile phone exl l 5 can take images and still images from the antenna ex201, CCD camera, etc. for transmitting and receiving radio waves to and from the base station exl lO Camera unit ex 203, a camera unit captured video at ex 203, a display unit ex202 such as a liquid crystal display video and the like received by the antenna ex201 displays the decoded data, a body unit including a set of operation keys ex 204 groups, audio output Audio output unit ex20 8 for speakers, etc., audio input unit ex205 such as microphone for audio input, captured video or still image data, received e-mail data, video data or still image data
  • the recording medium ex207 for storing the encoded data or the decoded data, and the slot part ex206 for allowing the recording medium ex207 to be attached to the cellular phone exl 5 are provided.
  • Recording media ex207 is a flash memory device that is a kind of EEPROM (Electrically Erasable and Programmable Read Only Memory) that is a nonvolatile memory that can be electrically rewritten and erased in a plastic case such as an SD card. is there
  • the mobile phone exl 5 has a power supply circuit unit ex310, an operation input control unit ex304, and a main control unit ex311 which is configured to control the respective units of the main body unit including the display unit ex202 and the operation key ex204.
  • Image code unit ex312, camera interface unit ex303, LCD (Liquid Crystal Display) control unit ex302, image decoding unit ex309, demultiplexing unit ex308, recording / playback unit ex307, modulation / demodulation circuit unit ex306 and audio processing unit ex305 They are connected to each other via the synchronous bus ex313.
  • the power circuit unit ex310 can operate the digital mobile phone exl 15 with a camera by supplying power from the battery pack to each unit when the end call and the power key are turned on by a user operation. Start to state.
  • the mobile phone exl l 5 receives the audio signal collected by the audio input unit ex205 in the voice call mode based on the control of the main control unit ex311 composed of CPU, ROM, RAM, etc. by the audio processing unit e x305. This is converted into digital audio data, and this is subjected to spectrum spreading processing by the modulation / demodulation circuit unit ex306, and after being subjected to digital analog conversion processing and frequency conversion processing by the transmission / reception circuit unit ex301, it is transmitted through the antenna ex201.
  • the mobile phone ex 115 amplifies the received data received by the antenna ex201 in the voice call mode and performs frequency conversion processing and analog-digital conversion processing, and the modulation / demodulation circuit unit ex306 performs spectrum reverse processing. After diffusion processing and conversion to analog audio data by the audio processing unit ex305, this is output via the audio output unit ex208.
  • the text data of the e-mail input by operating the operation key ex2 04 on the main unit is sent to the main control unit ex311 via the operation input control unit ex304.
  • the main control unit ex311 performs spread spectrum processing on the text data in the modulation / demodulation circuit unit ex306, performs digital analog conversion processing and frequency conversion processing in the transmission / reception circuit unit ex301, and then transmits the text data to the base station ex110 via the antenna ex201.
  • the image data captured by the camera unit ex203 is supplied to the image encoding unit ex312 via the camera interface unit ex303.
  • the image data captured by the camera unit ex203 can be directly displayed on the display unit ex202 via the camera interface unit ex303 and the LCD control unit ex302.
  • the image encoding unit ex312 is configured to include the image encoding device described in the present invention, and the image data supplied from the camera unit ex203 is used for the image encoding device shown in the above embodiment. It is converted into encoded image data by compressing and encoding using the encoding method, and this is sent to the demultiplexing unit ex308.
  • the cellular phone exl 5 sends the voice collected by the voice input unit ex205 during imaging by the camera unit ex203 to the demultiplexing unit ex308 via the voice processing unit ex305 as digital voice data.
  • the demultiplexing unit ex308 multiplexes the encoded image data supplied from the image encoding unit ex312 and the audio data supplied from the audio processing unit ex305 by a predetermined method, and the resulting multiplexing
  • the data is subjected to spread spectrum processing by the modulation / demodulation circuit unit ex306, digital-analog conversion processing and frequency conversion processing by the transmission / reception circuit unit ex301, and then transmitted through the antenna ex201.
  • the received data received from the base station exl 10 via the antenna ex201 is subjected to spectrum despreading processing by the conversion circuit unit ex306. Then, the multiplexed data obtained as a result is sent to the multiplex separation unit ex308.
  • the multiplexing / demultiplexing unit ex308 separates the multiplexed data to separate the bit stream of the image data and the bit stream of the audio data.
  • the encoded video data is supplied to the video decoding unit ex309 via the synchronization bus ex313, and the audio data is supplied to the audio processing unit ex305.
  • the image decoding unit ex309 has a configuration including the image decoding apparatus described in the present invention, and corresponds to the encoding method shown in the above embodiment for the bit stream of image data.
  • the decoded moving image data is generated by decoding using the decoding method, and this is supplied to the display unit ex202 via the LCD control unit ex302, so that it is included in the moving image file linked to the homepage, for example.
  • the audio processing unit ex305 converts the audio data into analog audio data, and then supplies the analog audio data to the audio output unit ex208.
  • the audio data included in the moving image file linked to the homepage is stored. Played.
  • the digital broadcasting system also includes at least the image coding of the above embodiment. Either a device or an image decoding device can be incorporated.
  • a bit stream of video information is transmitted to a communication or broadcasting satellite ex410 via radio waves.
  • the broadcasting satellite ex410 transmits a radio wave for broadcasting, and this radio wave is received by a home antenna ex406 having a satellite broadcasting receiving facility, such as a television (receiver) ex401 or a set top box (STB) ex407.
  • a satellite broadcasting receiving facility such as a television (receiver) ex401 or a set top box (STB) ex407.
  • the device decodes the bitstream and plays it back.
  • the image decoding device described in the above embodiment can be mounted on the playback device ex403 that reads and decodes the bitstream recorded on the storage medium ex402 such as a CD or DVD as a recording medium. is there. In this case, the reproduced video signal is displayed on the monitor ex404.
  • a configuration in which an image decoding device is installed in a cable set for cable TV ex405 or a set-top box ex407 connected to a satellite / terrestrial broadcast antenna ex406 and this is played back on a TV monitor ex408 is also considered. It is done.
  • the image decoding apparatus may be incorporated in the television, not the set top box.
  • from car ex410 with car ex412 with antenna ex411 Can receive a signal from the base station ex 107 and the like, and can play a moving image on a display device such as the car navigation ex413 of the car ex412.
  • the image signal can be encoded by the image encoding device shown in the above embodiment and recorded on a recording medium.
  • a recorder ex420 such as a DVD recorder that records image signals on a DVD disc ex421 and a disk recorder that records on a hard disk. It can also be recorded on the SD card ex422. If the recorder ex420 includes the image decoding device shown in the above embodiment, the image signal recorded on the DVD disc ex421 or the SD card ex422 can be reproduced and displayed on the monitor ex408.
  • the configuration of the car navigation ex 413 is, for example, the configuration shown in FIG. 15 excluding the camera unit ex 203, the camera interface unit ex 303, and the image encoding unit ex 312. Exl 11 and TV (receiver) ex401 are also considered.
  • the terminal such as the mobile phone exl 14 is a transmitting terminal having only an encoder and a receiving terminal having only a decoder.
  • the terminal such as the mobile phone exl 14 is a transmitting terminal having only an encoder and a receiving terminal having only a decoder.
  • each functional block in the block diagrams shown in FIGS. 1 and 2 is typically realized as an LSI which is an integrated circuit device.
  • This LSI may be integrated into a single chip or multiple chips.
  • functional blocks other than memory may be integrated into a single chip.
  • IC system LSI
  • super LSI unoletra LSI because of the difference in power integration as LSI.
  • LSI power integration
  • the method of circuit integration is not limited to LSI, but may be realized by a dedicated circuit or a general-purpose processor. You can use a field programmable gate array (FPGA) that can be programmed after LSI manufacturing, or a reconfigurable processor that can reconfigure the connection and settings of circuit cells inside the LSI.
  • FPGA field programmable gate array
  • the central part is also realized by a processor and a program.
  • the image encoding method or the image decoding method shown in the above embodiment can be used in any of the above-mentioned device systems, and by doing so, in the above embodiment, The described effect can be obtained.
  • the present invention is suitable for an encoding device that encodes or decodes an image, a decoding device, a web server that distributes moving images, a network terminal that receives the same, a digital camera capable of recording and reproducing moving images, Suitable for mobile phones with cameras, DVD recorders / players, PDAs, personal computers, etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Television Systems (AREA)

Abstract

 本発明の復号化装置は、第1ビデオデータにおける画像の動きを示す動きベクトルを含む付加情報と、第1ビデオデータと同内容であって第1ビデオデータよりも解像度の低い第2ビデオデータの符号化データであるストリームデータとを取得する取得手段と、前記ストリームデータを第2ビデオデータの画像に復号化する復号化手段と、復号化された第2ビデオデータの画像に対して、付加情報を用いて補間することにより第1ビデオデータと同じ解像度の第3ビデオデータに変換する変換手段とを備える。                                                                                 

Description

明 細 書
復号化装置、符号化装置、復号化方法、符号化方法
技術分野
[0001] 本発明は、解像度の変換を伴うビデオデータの符号化装置および複号化装置に 関する。
背景技術
[0002] 特許文献 1には、解像度の変換を伴う復号化装置として、インターレース画像をプ ログレツシブ画像に変換する技術が開示されている。この従来技術では、インターレ ース画像の符号ィ匕ビットストリームに含まれる動きベクトルを利用して、プログレッシブ 画像を生成している。
[0003] 非特許文献 1では、インターレース画像からプログレッシブ画像の画素をフィルタ等 により推定し、その画素と類似の画像領域を動き予測により高解像度化を実現してい る。
[0004] 特許文献 2では、ベースとなるベース動画と、ベース動画を拡張した拡張動画とを 符号化するスケーラブル符号化にぉレ、て、ベース動画の画素値を符号化すると共に 、拡張動画とベース動画の画素値の差分を符号化する技術を開示してレ、る。
特許文献 1:特開平 10— 126749号公報号公報
非特許文献 1:「動き補償を用いたインタレース走査画像の順次走査変換法の検討」 (栗田泰一郎,杉浦幸雄,信学論 (D-II), V01.J78-D-II, no.l, pp.40— 49, Jan. 1995) 特許文献 2 :国際公開 2004/73312A1号パンフレット
発明の開示
発明が解決しょうとする課題
[0005] し力、しながら、非特許文献 1によれば、高解像度推定のためのフィルタの精度が悪 い場合には、誤った動きべ外ルを用いてしまう場合があり、高解像度画像の精度が 悪いという問題がある。
[0006] 特許文献 1によれば、ビットストリームに含まれる動きベクトルが必ずしも画像の動き と等しくないため、動きベクトルが誤っている場合があり、高解像度画像の精度が悪 いという問題がある。
[0007] さらに、非特許文献 1によれば復号装置において動きベクトルを検出するので、ビッ トストリームに含まれる動きベクトルよりも、画像の動きに近づけることができる反面、 復号装置における処理負荷が著しく増加するという問題がある。
[0008] また、特許文献 2によれば、ベース動画の画素値だけでなぐ拡張動画の差分画素 値を符号ィ匕することから低ビットレートイ匕が困難であるという問題がある。
課題を解決するための手段
[0009] 本発明の目的は、低解像度画像から高解像度画像の生成を、低ビットレート、低処 理量かつ高画質に実現する復号化装置および符号ィヒ装置を提供することにある。
[0010] 上記目的を達成するために本発明の復号化装置は、第 1ビデオデータにおける画 像の動きを示す動きベクトルを含む付加情報と、第 1ビデオデータと同内容であって 第 1ビデオデータよりも解像度の低い第 2ビデオデータの符号ィ匕データであるストリー ムデータとを取得する取得手段と、前記ストリームデータを第 2ビデオデータの画像 に復号化する復号化手段と、復号化された第 2ビデオデータの画像に対して、付カロ 情報を用いて補間することにより第 1ビデオデータと同じ解像度の第 3ビデオデータ に変換する変換手段とを備える。
[0011] この構成によれば、復号化装置は、画像の動きを示す付加情報をストリームデータ と共に得られるので、高解像度画像生成のために画像の動きを検出する必要がなく 、かつ復号時にリアルタイムに動きを検出する必要もないため、高解像度化のための 処理量を低減することができる。しかも、付加情報は第 1ビデオデータの画素値を示 す符号を含まないので、低ビットレートイ匕することができる。
[0012] ここで、前記変換手段は、前記付加情報から動きベクトルを抽出する抽出手段と、 抽出された動きベクトルを用いて、第 2ビデオデータの画像に画素を補間する補間手 段とを備えるようにしてもよい。
[0013] この構成によれば、第 2ビデオデータの画像に対して、動きベクトルに従って画素を 補間することにより高解像度画像を得ることができるので、処理量を少なくすることが できる。
[0014] ここで、前記変換手段は、前記付加情報から動きベクトルを抽出する抽出手段と、 復号化手段によって復号化された第 2ビデオデータの画像に対して、当該画像の画 素を用いて画素を補間する第 1補間手段と、復号化手段によって復号化された第 2ビ デォデータの画像に対して、抽出された動きベクトルを用いて第 2ビデオデータの画 像に画素を補間する第 2補間手段と、第 1補間手段および第 2補間手段を選択的に 用いて、第 3ビデオデータの画像を生成する生成手段とを備えるようにしてもよい。
[0015] この構成によれば、第 1補間手段による画像内の補間と、第 2補間手段による画像 間の補間とを選択的に用いることにより、第 3ビデオデータの画像を効率よく生成する こと力 Sできる。
[0016] ここで、前記第 2補間手段は、第 3ビデオデータの変換済の画像と、変換対象の第 3ビデオデータの画像と保持するためのメモリ手段と、変換対象の第 3ビデオデータ の画像における補間すべき画素位置を特定する第 1特定手段と、変換済の第 3ビデ ォデータの画像において、第 1特定手段に特定された画素位置に対応する画素を動 きべタトノレに従って特定する第 2特定手段と、第 2特定手段によって特定された画素 の値を読み出す読み出し手段と、読み出し手段によって読み出された画素の値に従 つて、第 1特定手段によって特定された画素位置に補間画素の値を書き込む書き込 み手段とを備えるようにしてもょレ、。
[0017] この構成によれば、変換対象の第 3ビデオデータの画像における補間すべき画素 を、動きベクトルに従って第 3ビデオデータの変換済の画像から得るので、少ない処 理量で効率よく画像間で補間することができる。
[0018] ここで、前記付加情報は、第 1ビデオデータを構成するブロック単位に動きベクトル を含み、前記第第 1特定手段は、ブロック内の補間すべき画素位置を特定し、前記 第第 2特定手段は、ブロック単位の動きベクトルに従って、第 1特定手段に特定され た画素位置に対応する画素を特定するようにしてよもレ、。
[0019] この構成によれば、変換対象の第 3ビデオデータのブロックにおける補間すべき画 素を、動きベクトルに従って第 3ビデオデータの変換済の画像から得るという、画像間 の補間を行うことができる。
[0020] ここで、前記付加情報は、第 1ビデオデータを構成するブロック単位に 2つの動きべ タトルを含み、前記第 2特定手段と、変換済の第 3ビデオデータの 2つの画像におい て、第 1特定手段に特定された画素位置に対応する 2つの画素を 2つの動きべクトノレ に従って特定し、前記読み出し手段は、第 2特定手段によって特定された 2つの画素 の値を読み出し、前記書き込み手段は、読み出し手段によって読み出された 2つの 画素の値に基づレ、て、前記補間画素の値を算出するようにしてもょレ、。
[0021] この構成によれば、変換済の第 3ビデオデータの 2つの画像を用いて、画像間の補 間を行うので、第 3ビデオデータをより高画質にすることができる。
[0022] ここで、前記生成手段は、第 2ビデオデータの画像が画像内符号化されている場合 には、当該画像を第 1補間手段を用いて、第 3ビデオデータの画像を生成し、第 2ビ デォデータの画像が画像間予測符号化されている場合には、当該画像を第 2補間 手段を用いて、第 3ビデオデータの画像を生成するようにしてもよい。
[0023] この構成によれば、第 2ビデオデータの画像の符号化方式と連動して第 3ビデオデ ータを生成する補間方法が定まるので、付加情報中に補間方法を示す情報がなくて もよぐ低ビットレートイ匕に適している。
[0024] また、本発明の符号化方法は、第 1ビデオデータを、第 1ビデオデータのよりも低い 解像度の第 2ビデオデータに変換する変換手段と、第 2ビデオデータをストリームデ ータに符号化する符号化手段と、第 1ビデオデータの動きを示し、第 2ビデオデータ の画像に画素を補間するための付加情報を生成する生成手段と、第 1ビデオデータ の画素値を示す符号を出力することなぐ前記ストリームデータと前記付加情報とを 出力する出力手段とを備える。
[0025] この構成によれば、画像の動きを示す付加情報を、低解像度の第 2ビデオデータか らではなく高解像度の第 1ビデオデータから検出するので、復号化装置では高解像 度画像を高画質に生成することができる。
[0026] また、本発明の複号化方法、符号化方法、それを実現するプログラムについても、 上記と同様の構成を有する。
発明の効果
[0027] 以上のように本発明の復号化装置は、画像の動きを示す付加情報をストリームデー タと共に得られるので、高解像度画像生成のために画像の動きを検出する必要がな ぐかつ復号時にリアルタイムに動きを検出する必要もないため、高解像度化のため の処理量を低減することができる。し力も、付加情報は第 1ビデオデータの画素値を 示す符号を含まないので、低ビットレー H匕することができる。
図面の簡単な説明
[図 1]図 1は、本発明の符号化装置および復号化装置の概略構成を示すブロック図 である。
[図 2]図 2は、符号ィ匕部 101および付加情報生成部 102の構成を示すブロック図であ る。
[図 3]図 3は、差分動きベクトルの説明図である。
[図 4A]図 4Aは、時空間画素補間による高解像度画像生成の説明図である。
[図 4B]図 4Bは、時空間画素補間による高解像度画像生成の説明図である。
[図 5]図 5は、低解像度画像と高解像度画像の関連を示す図である。
[図 6A]図 6Aは、補間画像生成モードの符号を示す説明図である。
[図 6B]図 6Bは、補間画像生成モードの符号を示す説明図である。
[図 7]図 7は、画像符号ィ匕処理を示すフローチャートである。
[図 8]図 8は、生成モード選択処理を示すフローチャートである。
[図 9A]図 9Aは、ストリームデータに関連付けられた付加情報のストリームフォーマット を示す説明図である。
[図 9B]図 9Bは、ストリームデータに関連付けられた付加情報のストリームフォーマット を示す説明図である。
[図 10]図 10は、複号化処理を示すフローチャートである。
[図 11A]図 11 Aは、図 10の S 103における高解像度画像生成処理を示すフローチヤ ートである。
[図 11B]図 11 Bは、図 11 Aのステップ S 113に示した高解像度化処理をより詳細に示 すフローチャートである。
[図 11C]図 11Cは、 MC補間処理の説明図である。
[図 11D]図 11Dは、図 11Bのステップ S122に示した MC補間処理をより詳細に示す フローチャートである。
[図 11E]図 11Eは、図 11Bのステップ S123に示した MC— BID補間処理をより詳細 に示すフローチャートである。
[図 11F]図 11Fは、図 11Bのステップ S124に示した INTRA— MC混合補間処理を より詳細に示すフローチャートである。
[図 12]図 12は、画像符号化処理の他の例を示すフローチャートである。
[図 13A]図 13Aは、記録媒体本体であるフレキシブルディスクの物理フォーマットの 例を示している。
[図 13B]図 13Bは、フレキシブルディスクの正面からみた外観、断面構造、及びフレキ シブルディスクを示す。
[図 13C]図 13Cは、フレキシブルディスク FDに上記プログラムの記録再生を行うため の構成を示す。
[図 14]図 14は、コンテンツ配信サービスを実現するコンテンツ供給システムの全体構 成を示すブロック図である。
園 15]図 15は、画像符号化方法と画像復号化方法を用いた携帯電話 exl l5を示す 図である。
[図 16]図 16は、携帯電話の外観を示す図である。
[図 17]図 17は、ディジタル放送用システムを示す図である。
符号の説明
1 符号化装置
2 複号化装置
100 低解像度化部
101 符号化部
102 付加情報生成部
103 復号化装置
201 複合化部
202 高解像度化部
HV1 高解像度画像
LV1 低解像度画像
LV2 低解像度画像 HV2 高解像度画像
LVS 低解像度画像ビットストリーム
AI 付加情報
DSI ダウンサンプリング情報
P1 ノ ラメータ
P2 ノ ラメータ
110 減算器
111 直交変換部
112 量子化部
113 可変長符号化部
114 逆量子化部
115 逆直交変換部
116 加算器
117 予測画像生成部
118 動きベクトル検出部
121 高解像度画像生成部
122 動きベクトル検出部
123 時空間補間画像生成部
124 生成モード選択部
125 可変長符号化部
発明を実施するための最良の形態
[0030] (実施の形態 1)
図 1は、本発明の実施の形態 1における符号化装置および復号化装置の概略構成 を示すブロック図である。
[0031] 同図のように符号化装置 1は、低解像度化部 100、符号化部 101、付加情報生成 部 102を備える。符号化装置 1のより具体的な装置は、例えばコンピュータ exl 11、 インタネットサービスプロバイダ exl02、ストリーミングサーバ exl03等である。
[0032] 低解像度化部 100は、高解像度ビデオデータ HV1を低解像度ビデオデータ LV1 に変換する。低解像度ビデオデータ LV1の解像度は高解像度ビデオデータの解像 度よりも低い。例えば、高解像度ビデオデータ HV1は VGA (640 * 480画素)、低解 像度ビデオデータ LV1は QVGA(320 * 240)である。
[0033] 符号化部 101は、低解像度ビデオデータ LV1を圧縮符号化する。この圧縮符号化 は、例えば、 MPEG1、 2、 4、 4AVC等である。符号化後の低解像度ビデオデータ L VIは、低解像度ビデオストリーム LVSとして出力される。
[0034] 付加情報生成部 102は、第 2ビデオデータを高解像度化するための付加情報 AIを 生成する。付加情報 AIは、高解像度ビデオデータ HV1における画像の動きを示す 動き情報と、低解像度ビデオデータから高解像度ビデオデータを生成するための変 換モード情報とを含む。変換モード情報は、(A)時間的空間的に周囲に存在する画 素を用いて画素を補間すべきことを示す第 1モード、 (B)付加情報が前方向動きべク トルを含むことを示す第 2モード、(C)付加情報が後方向動きベクトルを含むことを示 す第 3モード、(D)付加情報が複数の動きベクトルを含むことを示す第 4モードなどを 示す。第 1モード以外は、動きベクトルに従って、既に高解像度化済みの画像から部 分的な画像を取得することによって高解像度化すべきことを示す。変換モードは、復 号化装置 2における低処理量かつ高画質を実現するために、マクロブロック等を単位 に選択される。
[0035] また、図 1のように復号化装置 2は、復号化装置 200、高解像度化部 202を備える。
復号化装置 2の具体的な装置は、コンピュータ exl l l、テレビ ex401、 STBex407 などであり、高解像度画像を表示可能な機器である。
[0036] 復号化装置 200は、復号化部 201を備え、低解像度ビデオストリーム LVSを復号 化する。復号化部 201は、符号化部 101に対応し、例えば MPEG1、 2、 4、 4AVC 等により復号化する。復号ィ匕後の低解像度ビデオストリーム LVSは、低解像度ビデ ォデータ LV2として出力される。複号化装置 200の具体的な装置は、例えば、コンビ ユータ exl l l、 PDAexl l2、携帯電話機 exl l4、携帯電話機 exl l 5、デジタノレカメ ラ exl l6、 DVDレコーダ ex420などであり、低解像度のディスプレイを備える装置、 または選択的に低解像度画像を表示する装置である。
[0037] 高解像度化部 202は、低解像度ビデオデータ LV2を付加情報 AIに基づいて高解 像度ビデオデータ HV2に高解像度化する。
[0038] 図 2は、符号ィ匕部 101および付加情報生成部 102の詳細な構成を示すブロック図 である。同図のように符号化部 101は、減算器 110、直交変換部 111、量子化部 11 2、可変長符号化部 113、逆量子化部 114、逆直交変換部 115、加算器 116、予測 画像生成部 117、動きベクトル検出部 118を備える。この符号化部 101の構成は、 M PEG1、 2、 4、 4AVC等の従来技術により構成すればよいので詳細については説明 を省略する。
[0039] 付加情報生成部 102は、高解像度画像生成部 121、動きベクトル検出部 122、時 空間補間画像生成部 123、生成モード選択部 124、可変長符号化 125を備える。
[0040] 高解像度画像生成部 121は、高解像度化済みの画像を保持する内部メモリを有し 、動きベクトル検出部 122によって検出された動きベクトルに従って、内部メモリに保 持された既に高解像度化済みの画像から部分的な画像を取得することによって、符 号化部 101内で局所復号された低解像度ビデオデータを高解像度化する(上記第 2 〜第 4モード)。この高解像度化は、上記(B)〜(D)の第 2〜第 4モードで実行される 。また、この高解像度化は、付加情報生成部 102内部で行われ、生成モード選択部 124によって、高解像度化の精度および発生符号化量を評価し、生成モードの選択 するために用いられる。
[0041] 動きベクトル検出部 122は、高解像度ビデオデータ HV1から動きべクトノレを検出す る。例えば、動きベクトル検出部 122は、生成モード選択部により選択された生成モ 一ドが第 2モードの場合には、既に高解像度化済の画像のうち前方向の画像を探索 対象として動きベクトルを検出する。同様に、第 3モードの場合には後方向の画像を 探索対象として動きベクトルを検出し、第 4モードの場合には前方向の動きベクトルと 後方向の動きベクトルとを検出し、または同じ方向の複数の動きベクトルを検出する。
[0042] 図 3は、差分動きベクトルの説明図である。同図において右側は、高解像度ビデオ データに含まれる現在の入力画像を表している。左側は、既に高解像度化済の画像 を表してレ、る。右側のハッチング部分は入力画像における動きベクトル検出対象のブ ロックを表す。左側の破線部分は、既に高解像度化済の画像から探索された類似の (又は同じ)部分画像の領域を表す。つまり、同図の高解像度 MVは、動きベクトル検 出部 122によって検出された動きベクトルを示す。
[0043] また、左側のハッチング部分は、対応する低解像度画像において動きベクトル検出 部 118によって検出された部分画像の領域を表す。同図のストリーム MVは、動きべ タトル検出部 118によって低解像度画像から検出された動きベクトルを示す。ただし、 同図では高解像度 MVとストリーム MVとを同じサイズにスケーリングして図示してあ る。
[0044] 可変長符号化部 125は、高解像度 MVとストリーム MVとの差分動きベクトルを符号 化する。これにより、動き情報の符号量を低減することができる。図 3のように、高解像 度 MVとストリーム MVとはだいたい同じような値を取ると考えられる力 高解像度 MV の方がより正確な動きを表現することができる。
[0045] 時空間補間画像生成部 123は、時間的空間的に周囲に存在する画素を用いて画 素を補間によって高解像度化画像を生成する。この高解像度化は、上記 (A)の第 1 モードで実行される。
[0046] 図 4A、 4Bは、時空間画素補間による水平方向、垂直方向に 2倍ずつの解像度を 実現する高解像度画像生成の説明図である。図 4Aにおいて、縦に並ぶ〇印は同じ 1枚の画像中の画素を表す。図 4Aでは時間の異なる 3枚の画像の画素を表している 。ハッチングされた〇印は低解像度画像の画素を、白抜きの〇印は高解像度画像の 補間すべき画素を示している。例えば、 aで示した画素を時空間画素補間で生成す る場合、図で示すように周囲の画素の情報を用いて補間する。このとき、時間の異な る画像の既に高解像度化された画素を用いてもよい。なお、時間的、空間的に隣接 する画素であればどの画素の情報を用いても良い。また、補間画素は、周辺の複数 の画素それぞれに重みを付けて平均することにより生成される。同様に図 4Bでは、 2 枚の画像を表している。例えば、 bで示した画素を時空間画素補間で生成する場合も 、同様に時間的、空間的に隣接する画素を用いて補間する。
[0047] 前記のように時空間補間画像生成部 123は、時間方向および空間方向に周囲に 存在する複数の画素をフィルタリングすることによって画素を補間する。
[0048] 生成モード選択部 124は、高解像度画像の生成モード(上記変換モード)をブロッ ク毎に選択する。選択基準としては、例えば、まず、符号ィ匕部 101における 4つの符 号化モード(a)〜(d)に対応させて上記 (A)〜(D)を選択してもよレ、し、高解像度画 像の精度や発生符号量を評価し、評価結果に応じて選択してもよい。符号化部 101 における 4つの符号化モードは、(a)イントラ符号ィ匕モード、 (b)前方向予測符号化モ ード、(c)後方向予測符号化モード、(d)双予測符号化モードである。
[0049] 図 5は、低解像度画像と高解像度画像の関連を示す図である。同図上段の II、 B2 、 B3、 · · ·は、低解像度画像を表示順で示している。 Iは、上記(a)のイントラ符号化 ピクチャを示す。 Pは、上記 (b)又は(c)の単方向予測符号ィ匕ピクチャを示す。 Bは、 上記 (d)の双予測符号化ピクチャを示す。 I、 B、 Pの横の数字は表示順を示す。 ( ) 内の数字は符号化順を示す。
[0050] 同図下段の Hl、 H2、 H3、 · · ·は、各低解像度画像に対応する高解像度画像を示 す。同図の例では、 Hl、 H5、 H6ピクチヤは、上記 (A)第 1モードの時間的空間的な 画素補間により高解像度化されている。 H2、 H3、 H8、 H9ピクチヤは、上記 (A)の モードで時空間的な補間で高解像度化される力、(B)〜(D)のモードに従って、高 解像度化済みの他のピクチヤから部分的な画像を取得することによって高解像度化 されている。 H4、 H7、 H10ピクチャは、上記(A)のモードで時空間的な補間で高解 像度されるか、 (B)の動きベクトルに従って、前方向にある高解像度化済みのピクチ ャから部分的な画像を取得することによって高解像度化されている。ただし、ピクチャ 内でブロック毎に異なるモードをとり得る。
[0051] 可変長符号化 125は、生成モード選択部 124に選択された生成モード(上記変換 モード)が第 1モードである場合には、第 1モードを表す変換モード情報を付加情報と して可変長符号化し、選択された生成モードが第 2〜第 4モードである場合変換モー ド情報と動き情報とを付加情報として可変長符号化する。その際可変長符号化部 12 5は、動き情報を差分動きベクトルとして可変長符号ィ匕する。
[0052] 図 6A、 6Bは、生成モードの符号を示す説明図である。
[0053] 図 6Aにおいて、符号化モード欄は、低解像度画像の符号化モードを示している。
すなわち、 "INTRA〃は上記(a)を、 "INTER— FWD〃は上記(b)を、 "INTER—B WD"は上記(c)を、 "INTER— BID〃は上記(d)を示す。
[0054] 補間生成モード欄は、対応する高解像度画像の生成モード (変換モード)を示す。 すなわち、 " INTRA補間〃は上記(A)を、〃 MC FWD〃は上記(B)を、〃 MC BWD" は上記(C)を、〃 MC BID〃は上記(D)を示す。また、〃 MC Weigh は上記(D)の 場合に複数枚の高解像度化済の画像を用いて重み付けを伴う線形予測により高解 像度画像を生成することを示す。 "INTRA補間 Weight"は上記 (A)の場合に複数 枚の高解像度化済の画像を用いて重み付けを伴うフィルタリングにより高解像度画 像を生成することを示す。 "INTRA- MC 混合"は上記 (A)と上記(B)〜(D)の何 れカ、とを混在させて高解像度画像を生成することを示す。
[0055] 図 6Aの例では、生成モードの符号は、高解像度画像のブロックに対応する低解像 度画像のブロックの符号ィ匕モードと関連付けて割り当てられている。つまり、生成モー ドの符号は、符号ィ匕モードと生成モードとが同類である場合に短くなるように(0になる ように)、割り当てられている。今、生成モード" MC BID"欄を注目する。高解像度 画像のあるブロックの生成モード力 S"MC BID〃である場合、当該ブロックに対応する 低解像度画像のブロックの符号化モードが" INTER— BID"、 "INTER- BWD'\ "I NTER-FWD", "INTRA〃であれば、高解像度画像の当該ブロックの符号はそれ ぞれ" 0〃、 "3"、 "3"、 "6"となっている。
[0056] 図 6Bは、より具体的は生成モードの可変長符号テーブルを示す図である。
[0057] 図 6Bにおいてテーブル T1は符号ィ匕モードが上記(a)の場合可変長符号テーブル を示す。同様に、テーブル T2、 Τ3、 Τ4は符号ィ匕モードが上記 (b) (c) (d)の場合可 変長符号テーブルを示す。例えば、符号化モードが上記(a)のイントラ符号ィ匕である 場合、生成モードが上記 (A)の時空間補間である場合には、生成モードの符号は" 0 〃となる。また、符号ィ匕モードが上記(a)のイントラ符号化である場合、生成モードが上 記(B)の前方向動きベクトルの場合には、生成モードの符号は": Tとなる。このテー ブル T1〜T4では、符号ィ匕モードと生成モードとが同類である場合に符号が短くなる ように割り当てられている。
[0058] なお、生成モードの符号化はこれに限らなレ、。例えば、生成モードの符号化は、発 生符号量の確率を用いた符号化方式(レ、わゆる算術符号化 (arithmetic coding))であ つてもよい。
[0059] 図 7は、符号化部 101および付加情報生成部 102における画像符号化処理および 付加情報生成処理を示すフローチャートである。
[0060] 同図のように、符号化部 101は、ブロック単位(正確にはマクロブロック単位)で符号 化を行い(S71)、生成モード選択部 124は、可変長符号化部 113から当該マクロブ ロックの符号ィ匕残差を取得する(S72)。このとき、低解像度画像の局所復号ピクチャ がブロック単位に予測画像生成部 117内の参照メモリに格納される。
[0061] 一方、高解像度画像生成部 121および時空間補間画像生成部 123は、符号化さ れた低解像度画像に対応する高解像度化画像を生成し (S73)、動きべ外ル検出部 122は、生成された高解像度化画像を探索対象として新たに入力された高解像度ビ デォデータ HV1の画像の動きベクトルを検出し(S74)、動きベクトル検出部 118によ つて検出された動きべタトノレと、高解像度画像の動きベクトルとの差分動きべクトノレを 算出する (S75)。時空間補間画像生成部 123は、対応する低解像度画像を時空間 補間による画素補間により高解像度画像を生成する(S76)。
[0062] さらに、生成モード選択部 124は、低解像度画像の符号化残差および動きベクトル に基づいて最適な生成モードを選択する(S77)。可変長符号化部 125は、付加情 報を可変長符号化する(S78)。つまり、可変長符号化部 125は、選択された生成モ ードを符号化し、選択された生成モードが第 2〜第 4モードであれば差分動きべタト ルも符号化する。
[0063] 図 8は、図 7の S77における生成モード選択処理を示すフローチャートである。
[0064] 生成モード選択部 124は、 S72において取得された符号化残差の情報量がしきい 値 Thlより小さく、かつ、 S74において検出された動きベクトル又は動きベクトル検出 部 118によって検出された動きベクトルがしきい値 Th2より小さい場合には、生成モ ードとして第 1〜第 4モード(上記(B)〜(D)の動きベクトルによる高解像度化)のうち 符号化モードに対応するものを選択する(S83)。
[0065] また、生成モード選択部 124は、 S72において取得された符号ィ匕残差の情報量が しきい値 TH1より大きい場合、又は、 S74において検出された動きべクトノレ又は動き ベクトル検出部 118によって検出された動きベクトルがしきい値 TH2より大きい場合 には、生成モードとして第 1モード(上記 (A)の時空間画素補間による高解像度化) を選択する(S84)。 [0066] この生成モード選択処理では、高解像度画像および低解像画像における動きが激 しい場合には、第 1モードを生成モードとすることにより、符号量の増加を抑えている 。また、動きベクトルが周囲の動きベクトルと相関がない場合には、誤った動きが検出 されている可能性があるため、生成モード選択部 124は、生成モードとして第 1モー ド (上記 (A)の時空間画素補間による高解像度化)を選択する。具体的には、生成モ ード選択部 124は、周囲の動きベクトルとの分散値を算出し(S82a)、その値がしき レ、値より大きレ、場合に(S82b)、第 1モードを選択する(S84)。
[0067] 図 9A、 9Bは、可変長符号化部 125によってストリームデータに関連付けられた付 加情報のストリームフォーマット例を示す説明図である。
[0068] 図 9Aは、付加情報がピクチャ単位にユーザデータとして付加されるフォーマット例 を示す。つまり、マクロブロック単位の付加情報は、ピクチャヘッダとピクチャデータと 力 なるストリームデータ部分に対して、ユーザデータとして付加されている。このュ 一ザデータは、ストリーム中にユーザが任意に定めてもよいデータである。
[0069] 図 9Bは、前記出力手段は、前記ストリームデータ内に付加情報を埋め込むフォー マット例を示す。図 9Bでは、マクロブロックデータ内に、マクロブロック単位の付加情 報が埋め込まれている。同図 Bは、図 9Aと比べてマクロブロックアドレスが不要である 点でデータ量を少なくできる。
[0070] なお、付加情報を電子透力し技術等のような情報坦め込み技術により実質的にスト リームデータ中に坦め込み、坦め込まれたストリームデータを伝送する構成としてもよ レ、。例えば、符号化部 101は、付加情報生成部 102から付加情報を取得し、電子透 かし技術等を用いて、復号画像の画質を損なわない範囲で、付加情報を符号化対 象の画像データに坦め込む構成としてもよい。電子透かし技術には、時間軸差分坦 め込み法、空間軸差分埋め込み法、レイヤ構造坦め込み法、ウェーブレット変換、ス ぺクトラム拡散等がある。
[0071] 図 10は、複号化装置 2における復号ィ匕処理を示すフローチャートである。
[0072] 複号化装置 2は、付加情報を取得すると(S101)、接続されているディスプレイに表 示可能なサイズであるかどうかを判定し (S102)、表示可能サイズでない場合には、 複号化部 201によって復号化された低解像度ビデオデータ LV2を表示のために出 力する(S104)。また、表示可能サイズである場合には、復号化部 201によって復号 化された低解像度ビデオデータ LV2から高解像度画像を生成してから(S103)、表 示のために出力する(S104)。
[0073] 図 11Aは、図 10の S103における高解像度画像生成処理を示すフローチャートで ある。
[0074] 高解像度化部 202は、付加情報を可変長復号化し (S111)、付加情報中に生成モ ード情報(つまり変換モード情報)があるか否力、を判定し(S 112)、ある場合には生成 モード情報に従って高解像度画像を生成し (S113)、ない場合には時空間画素補 間により高解像度画像を生成し (S114)、生成した高解像度画像を出力する(S115
[0075] なお、この高解像度画像生成処理は、例えば、付加情報がマクロブロック単位に付 与されている場合には、マクロブロック単位に処理され、付加情報がピクチャ単位に 付与されている場合には、ピクチャ単位に処理される。
[0076] 図 11Bは、図 11Aのステップ S113に示した高解像度化処理の概略を示すフロー チャートである。同図のように、高解像度化部 202は、付加情報中の生成モード情報 (つまり変換モード情報)を判定し (S120)、生成モード情報が上記 (A) INTRA補間 を示す場合には INTRA補間処理を行い(S121)、生成モード情報が上記(B) MC FWDまたは(C) MC BWDを示す場合には MC補間処理を行い(SI 22)、生成 モード情報が上記(D) MC BIDを示す場合には MC BID補間処理を行い(SI 23 )、生成モード情報力 NTRA— MC混合処理を示す場合には INTRA— MC混合処 理を行う(S 124)。
[0077] なお、図 11Bでは、付加情報中に生成モード情報がある場合を説明したが、生成 モード情報がない場合であっても、一定のルールに従って何れかの補間処理を選択 するようにしてもよレ、。例えば、補間処理により高解像度化すべき処理対象の画像に 対応する低解像度画像の符号化モード (上記の(a)イントラ符号化モード、 (b)前方 向予測符号化モード、 (c)後方向予測符号化モード、 (d)双予測符号化モード)に対 応させて、補間処理を選択してもよい。
[0078] 図 11Cは、図 11Bのステップ S122における MC補間処理の説明図である。同図の 左側は高解像度化済の画像で参照用の画像の水平 1行または垂直 1列の画素を示 してレ、る。 白丸は低解像度画像に含まれる画素を、黒丸は補間された画素を示す。 同図の右側は高解像度化の処理対象の画像における水平 1行または垂直 1列の画 素を示している。 白丸は低解像度画像に含まれる画素を、破線の丸は補間すべき画 素を示している。処理対象の画像中のブロック B1の動きベクトルが、高解像度化済 の画像中の領域 R1を指しているものとする。この場合、高解像度化部 202は、ブロッ ク B1中の補間すべき画素位置 alには、領域 R1中の画素 piの画素値を用いて補間 し、ブロック B1中の補間すべき画素位置 a2には、領域 R1中の画素 p2の画素値を用 いて補間する。
[0079] また、処理対象の画像中のブロック B2の動きベクトル力 S、高解像度化済の画像中 の領域 R2を指しているものとする。この場合、高解像度化部 202は、ブロック B2中の 補間すべき画素位置 a3には、領域 R2中の画素 p3の画素値を用いて補間し、ブロッ ク B2中の補間すべき画素位置 a4には、領域 R2中の画素 p4の画素値を用いて補間 する。
[0080] 同図では、補間生成モードが(B) MC— FWDおよび(C) MC— BWDの場合を示 している。補間生成モードが(D) MC— BIDの場合には、高解像度化部 202は、高 解像度化済の 2つの画像から得られる 2つの画素値にっレ、て、重み付け平均をとるこ とにより補間すべき画素の画素値を算出する。
[0081] 図 11Dは、図 11Bのステップ S122に示した MC補間処理をより詳細に示すフロー チャートである。同図では、処理対象画像をブロック単位に高解像度化する場合の 1 ブロック分の処理を示している。また、復号化装置 2は、高解像度化が完了した画像 と、処理対象の画像とを保持するためのメモリを有している。高解像度化が完了した 画像は、動きベクトルによる補間に際して参照される。処理対象の画像は、低解像度 画像を構成する画素と、補間すべき画素からなる。
[0082] まず、高解像度化部 202は、付加情報に含まれる差分動きベクトルを可変長復号し
(S130)、得られた差分を低解像度画像の対応する動きベクトルに加算することによ り高解像度画像用の動きべ外ル H— MVを算出し (S131)、高解像度化済の参照 画像中の矩形領域を特定する(S 132)。 [0083] 次に、高解像度化部 202は、ループ 1処理においてブロック内の全ての補間すべき 画素を補間する(S133〜S137)。ループ 1処理において高解像度化部 202は、特 定された矩形領域において、補間すべき画素に対応する画素を特定し (S134)、特 定された画素の値をメモリから読み出し(S135)、読み出された画素値をブロック内 の補間すべき画素の値として、メモリに書き込む(S136)。以上により、図 11Cに示し たように、処理対象の画像中の全ての補間すべき画素は、動きベクトルに従って参照 画像からから読み出された画素値を用いて補間される。
[0084] 図 11Eは、図 11Bのステップ S123に示した MC— BID補間処理をより詳細に示す フローチャートである。図 11Eは、図 11Dと 匕ベて、ステップ S130〜S135、 S137の 代わりにステップ S130a〜Sl 35a、 SI 37aを有してレヽる点と、 S 140カ追カロされた点 とが異なる。同じ点は説明を省略し、以下異なる点を中心に説明する。
[0085] まず、高解像度化部 202は、付加情報に含まれる 2つの差分動きベクトルを可変長 復号し (S 130a)、得られた 2つ差分を低解像度画像の対応する 2つ動きベクトルに 加算することにより、高解像度画像用の 2つの動きベクトル H— MV1、 H— MV2を算 出し (S131a)、高解像度化済の 2つの参照画像中の 2つの矩形領域を特定する(S 132a)。
[0086] 次に、高解像度化部 202は、ループ 1処理においてブロック内の全ての補間すべき 画素を補間する(S133a〜S137a)。ループ 1処理において高解像度化部 202は、 特定された 2つ矩形領域において、補間すべき画素に対応する 2つ画素を特定し (S 134a)、特定された 2つ画素の値をメモリから読み出す(S135a)。さらに、読み出さ れた 2つの画素値の重み付け平均を算出する。各画素値の重みは、例えば、処理対 象画像から各参照画像までの距離に応じて定めればよい。また、 2つの画素値に対 応する動きベクトルの大きさに応じて重みを変更してもよい。例えば、 2つの動きべク トルのうち大きさが小さい方に対応する画素値の重みを、もうひとつの画素値の重み よりも大きくしてもよレ、。重み付け平均算出結果は、補間すべき画素の値として、メモ リに書き込まれる(S136)。以上のように、 MC— BID補間処理では、処理対象の画 像中の全ての補間すべき画素は、 2つの参照画像から 2つ動きベクトルに従って読み 出された 2つ画素値に基づレ、て補間される。 [0087] なお、図 11Eの MC— BID補間処理では 2つの動きベクトル、 2つの参照画像を用 いる力 3つ以上の動きベクトル、 3つ以上の参照画像を用いてもよい。
[0088] 図 11Fは、図 11Bのステップ S124に示した INTRA—MC混合補間処理をより詳 細に示すフローチャートである。図 11Fは、図 11Eと比べて、 S150、 S151力 S追カロさ れた点と異なる。同じ点は説明を省略し、以下異なる点を中心に説明する。
[0089] S150において高解像度化部 202は、当該補間すべき画素を INTRA補間すべき か MC補間すべきかを判定する。この判定は、補間すべき画素のブロック中の位置 や、補間すべき画素に隣接する画素が低解像度画像の画素であるか補間画素であ るかを基準とすることができる。例えば、隣接画素が低解像度画像の画素であれば I NTRA補間、隣接画素が補間画素であれば MC補間と判定する。 INTRA補間と判 定された場合には、 S151において高解像度化部 202は、当該補間すべき画素を IN TRA補間する。
[0090] なお、図 11Fでは、補間すべき画素毎に INTRA補間すべきか MC補間すべき力 を判定している力 ブロック毎やスライス毎に判定するようにしてもよい。
[0091] また、可変長符号化部 125は、可変長符号ィ匕部 113からの低解像度画像ビットスト リーム LVSを一旦入力して、付加情報と関連付けて出力するようにしてもよい。
[0092] 以上説明してきたように、本実施の形態における画像符号化装置および画像復号 化装置によれば、低解像度画像から高解像度画像の生成を、低処理量かつ高画質 に実現することができる。
[0093] (実施の形態 1の変形例 1)
実施の形態 1は実用上の範囲内で次のような変形をおこなってもよい。 図 2中の付加情報生成部 102は、高解像度画像生成部 121を取り除き、代わりに、 復号高解像度化画像信号と同じ時刻の高解像度画像信号 HV1を探索対象として動 きべクトノレ検出部 122に入力する構成としてもよい。動き検出部 122では、高解像度 画像信号 HV1から高解像度画像の動きべ外ルを検出し、高解像度画像用の差分 動きベクトルを生成する。このようにすることで、符号化装置 1の構成を簡略化するこ とができ、低処理量を実現することができる。
[0094] また、図 2中の付加情報生成部 102は、高解像度画像生成部 121を取り除き、代わ りに、復号高解像度化画像信号と同じ時刻の高解像度画像信号 HV2を高解像度化 部 202から探索対象として動きベクトル検出部 122に入力する構成としてもよい。動 き検出部 122では、高解像度画像信号 HV1と高解像度画像信号 HV2とから高解像 度画像の動きべ外ルを検出し、高解像度画像用の差分動きべクトノレを生成する。
[0095] なお、高解像度画像生成部 121を取り除かず、生成モード選択のためだけに高解 像度画像生成部 121を用いてもよい。このようにすることで、 1フレーム前の復号画像 を高解像度化する処理を削減しつつ、高画質を実現することができる。
[0096] (実施の形態 2)
図 12は、実施の形態 2における画像符号化処理の他の一例を示すフローチャート である。同図は、実施の形態 1における図 7及び図 8の代わりに実行される。
[0097] 図 12において、動きベクトル検出部 122は、原画(高解像度画像 HV1)から、高解 像度画像生成部 121内の既に高解像度化済の画像を参照して動きベクトルを検出 し(S121)、検出された動きベクトルと動きベクトル検出部 118によって検出された動 きべタトノレとの差分動きベクトルを算出する(S122)。生成モード選択部 124は、高解 像度画像生成部 121によって差分動きベクトルに従って生成された高解像度化画像 と、原画 (高解像度画像 HV1)との差分値 Dを算出し (S123)、差分動きベクトルを付 加情報として符号化した場合の発生符号量を算出し (S 124)、次式に示す COSTを 算出する(S125)。
[0098] COST=∑ I高解像度画像 補間生成画像 I +発生符号量
[0099] 式中の∑ I高解像度画像 補間生成画像 I は、 S123で算出された差分値 Dの 和であり、原画 (高解像度画像 HV1)と、差分動きベクトルに従って生成された高解 像度化画像とのブロック毎の画素値の差分の和を意味する。この値が 0であれば補 間生成画像が原画とピッタリー致していること (補間生成画像の画質が最高であるこ と)を意味し、この値が大きければ大きいほど、補間生成画像が原画からかけ離れて レ、ること(高解像度化の精度が悪ぐ画質が悪いこと)を意味する。発生符号量は、 S 124で算出されたものであり、発生符号量が小さければ低解像度画像ビットストリーム LVSの符号化効率をあまり悪化させてレ、なレ、ことを意味し、発生符号量が大きけれ ば低解像度画像ビットストリーム LVSの符号ィ匕効率を悪化させていることを意味する 。上記 COSTの値が大きければ、高解像度化画像の画質と符号化効率の少なくとも 一方が悪いことを意味し、上記 COSTの値が小さければ小さいほど、高解像度化画 像の画質の良さと符号化効率の良さとの両者を達成していることを意味する。
[0100] さらに、生成モード選択部 124は、算出された COSTと COST1とを比較し(S126) 、 COSTが小さければ COST1の値を COSTの値に更新する(S127)。
[0101] ここで COST1の初期値は、最低限確保すべき COSTのしきい値であり、 COST1 は、動きべタトノレの探索範囲を終了するまで(S128)のループ処理において、最小の COSTの値に更新されていく。なお、 S128において生成モード選択部 124は、探索 範囲を終了したか否力、を判定しているが、符号化モードに類似の生成モード(第 2〜 第 4モード)からいくつかの生成モードを試行したか否かを判定してもよい。
[0102] 上記により生成モード選択部 124は、差分動きベクトルに従って生成された高解像 度化画像についての最小の COST1となる動きベクトル又は生成モードを得ることが できる。
[0103] また、時空間補間画像生成部 123は、時空間補間による補間画像を生成し (S129 )、生成モード選択部 124は、生成された補間画像と、原画(高解像度画像 HV1)と の差分値 Dを算出し (S130)、 COSTを算出する(S131)。さらに、生成モード選択 部 124は、算出された COSTと COST2とを比較し(S132)、 COSTが小さければ C OST2の値を COSTの値に更新する(S133)。ここで COST2の初期値は、最低限 確保すべき COSTのしきい値であり、 COST1の初期値と同じ値でもよい。 COST2 は、動きべタトノレの補間による生成方法を終了するまで(S 134)のループ処理におい て、最小の COSTの値に更新されていく。なお、 S 134において生成モード選択部 1 24は、補間による生成方法を終了したか否力、を判定しているが、この判定は、補間 に用いるフィルタの種類や強度の選択を変更しながら試行し終えたか否力、を判定す ればよい。補間に用いるフィルタの種類や強度は、ダウンサンプリング情報 DSIに従 つて選択してもよレ、。
[0104] 上記により生成モード選択部 124は、時空間補間によって生成される高解像度化 画像についての最小の COST2となる生成モードを得ることができる。
[0105] 次いで、生成モード選択部 124は、 COST1と COST2のうち最小の方に対応する 生成モードを選択する(S135)。可変長符号化部 125は、選択された生成モードを 示す生成モード情報を符号化する(S 136)。
[0106] このように、 COSTは高解像度化画像の画質悪さと付加情報を付加することによる 低解像度画像の符号ィヒ効率の劣化と評価するものさしとなる。本実施の形態におけ る生成モード選択部 124は、種々の生成モードにおけう COSTを算出し、 COSTが 最小になる生成モードを選択するよう構成されている。その結果、高解像度化画像の 画質を向上させると共に、付加情報を付加することによる符号化効率の劣化を最小 限に留めることができる。
[0107] (実施の形態 3)
さらに、上記各実施の形態で示した符号化処理および復号化処理の構成を実現す るための符号化および複号化プログラムや符号列(データストリーム)を、フレキシブ ルディスク等の記録媒体に記録するようにすることにより、上記各実施の形態で示し た処理を、独立したコンピュータシステムにおいて簡単に実施することが可能となる。
[0108] 図 13 (a)〜(c)は、上記実施の形態 1から 2の符号ィ匕あるいは復号化処理を、上記 符号化および復号化プログラムを格納したフレキシブルディスクを用いて、コンビユー タシステムにより実施する場合を説明するための図である。
[0109] 図 13 (b)は、フレキシブルディスクの正面からみた外観、断面構造、及びフレキシ ブルディスクを示し、図 13 (a)は、記録媒体本体であるフレキシブルディスクの物理フ ォーマットの例を示している。フレキシブルディスク FDはケース F内に内蔵され、該デ イスクの表面には、同心円状に外周からは内周に向かって複数のトラック Trが形成さ れ、各トラックは角度方向に 16のセクタ Seに分割されている。従って、上記プログラム れた領域に、上記プログラムとしてのデータが記録されている。
[0110] また、図 13 (c)は、フレキシブルディスク FDに上記プログラムの記録再生を行うた めの構成を示す。上記プログラムをフレキシブルディスク FDに記録する場合は、コン ピュータシステム Csから上記プログラムとしてのデータをフレキシブルディスクドライブ を介して書き込む。また、フレキシブルディスク内のプログラムにより上記符号化およ び複号化方法をコンピュータシステム中に構築する場合は、フレキシブルディスクドラ イブによりプログラムをフレキシブルディスクから読み出し、コンピュータシステムに転 送する。
[0111] なお、上記説明では、記録媒体としてフレキシブルディスクを用いて説明を行った 、光ディスクを用いても同様に行うことができる。また、記録媒体はこれに限らず、 I Cカード、 ROMカセット等、プログラムを記録できるものであれば同様に実施すること ができる。
[0112] また、上記実施の形態に示した符号化方法 '複号化方法は、携帯電話やカーナビ ゲーシヨンシステム等の移動体通信機器やデジタルビデオカメラやデジタルスチール カメラ等の撮影機器に LSI等の半導体によって実装することが可能である。また、実 装形式としては、符号化器'復号化器を両方持つ送受信型の端末の他に、符号化器 のみの送信端末、複号化器のみの受信端末の 3通りが考えられる。具体的な応用例 を図 14〜図 17を用いて説明する。
[0113] 図 14は、コンテンツ配信サービスを実現するコンテンツ供給システム exlOOの全体 構成を示すブロック図である。通信サービスの提供エリアを所望の大きさに分割し、 各セル内にそれぞれ固定無線局である基地局 exl07 exl 10が設置されている。
[0114] このコンテンツ供給システム exlOOは、例えば、インターネット exlOlにインターネッ トサービスプロバイダ exl02および電話網 exl04、および基地局 exl07 exl 10を介 して、コンピュータ exl 11 PDA (personal digital assistant) exl 12、カメラ exl l 3、携 帯電話 exl 14、カメラ付きの携帯電話 exl 15などの各機器が接続される。
[0115] し力し、コンテンツ供給システム exlOOは図 14のような組合せに限定されず、いず れかを組み合わせて接続するようにしてもよレ、。また、固定無線局である基地局 exl 0 7 exl 10を介さずに、各機器が電話網 exl04に直接接続されてもよい。
[0116] カメラ exl 13はデジタルビデオカメラ等の動画撮影が可能な機器である。また、携 帯電言舌は、 PDC (Personal Digital Communications)方式、 CDMA (Code Division M ultiple Access)方式、 W— CDMA (Wideband-Code Division Multiple Access)方式 、若しくは GSM (Global System for Mobile Communications)方式の携帯電話機、ま たは PHS (Personal Handyphone System)等であり、いずれでも構わない。
[0117] また、ストリーミングサーバ exl03は、カメラ 6 113から基地局6 109、電話網 exl04 を通じて接続されており、カメラ exl 13を用いてユーザが送信する符号化処理された データに基づレ、たライブ配信等が可能になる。撮影したデータの符号ィ匕処理はカメ ラ exl 13で行っても、データの送信処理をするサーバ等で行ってもよい。また、カメラ exl 16で撮影した動画データはコンピュータ exl 11を介してストリーミングサーバ exl 03に送信されてもよい。カメラ exl 16はデジタルカメラ等の静止画、動画が撮影可能 な機器である。この場合、動画データの符号化はカメラ exl 16で行ってもコンピュータ exl 11で行ってもどちらでもよレ、。また、符号化処理はコンピュータ exl 11やカメラ ex 116が有する LSIexl l 7において処理することになる。なお、画像符号化'復号化用 のソフトウェアをコンピュータ exl 11等で読み取り可能な記録媒体である何らかの蓄 積メディア(CD— R〇M、フレキシブルディスク、ハードディスクなど)に組み込んでも よい。さらに、カメラ付きの携帯電話 exl 15で動画データを送信してもよい。このときの 動画データは携帯電話 exl 15が有する LSIで符号化処理されたデータである。
[0118] このコンテンツ供給システム exlOOでは、ユーザがカメラ exl l 3、カメラ exl l6等で 撮影しているコンテンツ(例えば、音楽ライブを撮影した映像等)を上記実施の形態 同様に符号ィ匕処理してストリーミングサーバ exl03に送信する一方で、ストリーミング サーバ exl03は要求のあったクライアントに対して上記コンテンツデータをストリーム 配信する。クライアントとしては、上記符号化処理されたデータを復号化することが可 能な、コンピュータ exl l l、 PDAexl l 2、カメラ exl l 3、携帯電話 exl 14等がある。こ のようにすることでコンテンツ供給システム exlOOは、符号ィ匕されたデータをクライア ントにおいて受信して再生することができ、さらにクライアントにおいてリアルタイムで 受信して復号化し、再生することにより、個人放送をも実現可能になるシステムである
[0119] このシステムを構成する各機器の符号化、復号化には上記各実施の形態で示した 画像符号化装置あるいは画像復号化装置を用いるようにすればょレ、。
[0120] その一例として携帯電話について説明する。
[0121] 図 15は、上記実施の形態で説明した画像符号化方法と画像復号化方法を用いた 携帯電話 exl 15を示す図である。携帯電話 exl l 5は、基地局 exl lOとの間で電波を 送受信するためのアンテナ ex201、 CCDカメラ等の映像、静止画を撮ることが可能な カメラ部 ex203、カメラ部 ex203で撮影した映像、アンテナ ex201で受信した映像等 が復号化されたデータを表示する液晶ディスプレイ等の表示部 ex202、操作キー ex 204群から構成される本体部、音声出力をするためのスピーカ等の音声出力部 ex20 8、音声入力をするためのマイク等の音声入力部 ex205、撮影した動画もしくは静止 画のデータ、受信したメールのデータ、動画のデータもしくは静止画のデータ等、符 号化されたデータまたは復号化されたデータを保存するための記録メディア ex207、 携帯電話 exl l 5に記録メディア ex207を装着可能とするためのスロット部 ex206を有 している。記録メディア ex207は SDカード等のプラスチックケース内に電気的に書換 えや消去が可能な不揮発性メモリである EEPROM (Electrically Erasable and Progra mmable Read Only Memory)の一種であるフラッシュメモリ素子を格納したものである
[0122] さらに、携帯電話 exl l 5について図 16を用いて説明する。携帯電話 exl l 5は表示 部 ex202及び操作キー ex204を備えた本体部の各部を統括的に制御するようになさ れた主制御部 ex311に対して、電源回路部 ex310、操作入力制御部 ex304、画像符 号ィ匕部 ex312、カメラインターフェース部 ex303、 LCD (Liquid Crystal Display)制御 部 ex302、画像復号化部 ex309、多重分離部 ex308、記録再生部 ex307、変復調回 路部 ex306及び音声処理部 ex305が同期バス ex313を介して互レヽに接続されてレヽ る。
[0123] 電源回路部 ex310は、ユーザの操作により終話及び電源キーがオン状態にされる と、バッテリパックから各部に対して電力を供給することによりカメラ付ディジタル携帯 電話 exl 15を動作可能な状態に起動する。
[0124] 携帯電話 exl l 5は、 CPU, ROM及び RAM等でなる主制御部 ex311の制御に基 づいて、音声通話モード時に音声入力部 ex205で集音した音声信号を音声処理部 e x305によってディジタル音声データに変換し、これを変復調回路部 ex306でスぺタト ラム拡散処理し、送受信回路部 ex301でディジタルアナログ変換処理及び周波数変 換処理を施した後にアンテナ ex201を介して送信する。また携帯電話機 ex 115は、 音声通話モード時にアンテナ ex201で受信した受信データを増幅して周波数変換 処理及びアナログディジタル変換処理を施し、変復調回路部 ex306でスペクトラム逆 拡散処理し、音声処理部 ex305によってアナログ音声データに変換した後、これを音 声出力部 ex208を介して出力する。
[0125] さらに、データ通信モード時に電子メールを送信する場合、本体部の操作キー ex2 04の操作によって入力された電子メールのテキストデータは操作入力制御部 ex304 を介して主制御部 ex311に送出される。主制御部 ex311は、テキストデータを変復調 回路部 ex306でスペクトラム拡散処理し、送受信回路部 ex301でディジタルアナログ 変換処理及び周波数変換処理を施した後にアンテナ ex201を介して基地局 ex 110 へ送信する。
[0126] データ通信モード時に画像データを送信する場合、カメラ部 ex203で撮像された画 像データをカメラインターフェース部 ex303を介して画像符号化部 ex312に供給する 。また、画像データを送信しない場合には、カメラ部 ex203で撮像した画像データを カメラインターフェース部 ex303及び LCD制御部 ex302を介して表示部 ex202に直 接表示することも可能である。
[0127] 画像符号化部 ex312は、本願発明で説明した画像符号化装置を備えた構成であり 、カメラ部 ex203から供給された画像データを上記実施の形態で示した画像符号ィ匕 装置に用いた符号化方法によって圧縮符号化することにより符号化画像データに変 換し、これを多重分離部 ex308に送出する。また、このとき同時に携帯電話機 exl l 5 は、カメラ部 ex203で撮像中に音声入力部 ex205で集音した音声を音声処理部 ex3 05を介してディジタルの音声データとして多重分離部 ex308に送出する。
[0128] 多重分離部 ex308は、画像符号化部 ex312から供給された符号ィ匕画像データと音 声処理部 ex305から供給された音声データとを所定の方式で多重化し、その結果得 られる多重化データを変復調回路部 ex306でスペクトラム拡散処理し、送受信回路 部 ex301でディジタルアナログ変換処理及び周波数変換処理を施した後にアンテナ ex201を介して送信する。
[0129] データ通信モード時にホームページ等にリンクされた動画像ファイルのデータを受 信する場合、アンテナ ex201を介して基地局 exl 10から受信した受信データを変復 調回路部 ex306でスペクトラム逆拡散処理し、その結果得られる多重化データを多 重分離部 ex308に送出する。 [0130] また、アンテナ ex201を介して受信された多重化データを復号化するには、多重分 離部 ex308は、多重化データを分離することにより画像データのビットストリームと音 声データのビットストリームとに分け、同期バス ex313を介して当該符号ィ匕画像データ を画像復号ィ匕部 ex309に供給すると共に当該音声データを音声処理部 ex305に供 給する。
[0131] 次に、画像復号ィ匕部 ex309は、本願発明で説明した画像復号化装置を備えた構 成であり、画像データのビットストリームを上記実施の形態で示した符号化方法に対 応した複号化方法で復号することにより再生動画像データを生成し、これを LCD制 御部 ex302を介して表示部 ex202に供給し、これにより、例えばホームページにリン クされた動画像ファイルに含まれる動画データが表示される。このとき同時に音声処 理部 ex305は、音声データをアナログ音声データに変換した後、これを音声出力部 e x208に供給し、これにより、例えばホームページにリンクされた動画像ファイルに含 まる音声データが再生される。
[0132] なお、上記システムの例に限られず、最近は衛星、地上波によるディジタル放送が 話題となっており、図 17に示すようにディジタル放送用システムにも上記実施の形態 の少なくとも画像符号化装置または画像復号化装置のいずれかを組み込むことがで きる。具体的には、放送局 ex409では映像情報のビットストリームが電波を介して通 信または放送衛星 ex410に伝送される。これを受けた放送衛星 ex410は、放送用の 電波を発信し、この電波を衛星放送受信設備をもつ家庭のアンテナ ex406で受信し 、テレビ(受信機) ex401またはセットトップボックス(STB) ex407などの装置によりビ ットストリームを復号化してこれを再生する。また、記録媒体である CDや DVD等の蓄 積メディア ex402に記録したビットストリームを読み取り、復号化する再生装置 ex403 にも上記実施の形態で示した画像複号化装置を実装することが可能である。この場 合、再生された映像信号はモニタ ex404に表示される。また、ケーブルテレビ用のケ 一ブル ex405または衛星/地上波放送のアンテナ ex406に接続されたセットトップボ ックス ex407内に画像復号化装置を実装し、これをテレビのモニタ ex408で再生する 構成も考えられる。このときセットトップボックスではなぐテレビ内に画像復号化装置 を組み込んでも良い。また、アンテナ ex411を有する車 ex412で衛星 ex410からまた は基地局 ex 107等から信号を受信し、車 ex412が有するカーナビゲーション ex413 等の表示装置に動画を再生することも可能である。
[0133] 更に、画像信号を上記実施の形態で示した画像符号化装置で符号化し、記録媒 体に記録することもできる。具体例としては、 DVDディスク ex421に画像信号を記録 する DVDレコーダや、ハードディスクに記録するディスクレコーダなどのレコーダ ex42 0がある。更に SDカード ex422に記録することもできる。レコーダ ex420が上記実施 の形態で示した画像復号ィ匕装置を備えていれば、 DVDディスク ex421や SDカード e x422に記録した画像信号を再生し、モニタ ex408で表示することができる。
[0134] なお、カーナビゲーシヨン ex413の構成は例えば図 15に示す構成のうち、カメラ部 e x203とカメラインターフェース部 ex303、画像符号ィ匕部 ex312を除いた構成が考え られ、同様なことがコンピュータ exl 11やテレビ(受信機) ex401等でも考えられる。
[0135] また、上記携帯電話 exl 14等の端末は、符号化器 ·複号化器を両方持つ送受信型 の端末の他に、符号化器のみの送信端末、復号化器のみの受信端末の 3通りの実 装形式が考えられる。
[0136] なお、図 1、図 2に示したブロック図の各機能ブロックは典型的には集積回路装置 である LSIとして実現される。この LSIは 1チップ化されても良いし、複数チップィ匕され ても良い。 (例えばメモリ以外の機能ブロックが 1チップ化されていても良レ、。)ここで は、 LSIとした力 集積度の違いにより、 IC、システム LSI、スーパー LSI、ゥノレトラ LS Iと呼称されることあある。
[0137] 集積回路化の手法は LSIに限るものではなぐ専用回路又は汎用プロセサで実現 してもよレ、。 LSI製造後に、プログラムすることが可能な FPGA (Field Programmable Gate Array)や、 LSI内部の回路セルの接続や設定を再構成可能なリコンフィギユラ ブル ·プロセッサを利用しても良レ、。
[0138] さらには、半導体技術の進歩又は派生する別技術により LSIに置き換わる集積回 路化の技術が登場すれば、当然、その技術を用レ、て機能ブロックの集積化を行って もよレ、。バイオ技術の適応等が可能性としてありえる。
[0139] また、各機能ブロックのうち、データを格納するユニットだけ 1チップ化せずに、本実 施形態の記録媒体 115のように別構成としても良い。 [0140] なお、図 1、 2に示したブロック図の各機能ブロックおよび図 7、 8、 10〜12に示した フローチャートにおいて、中心的な部分はプロセッサおよびプログラムによっても実現 される。
[0141] このように、上記実施の形態で示した画像符号化方法あるいは画像復号化方法を 上述したいずれの機器 'システムに用いることは可能であり、そうすることで、上記実 施の形態で説明した効果を得ることができる。
[0142] また、本発明は力、かる上記実施形態に限定されるものではなぐ本発明の範囲を逸 脱することなく種々の変形または修正が可能である。
産業上の利用可能性
[0143] 本発明は、画像を符号化又は復号化するする符号化装置、復号化装置に適して おり、動画配信するウェブサーバー、それを受信するネットワーク端末、動画の記録 再生可能なデジタルカメラ、カメラ付き携帯電話機、 DVD録画/再生機、 PDA,パ 一ソナルコンピュータ等に適してレ、る。

Claims

請求の範囲
[1] 第 1ビデオデータにおける画像の動きを示す動きベクトルを含む付加情報と、第 1ビ デォデータと同内容であって第 1ビデオデータよりも解像度の低い第 2ビデオデータ の符号化データであるストリームデータとを取得する取得手段と、
前記ストリームデータを第 2ビデオデータの画像に復号化する復号化手段と、 復号化された第 2ビデオデータの画像に対して、付加情報を用いて補間することに より第 1ビデオデータと同じ解像度の第 3ビデオデータに変換する変換手段と を備えることを特徴とする復号化装置。
[2] 前記変換手段は、
前記付加情報から動きべ外ルを抽出する抽出手段と、
復号化手段によって復号化された第 2ビデオデータの画像に対して、当該画像の 画素を用いて画素を補間する第 1補間手段と、
復号化手段によって復号化された第 2ビデオデータの画像に対して、抽出された動 きべ外ルを用いて第 2ビデオデータの画像に画素を補間する第 2補間手段と、 第 1補間手段および第 2補間手段を選択的に用いて、第 3ビデオデータの画像を 生成する生成手段と
を備えることを特徴とする請求項 1記載の複号化装置。
[3] 前記第 2補間手段は、
第 3ビデオデータの変換済の画像と、変換対象の第 3ビデオデータの画像と保持す るためのメモリ手段と、
変換対象の第 3ビデオデータの画像における補間すべき画素位置を特定する第 1 特定手段と、
変換済の第 3ビデオデータの画像において、第 1特定手段に特定された画素位置 に対応する画素を動きベクトルに従って特定する第 2特定手段と、
第 2特定手段によって特定された画素の値を読み出す読み出し手段と、 読み出し手段によって読み出された画素の値に従って、第 1特定手段によって特 定された画素位置に補間画素の値を書き込む書き込み手段と
を備えることを特徴とする請求項 2記載の復号化装置。
[4] 前記付加情報は、第 1ビデオデータを構成するブロック単位に動きベクトルを含み、 前記第第 1特定手段は、ブロック内の補間すべき画素位置を特定し、
前記第第 2特定手段は、ブロック単位の動きベクトルに従って、第 1特定手段に特 定された画素位置に対応する画素を特定する
を備えることを特徴とする請求項 3記載の複号化装置。
[5] 前記付加情報は、第 1ビデオデータを構成するブロック単位に 2つの動きベクトルを 含み、
前記第 2特定手段と、変換済の第 3ビデオデータの 2つの画像において、第 1特定 手段に特定された画素位置に対応する 2つの画素を 2つの動きベクトルに従って特 定し、
前記読み出し手段は、第 2特定手段によって特定された 2つの画素の値を読み出 し
前記書き込み手段は、読み出し手段によって読み出された 2つの画素の値に基づ いて、前記補間画素の値を算出する
を備えることを特徴とする請求項 3記載の復号化装置。
[6] 前記生成手段は、第 2ビデオデータの画像が画像内符号化されている場合には、 当該画像を第 1補間手段を用いて、第 3ビデオデータの画像を生成し、
第 2ビデオデータの画像が画像間予測符号化されている場合には、当該画像を第 2補間手段を用いて、第 3ビデオデータの画像を生成する
を備えることを特徴とする請求項 3記載の復号化装置。
[7] 第 1ビデオデータにおける画像の動きを示す動きべ外ルを含む付加情報と、第 1ビ デォデータと同内容であって第 1ビデオデータよりも解像度の低い第 2ビデオデータ の符号ィ匕データであるストリームデータとを取得し、
前記ストリームデータを第 2ビデオデータの画像に複号化し、、
復号化された第 2ビデオデータの画像を、付加情報を用いて補間することにより第 1 ビデオデータと同じ解像度の第 3ビデオデータに変換する
ことを特徴とする復号ィ匕方法。
[8] 第 2ビデオデータから第 3ビデオデータへの前記変換にぉレ、て、 前記付加情報から動きベクトルを抽出し、
第 1補間法および第 2補間法の何れかを選択し、
第 1補間法が選択された場合に、復号化された第 2ビデオデータの画像に対して、 当該画像の画素を用いて画素を補間し、
第 2補間法が選択された場合に、復号化された第 2ビデオデータの画像に対して、 抽出された動きベクトルを用いて第 2ビデオデータの画像に画素を補間する
ことを特徴とする請求項 8記載の複号化方法。
[9] 前記第 2補間法による補間において、
第 3ビデオデータの変換済の画像と変換対象の第 3ビデオデータの画像と保持す るためのメモリを参照することにより、変換対象の第 3ビデオデータの画像における補 間すべき画素位置を特定し、
変換済の第 3ビデオデータの画像にぉレ、て、特定された画素位置に対応する画素 を動きベクトルに従って特定し、
特定された画素の値を読み出し、
読み出された画素の値に従って、特定された画素位置に補間画素の値を書き込む ことを特徴とする請求項 8記載の復号化方法。
[10] 前記付加情報は、第 1ビデオデータを構成するブロック単位に動きベクトルを含み、 前記画素位置は、ブロック毎に特定され、
特定された画素位置に対応する、変換済の第 3ビデオデータの画像における画素 は、ブロック単位の動きベクトルに従って、特定される
ことを特徴とする請求項 9記載の復号化方法。
[11] 前記付加情報は、第 1ビデオデータを構成するブロック単位に 2つの動きベクトルを 含み、
前記画素位置は、ブロック毎に特定され、
特定された画素位置に対応する、変換済の第 3ビデオデータの画像における 2つ の画素は、 2つ動きべタトノレに従って、特定され、
2つの画素の値に基づいて、前記補間画素の値が算出される
ことを特徴とする請求項 9記載の複号化方法。
[12] 前記第 1補間法または第 2補間法の選択において、
第 2ビデオデータの画像が画像内符号化されている場合には、第 1補法を選択し、 第 2ビデオデータの画像が画像間予測符号化されている場合には、第 2補間法を 選択する
ことを特徴とする請求項 9記載の複号化方法。
[13] 第 1ビデオデータを、第 1ビデオデータのよりも低い解像度の第 2ビデオデータに変 換する変換手段と、
第 2ビデオデータをストリームデータに符号化する符号化手段と、
第 1ビデオデータの動きを示し、第 2ビデオデータの画像に画素を補間するための 付加情報を生成する生成手段と、
第 1ビデオデータの画素値を示す符号を出力することなぐ前記ストリームデータと 前記付加情報とを出力する出力手段と
を備えることを特徴とする画像符号化装置。
[14] 第 1ビデオデータを、第 1ビデオデータのよりも低い解像度の第 2ビデオデータに変 換し、
第 2ビデオデータをストリームデータに符号化し、
第 1ビデオデータの動きを示し、第 2ビデオデータの画像に画素を補間するための 付加情報を生成し、
第 1ビデオデータの画素値を示す符号を出力することなぐ前記ストリームデータと 前記付加情報とを出力する
ことを特徴とする画像符号化方法。
[15] コンピュータ読み取り可能なプログラムであって、
第 1ビデオデータにおける画像の動きを示す動きベクトルを含む付加情報と、第 1ビ デォデータと同内容であって第 1ビデオデータよりも解像度の低い第 2ビデオデータ の符号化データであるストリームデータとを取得する取得手段と、
前記ストリームデータを第 2ビデオデータの画像に復号化する復号化手段と、 復号化された第 2ビデオデータの画像に対して、付加情報を用いて補間することに より第 1ビデオデータと同じ解像度の第 3ビデオデータに変換する変換手段と をコンピュータに発揮させることを特徴とするプログラム。
[16] コンピュータ読み取り可能なプログラムであって、
第 1ビデオデータを、第 1ビデオデータのよりも低い解像度の第 2ビデオデータに変 換する変換手段と、
第 2ビデオデータをストリームデータに符号化する符号化手段と、
第 1ビデオデータの動きを示し、第 2ビデオデータの画像に画素を補間するための 付加情報を生成する生成手段と、
第 1ビデオデータの画素値を示す符号を出力することなぐ前記ストリームデータと 前記付加情報とを出力する出力手段と
をコンピュータに発揮させることを特徴とするプログラム。
[17] 第 1ビデオデータにおける画像の動きを示す動きベクトルを含む付加情報と、第 1ビ デォデータと同内容であって第 1ビデオデータよりも解像度の低い第 2ビデオデータ の符号化データであるストリームデータとを取得する取得手段と、
前記ストリームデータを第 2ビデオデータの画像に復号化する復号化手段と、 復号化された第 2ビデオデータの画像に対して、付加情報を用いて補間することに より第 1ビデオデータと同じ解像度の第 3ビデオデータに変換する変換手段と を備えることを特徴とする半導体装置。
PCT/JP2005/015679 2004-08-30 2005-08-29 復号化装置、符号化装置、復号化方法、符号化方法 WO2006025339A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP05775151A EP1788817A4 (en) 2004-08-30 2005-08-29 DECODER, ENCODER, DECODING METHOD AND CODING METHOD
US11/661,277 US8208549B2 (en) 2004-08-30 2005-08-29 Decoder, encoder, decoding method and encoding method
JP2006532683A JP4949028B2 (ja) 2004-08-30 2005-08-29 復号化装置、符号化装置、復号化方法、符号化方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP04020569.2 2004-08-30
EP04020569A EP1631089A1 (en) 2004-08-30 2004-08-30 Video coding apparatus and decoding apparatus

Publications (1)

Publication Number Publication Date
WO2006025339A1 true WO2006025339A1 (ja) 2006-03-09

Family

ID=34926354

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/015679 WO2006025339A1 (ja) 2004-08-30 2005-08-29 復号化装置、符号化装置、復号化方法、符号化方法

Country Status (4)

Country Link
US (1) US8208549B2 (ja)
EP (2) EP1631089A1 (ja)
JP (1) JP4949028B2 (ja)
WO (1) WO2006025339A1 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007129647A (ja) * 2005-11-07 2007-05-24 Sony Corp 記録再生装置および記録再生方法、記録装置および記録方法、再生装置および再生方法、並びにプログラム
JP2009253764A (ja) * 2008-04-08 2009-10-29 Fujifilm Corp 画像処理システム、画像処理方法、およびプログラム
JP2009253586A (ja) * 2008-04-04 2009-10-29 Fujifilm Corp 画像処理システム、画像処理方法、およびプログラム
JP2013518463A (ja) * 2010-01-22 2013-05-20 トムソン ライセンシング サンプリングベースの超解像度ビデオ符号化および復号化方法並びに装置
US8447128B2 (en) 2008-04-07 2013-05-21 Fujifilm Corporation Image processing system
US9338477B2 (en) 2010-09-10 2016-05-10 Thomson Licensing Recovering a pruned version of a picture in a video sequence for example-based data pruning using intra-frame patch similarity
JP2017005687A (ja) * 2015-04-23 2017-01-05 アクシス アーベー ビデオカメラでビデオストリームを処理する方法及び装置
US9544598B2 (en) 2010-09-10 2017-01-10 Thomson Licensing Methods and apparatus for pruning decision optimization in example-based data pruning compression
US9813707B2 (en) 2010-01-22 2017-11-07 Thomson Licensing Dtv Data pruning for video compression using example-based super-resolution

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2449631B (en) * 2007-05-21 2012-02-15 Doo Technologies Fze Method and system for processing of images
JP4518111B2 (ja) * 2007-07-13 2010-08-04 ソニー株式会社 映像処理装置、映像処理方法、及びプログラム
AU2007237313A1 (en) * 2007-12-03 2009-06-18 Canon Kabushiki Kaisha Improvement for error correction in distributed vdeo coding
AU2007242924A1 (en) * 2007-12-12 2009-07-02 Canon Kabushiki Kaisha Improvement for error correction in distributed video coding
KR100939917B1 (ko) 2008-03-07 2010-02-03 에스케이 텔레콤주식회사 움직임 예측을 통한 부호화 시스템 및 움직임 예측을 통한부호화 방법
US8274603B2 (en) * 2008-03-28 2012-09-25 Microsoft Corporation Choosing video deinterlacing interpolant based on cost
US20090304293A1 (en) * 2008-06-08 2009-12-10 Te-Hao Chang Motion estimation method and related apparatus for efficiently selecting motion vector
US8755515B1 (en) 2008-09-29 2014-06-17 Wai Wu Parallel signal processing system and method
US8359205B2 (en) 2008-10-24 2013-01-22 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
US8121830B2 (en) * 2008-10-24 2012-02-21 The Nielsen Company (Us), Llc Methods and apparatus to extract data encoded in media content
US9667365B2 (en) 2008-10-24 2017-05-30 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
US8667162B2 (en) * 2008-12-31 2014-03-04 Industrial Technology Research Institute Method, apparatus and computer program product for providing a mobile streaming adaptor
US8520736B2 (en) * 2009-04-14 2013-08-27 Fastvdo, Llc Real-time superresolution and video transmission
CA2760677C (en) 2009-05-01 2018-07-24 David Henry Harkness Methods, apparatus and articles of manufacture to provide secondary content in association with primary broadcast media content
JP5184447B2 (ja) * 2009-06-22 2013-04-17 株式会社Kddi研究所 動画像符号化装置および復号装置
US8548062B2 (en) * 2010-07-16 2013-10-01 Sharp Laboratories Of America, Inc. System for low resolution power reduction with deblocking flag
TWI606418B (zh) * 2012-09-28 2017-11-21 輝達公司 圖形處理單元驅動程式產生內插的圖框之電腦系統及方法
US20150350565A1 (en) * 2014-05-29 2015-12-03 Opentv, Inc. Techniques for magnifying a high resolution image
WO2020012556A1 (ja) * 2018-07-10 2020-01-16 オリンパス株式会社 撮像装置、画像補正方法および画像補正プログラム
EP3648059B1 (en) * 2018-10-29 2021-02-24 Axis AB Video processing device and method for determining motion metadata for an encoded video
US11381867B2 (en) * 2019-01-08 2022-07-05 Qualcomm Incorporated Multiple decoder interface for streamed media data
CN115361582B (zh) * 2022-07-19 2023-04-25 鹏城实验室 一种视频实时超分辨率处理方法、装置、终端及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6335093A (ja) * 1986-07-30 1988-02-15 Sony Corp 高能率符号化装置
JPH06209468A (ja) * 1993-01-11 1994-07-26 Sony Corp 画像信号符号化方法および画像信号符号化装置、並びに画像信号復号化方法および画像信号復号化装置
JPH10126749A (ja) * 1996-10-14 1998-05-15 Toshiba Corp 順次走査変換装置
JP2000036963A (ja) * 1998-07-17 2000-02-02 Sony Corp 画像符号化装置、画像符号化方法および画像復号化装置
JP2003134476A (ja) * 2001-10-24 2003-05-09 Hitachi Ltd 走査変換処理装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69426584T2 (de) * 1993-08-06 2001-06-13 Lg Electronics Inc., Seoul/Soul Einrichtung zur Umsetzung der Vollbildfrequenz
US5569520A (en) * 1994-01-12 1996-10-29 Martin Marietta Energy Systems, Inc. Rechargeable lithium battery for use in applications requiring a low to high power output
US5621467A (en) * 1995-02-16 1997-04-15 Thomson Multimedia S.A. Temporal-spatial error concealment apparatus and method for video signal processors
EP0961991B1 (en) * 1997-12-22 2004-06-16 Koninklijke Philips Electronics N.V. Method and arrangement for creating a high-resolution still picture
WO1999052281A2 (en) 1998-04-03 1999-10-14 Miranda Technologies Inc. Hdtv up converter
US6192079B1 (en) * 1998-05-07 2001-02-20 Intel Corporation Method and apparatus for increasing video frame rate
US6300973B1 (en) * 2000-01-13 2001-10-09 Meir Feder Method and system for multimedia communication control
US6510177B1 (en) * 2000-03-24 2003-01-21 Microsoft Corporation System and method for layered video coding enhancement
JP4765194B2 (ja) * 2001-05-10 2011-09-07 ソニー株式会社 動画像符号化装置、動画像符号化方法、動画像符号化プログラム格納媒体及び動画像符号化プログラム
US7088780B2 (en) * 2001-05-11 2006-08-08 Mitsubishi Electric Research Labs, Inc. Video transcoder with drift compensation
US6612153B2 (en) * 2001-06-05 2003-09-02 Agilent Technologies, Inc. Planar manifold with integrated heated injector inlet and unheated pneumatics
WO2003036978A1 (en) * 2001-10-26 2003-05-01 Koninklijke Philips Electronics N.V. Method and apparatus for spatial scalable compression
JP4015934B2 (ja) * 2002-04-18 2007-11-28 株式会社東芝 動画像符号化方法及び装置
US20040131122A1 (en) * 2002-12-09 2004-07-08 Kei Kudo Encoding device and encoding method
KR20050105222A (ko) * 2003-02-17 2005-11-03 코닌클리케 필립스 일렉트로닉스 엔.브이. 비디오 부호화

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6335093A (ja) * 1986-07-30 1988-02-15 Sony Corp 高能率符号化装置
JPH06209468A (ja) * 1993-01-11 1994-07-26 Sony Corp 画像信号符号化方法および画像信号符号化装置、並びに画像信号復号化方法および画像信号復号化装置
JPH10126749A (ja) * 1996-10-14 1998-05-15 Toshiba Corp 順次走査変換装置
JP2000036963A (ja) * 1998-07-17 2000-02-02 Sony Corp 画像符号化装置、画像符号化方法および画像復号化装置
JP2003134476A (ja) * 2001-10-24 2003-05-09 Hitachi Ltd 走査変換処理装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7983530B2 (en) 2005-11-07 2011-07-19 Sony Corporation Recording and playback apparatus and recording and playback method, recording apparatus and recording method, playback apparatus and playback method, and program
JP2007129647A (ja) * 2005-11-07 2007-05-24 Sony Corp 記録再生装置および記録再生方法、記録装置および記録方法、再生装置および再生方法、並びにプログラム
JP2009253586A (ja) * 2008-04-04 2009-10-29 Fujifilm Corp 画像処理システム、画像処理方法、およびプログラム
US8447128B2 (en) 2008-04-07 2013-05-21 Fujifilm Corporation Image processing system
JP2009253764A (ja) * 2008-04-08 2009-10-29 Fujifilm Corp 画像処理システム、画像処理方法、およびプログラム
US9602814B2 (en) 2010-01-22 2017-03-21 Thomson Licensing Methods and apparatus for sampling-based super resolution video encoding and decoding
JP2013518463A (ja) * 2010-01-22 2013-05-20 トムソン ライセンシング サンプリングベースの超解像度ビデオ符号化および復号化方法並びに装置
US9813707B2 (en) 2010-01-22 2017-11-07 Thomson Licensing Dtv Data pruning for video compression using example-based super-resolution
KR101789845B1 (ko) * 2010-01-22 2017-11-20 톰슨 라이센싱 샘플링 기반 초 해상도 비디오 인코딩 및 디코딩을 위한 방법 및 장치
US9338477B2 (en) 2010-09-10 2016-05-10 Thomson Licensing Recovering a pruned version of a picture in a video sequence for example-based data pruning using intra-frame patch similarity
US9544598B2 (en) 2010-09-10 2017-01-10 Thomson Licensing Methods and apparatus for pruning decision optimization in example-based data pruning compression
JP2017005687A (ja) * 2015-04-23 2017-01-05 アクシス アーベー ビデオカメラでビデオストリームを処理する方法及び装置
US10057591B2 (en) 2015-04-23 2018-08-21 Axis Ab Method and device for processing a video stream in a video camera

Also Published As

Publication number Publication date
EP1788817A1 (en) 2007-05-23
US8208549B2 (en) 2012-06-26
EP1788817A4 (en) 2009-07-01
US20080117975A1 (en) 2008-05-22
JP4949028B2 (ja) 2012-06-06
JPWO2006025339A1 (ja) 2008-05-08
EP1631089A1 (en) 2006-03-01

Similar Documents

Publication Publication Date Title
WO2006025339A1 (ja) 復号化装置、符号化装置、復号化方法、符号化方法
JP4594201B2 (ja) 画像符号化方法、画像符号化装置、プログラムおよび集積回路
KR101075270B1 (ko) 움직임 검출 방법 및 동화상 부호화 방법
TWI356595B (en) Picture decoding apparatus and the methods
KR100948714B1 (ko) 동화상 부호화 방법 및 동화상 복호화 방법
KR100976672B1 (ko) 동화상 부호화 방법 및 동화상 복호화 방법
KR100967237B1 (ko) 동화상 부호화 방법 및 동화상 복호화 방법
KR100985236B1 (ko) 움직임 보상 방법, 화상 부호화 방법 및 화상 복호화 방법
JP4130783B2 (ja) 動きベクトル符号化方法および動きベクトル復号化方法
WO2004008773A1 (ja) フィルタリング強度の決定方法、動画像符号化方法、および動画像復号化方法
JP2008199587A (ja) 画像符号化装置、画像復号化装置および方法
JP4313710B2 (ja) 画像符号化方法および画像復号化方法
JP4641995B2 (ja) 画像符号化方法および画像符号化装置
JP4495013B2 (ja) 動画符号化装置
JP4519676B2 (ja) 動き検出方法および動画像符号化方法
CN101431679B (zh) 图像编码方法及图像编码装置
JP2004215215A (ja) 動きベクトル検出方法
JP2005142986A (ja) 動画像符号化方法、動画像符号化装置および動画像符号化プログラム
JP2005176337A (ja) 画像信号処理方法、画像信号処理装置、画像信号処理プログラムおよび集積回路装置
JP2004040512A (ja) 画像符号化方法および画像復号方法
JP2004364064A (ja) 動き推定方法および動画像符号化方法

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

WWE Wipo information: entry into national phase

Ref document number: 2006532683

Country of ref document: JP

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 11661277

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2005775151

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

WWP Wipo information: published in national office

Ref document number: 2005775151

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 11661277

Country of ref document: US