WO2007013194A1 - Image information compression method and free viewpoint television system - Google Patents

Image information compression method and free viewpoint television system Download PDF

Info

Publication number
WO2007013194A1
WO2007013194A1 PCT/JP2006/300257 JP2006300257W WO2007013194A1 WO 2007013194 A1 WO2007013194 A1 WO 2007013194A1 JP 2006300257 W JP2006300257 W JP 2006300257W WO 2007013194 A1 WO2007013194 A1 WO 2007013194A1
Authority
WO
WIPO (PCT)
Prior art keywords
image information
frame
frames
encoding
image
Prior art date
Application number
PCT/JP2006/300257
Other languages
French (fr)
Japanese (ja)
Inventor
Masayuki Tanimoto
Toshiaki Fujii
Kenji Yamamoto
Original Assignee
National University Corporation Nagoya University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University Corporation Nagoya University filed Critical National University Corporation Nagoya University
Priority to JP2007526814A priority Critical patent/JP4825983B2/en
Publication of WO2007013194A1 publication Critical patent/WO2007013194A1/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding

Definitions

  • the present invention relates to an image information compression method capable of improving the code compression efficiency of image information acquired by a plurality of cameras, and a free viewpoint television system to which this method is applied. is there.
  • the inventor of the present application is a free viewpoint TV (FTV) that allows viewers to freely change their viewpoints and view 3D scenes as if they were on the spot.
  • FTV free viewpoint TV
  • the viewpoint can be freely moved in the horizontal plane based on the photographed images acquired by 15 cameras.
  • F TV experimental equipment is completed (see Non-Patent Document 1, for example).
  • Non-Patent Document 1 Masayuki Tanimoto, “Free Viewpoint Television”, Nihon Kogyo Publishing, Imaging Lab, February 2005, pp. 23-28
  • Non-Patent Document 2 Shinya Oka, Nonon Champurim, Toshiaki Fujii, Masayuki Tanimoto, “Light-Space Information Compression for Free Viewpoint Television”, IEICE Technical Report, CS2003—141, pp. 7-12, 2003 1 2 Moon
  • Non-Patent Document 3 Masayuki Tanimoto, "5. Free-viewpoint TV FTV, using multi-viewpoint image processing", Journal of the Institute of Image Information and Media Sciences, Vol. 58, No. 7, pp. 898-901, 2004
  • Patent Document 4 Shinya Oka, Nonon Champurim, Toshiaki Fujii, Masayuki Tanimoto, “Compression of Dynamic Ray Space for Free Viewpoint Television”, 3D Image Conference 2004, pp. 139-142, 2004
  • Non-Patent Document 2 states, “Because the light space is very similar in both the time axis and the space axis, motion (parallax) prediction is applied to both axes. It is thought that it is possible to obtain a high compression ratio by doing so. " Also, Non-Patent Document 3 on page 899, the left column says “interpolate the ray space”, and the left column on page 900 says “If the interpolation is performed only on the necessary part, not the entire light space.
  • FIG. 1 is a diagram conceptually showing the basic configuration of an FTV system.
  • the F TV system shown in Fig. 1 uses a camera (step ST1), image interpolation processing (step ST2 or ST2a), image information compression processing (step ST3), and an image viewed from the input viewpoint. Is displayed (steps ST4 and ST5).
  • image information of a subject 101 that exists in a three-dimensional real space is stored in multiple cameras (Fig. 1 shows five cameras 102 to 102).
  • Step ST1 As shown, more cameras are actually used. ) (Step ST1) and images acquired by multiple cameras ( Figure 1 shows five images with reference numerals 103 to 103)
  • X represents a horizontal viewing direction
  • y represents a vertical viewing direction
  • the arrangement of the plurality of cameras 102 is a linear arrangement in which the directions parallel to each other are arranged on a straight line, as shown in Fig. 2 (b).
  • Circumferential arrangement (or arc arrangement) arranged with the inside of the circumference facing the inside of the circumference, as shown in Fig. 2 (c), planar arrangement arranged in parallel with each other on the plane, Fig. 2 (d)
  • Fig. 2 (a) As shown in Fig.
  • the spherical arrangement (or hemispherical arrangement) arranged on the spherical surface with the inner surface of the spherical surface arranged, and the cylindrical arrangement arranged on the cylinder with the inner surface of the cylinder oriented as shown in Fig. 2 (e).
  • the arrangement of multiple cameras 102 should be either the linear arrangement shown in Fig. 2 (a) or the circumferential arrangement shown in Fig. 2 (b) when only a horizontal free viewpoint is realized.
  • the planar arrangement shown in Fig. 2 (c) the cylindrical arrangement shown in Fig. 2 (d), or the spherical arrangement shown in Fig. 2 (e) To do.
  • one ray in a three-dimensional real space is represented by one point in a multidimensional space with a parameter representing it as a coordinate.
  • This virtual multidimensional space is called a light space.
  • the whole ray space expresses all rays in 3D space without excess or deficiency.
  • Ray space is created by collecting images taken with a lot of viewpoint power. Since the value of the point in the ray space is the same as the pixel value of the image, conversion to the image force ray space is just a coordinate transformation.
  • the light beam 107 passing through the reference plane 106 in real space passes. It can be uniquely expressed by four parameters: position (x, y) and passing direction ( ⁇ , ⁇ ). In FIG.
  • X is a horizontal coordinate axis in three-dimensional real space
  • Y is a vertical coordinate axis
  • Z is a depth coordinate axis.
  • is the horizontal angle with respect to the normal of the reference surface 106, that is, the horizontal projection angle with respect to the reference surface 106
  • is the vertical angle with respect to the normal of the reference surface 106, that is, This is an emission angle in a direction perpendicular to the reference plane 106.
  • the ray information in this three-dimensional real space can be expressed as luminance f (x, y, ⁇ , ⁇ ).
  • the vertical parallax (angle ⁇ ) is ignored. As shown in Fig.
  • images taken by a number of cameras placed horizontally toward the reference plane 106 are X, y as shown in Fig. 3 (b).
  • step ST2 interpolation
  • step ST2a interpolation side
  • Step ST3 in Fig. 1 Compression of image information (step ST3 in Fig. 1) is not an indispensable process when the components of the FTV system are in the same location, but the camera and the user are in different locations. This is an indispensable process when distributing image information using the Internet.
  • a conventional image information compression method for example, there is a method compliant with the H.264ZAVC standard (for example, see Patent Document 1).
  • Patent Document 1 Japanese Patent Laid-Open No. 2003-348595 (FIGS. 1 and 2) Disclosure of the invention
  • the present invention has been made to solve the above-described problems of the prior art, and the object thereof is to reduce the sign key compression in the sign key of image information obtained by a plurality of cameras.
  • the object is to provide an image information compression method capable of improving efficiency and an FTV system to which this method is applied.
  • the image information compression method of the present invention includes:
  • Three or more cameras' medium power is also selected Frame information arranged in the time axis direction of moving images acquired by two or more cameras using intra-frame coding and temporal correlation between frames
  • a time of a moving image acquired by a camera other than the selected force based on the step of performing the code processing using the inter-predictive code and the image information acquired by the selected camera Generating a first viewpoint interpolated image corresponding to the axially aligned frames;
  • the step of encoding and processing image information of frames arranged in a time axis direction of a moving image acquired by a camera other than the selected camera is image information acquired by a camera other than the selected camera.
  • Encoding processing with reference to image information of a frame at a time different from the encoding target frame, and encoding processing with reference to the first viewpoint interpolated image corresponding to the encoding target frame includes a step of selectively outputting an encoding processing result when the encoding compression efficiency is highest. It is characterized by this.
  • Another image information compression method of the present invention includes:
  • Image information of frames of moving images acquired by the plurality of cameras at the same time arranged in the order of the arrangement of the cameras is obtained by the same algorithm as the inter-frame prediction code ⁇ using the temporal correlation.
  • a step of performing a code process using an inter-frame prediction code using a correlation between frames at the same time is obtained by the same algorithm as the inter-frame prediction code ⁇ using the temporal correlation.
  • the FTV system of the present invention includes:
  • An image information encoding apparatus for executing the image information compression method
  • a plurality of cameras for supplying video signals to the image information encoding device
  • An image information decoding device for decoding the encoded information output from the image information encoding device
  • a user interface for inputting the viewpoint position of the viewer
  • an image information extracting unit that extracts an image of viewpoint power input by the user interface from images of the same time taken by the plurality of cameras.
  • a frame of a moving image acquired by a plurality of cameras is encoded by inter-frame prediction encoding using correlation between frames at the same time.
  • inter-frame prediction encoding using correlation between frames at the same time.
  • image information of frames arranged in the time axis direction of moving images acquired by two or more selected cameras is encoded.
  • the first viewpoint interpolation image corresponding to the frame of the moving image acquired by the camera other than the selected camera is generated, and the camera other than the selected camera generates the first viewpoint interpolation image.
  • FIG. 1 is a diagram conceptually showing the basic configuration of an FTV system.
  • FIG. 2 (a) to (e) are diagrams showing examples of the arrangement of multiple cameras, (a) is a linear arrangement, (b) is a circumferential arrangement, (c) is a planar arrangement, (d) Is a cylindrical arrangement, and (e) is a spherical arrangement.
  • FIG. 3 (a) is a diagram showing an object in real space, a linearly arranged camera, a reference plane, and light rays, and (b) is a diagram showing the light space.
  • FIG. 4 (a) is a diagram showing a light space, (b) is a diagram showing an image cut out from the light space, and (c) is a diagram showing another image cut out from the light space. is there.
  • FIG. 5 is a block diagram schematically showing a configuration of an image information encoding device capable of implementing the image information compression method of the present invention.
  • FIG. 6 is a diagram conceptually showing that frames of moving images taken by a plurality of cameras are arranged in the time axis direction, and frames at the same time are arranged in the order of camera arrangement.
  • FIG. 7 is a flowchart showing an operation of the image information encoding device shown in FIG.
  • FIG. 8 is a flowchart showing an example of the operation of the interpolated image generation / compensation step shown in FIG.
  • FIG. 9 is a flowchart showing an example of the operation of the selection step shown in FIG.
  • FIG. 10 is a block diagram schematically showing a configuration of an image information decoding apparatus capable of decoding image information encoded by the image information compression method of the present invention.
  • FIG. 11 is a flowchart showing an operation of the image information decoding apparatus shown in FIG.
  • FIG. 12 is a flowchart showing an example of the operation of the interpolated image generation / compensation step shown in FIG.
  • FIG. 13 is an explanatory diagram (part 1) of the image information compression method according to the first embodiment of the present invention.
  • FIG. 14 is an explanatory diagram (part 2) of the image information compression method according to the first embodiment of the present invention.
  • FIG. 15 is an explanatory diagram (part 1) of the image information compression method according to the second embodiment of the present invention.
  • FIG. 16 is an explanatory diagram (part 2) of the image information compression method according to the second embodiment of the present invention.
  • FIG. 17 is an explanatory diagram (part 3) of the image information compression method according to the second embodiment of the present invention.
  • FIG. 18 is an explanatory diagram (part 4) of the image information compression method according to the second embodiment of the present invention.
  • FIG. 19 is an explanatory diagram of an image information compression method according to the third embodiment of the present invention.
  • FIG. 20 is an explanatory diagram of an image information compression method according to the fourth embodiment of the present invention.
  • FIG. 21 is an explanatory diagram (part 1) of the image information compression method according to the fifth embodiment of the present invention.
  • FIG. 22 is an explanatory diagram (part 2) of the image information compression method according to the fifth embodiment of the present invention.
  • FIG. 23 is an explanatory diagram (part 3) of the image information compression method according to the fifth embodiment of the present invention.
  • FIG. 24 is an explanatory diagram (part 4) of the image information compression method according to the fifth embodiment of the present invention.
  • FIG. 25 is an explanatory diagram (part 5) of the image information compression method according to the fifth embodiment of the present invention.
  • FIG. 26 is an explanatory diagram (No. 6) of the image information compression method according to the fifth embodiment of the invention.
  • FIG. 27 is a diagram showing an example of a horizontal section of a light space in an image information compression method according to a sixth embodiment of the present invention.
  • FIG. 28 is an explanatory diagram of a motion vector prediction method in the image information compression method according to the sixth embodiment of the present invention.
  • FIG. 29 is an explanatory diagram of a motion vector prediction method in H.264ZAVC as a comparative example of the sixth embodiment of the present invention.
  • FIG. 30 (a) and (b) are explanatory diagrams showing the relationship between a point in real space and a straight line in a horizontal section of the light space. It is a figure which shows notionally the basic composition of a FTV system.
  • FIG. 31 is a diagram conceptually showing the basic structure of an FTV system in a seventh embodiment of the present invention.
  • FIG. 5 shows an image information coding apparatus capable of implementing the image information compression method of the present invention.
  • the image information encoding device 200 includes N input terminals 201 to 201 (N is an integer of 2 or more), N AZD conversion units 202 to 202, Screen sorting buffer
  • the image information coding apparatus 200 includes an inverse quantization unit 211, an inverse orthogonal transform unit 212, a multi-camera frame 213, a motion prediction / compensation unit 215, an interpolated image generation / compensation unit 216, a motion A selection unit 217 that selectively outputs one of the output signals of the prediction / compensation unit 215 and the interpolated image generation / compensation unit 216;
  • the motion prediction / compensation unit 215, the interpolated image generation / compensation unit 216, and the selection unit 217 constitute an encoding processing unit 214 that performs the image information compression method of the present invention.
  • An image information encoding apparatus 200 shown in FIG. 5 includes a point that can receive image information from a plurality of cameras, and an encoding processing unit 214 that can implement the image information compression method of the present invention. This is different from the conventional image information encoding apparatus disclosed in Patent Document 1 described above.
  • Each of the input terminals 201 to 201 of the image information encoding device 200 has an arrangement position and
  • analog video signals acquired by N cameras with known shooting directions are input.
  • the N cameras usually have the same performance, such as resolution, and are regularly arranged as shown in FIGS. 2 (a;) to (e), for example.
  • the number of cameras is usually tens, hundreds, or more.
  • Ma The camera arrangement is not limited to that shown in FIGS. 2 (a) to 2 (e).
  • the analog video signals input to the input terminal SO ⁇ 201 are respectively decoded by the AZD converters 202-202.
  • FIG. 6 shows frames of moving images (also referred to as “images”) taken by a plurality of cameras # 1 to # 5, and FRs are arranged in the time axis t direction, and camera # 1. It is a figure which shows notionally that the frames of the same time acquired by ⁇ # 5 are arranged in the spatial axis S direction in the arrangement order of the cameras.
  • the frame FR of the moving images taken by the cameras # 1 to # 5 is an image group having a predetermined number of frame forces arranged in time series in the time axis t direction. Configure GOP (Group of Pictures).
  • FIG. 6 shows frames of moving images (also referred to as “images”) taken by a plurality of cameras # 1 to # 5, and FRs are arranged in the time axis t direction, and camera # 1.
  • the frame FR of the moving images taken by the cameras # 1 to # 5 is an image group having a predetermined number of frame forces arranged in time series in the time axis t direction. Configure GOP (Group
  • the frames taken at the same time of the moving images taken by the respective force cameras # 1 to # 5, that is, the frames at the same time are the spatial axes S which are the arrangement order of the cameras.
  • An image group G of a predetermined number of frames at the same time arranged in the direction (horizontal direction in Fig. 6) is formed.
  • the screen rearrangement buffer 203 of the image information encoding device 200 performs frame rearrangement according to the GOP structure of the supplied image information.
  • the face rearrangement buffer 203 supplies the image information of the entire frame to the orthogonal transform unit 205 for the image on which intra-frame coding (intra coding) is performed.
  • the orthogonal transform unit 205 performs orthogonal transform such as discrete cosine transform on the image information and supplies transform coefficients to the quantization unit 206.
  • the quantization unit 206 performs a quantization process on the transform coefficient supplied from the orthogonal transform unit 205.
  • the variable code key unit 207 determines the quantized transform coefficient and quantization scale iso-power code key mode supplied from the quantization unit 206, and sets a variable length code for this coding mode. Or variable coding such as arithmetic coding is performed to form information to be inserted into the header portion of each image code key. Then, the variable code key unit 207 supplies the encoded encoding mode to the accumulation buffer 208 for accumulation. The encoded code mode is output from the output terminal 209 as image compression information. The variable code key unit 207 applies a variable code key such as a variable-length code key or an arithmetic code key to the quantized transform coefficient to generate a code key. The converted conversion coefficient is supplied to the accumulation buffer 208 and accumulated. The encoded conversion coefficient is output from the output terminal 209 as image compression information.
  • the behavior of the quantization unit 206 is controlled by the rate control unit 210 based on the data amount of transform coefficients accumulated in the accumulation buffer 208. Further, the quantization unit 206 supplies the quantized transform coefficient to the inverse quantization unit 211, and the inverse quantization unit 211 performs inverse quantization on the quantized transform coefficient.
  • the inverse orthogonal transform unit 212 performs inverse orthogonal transform processing on the inversely quantized transform coefficients to generate decoded image information, and supplies the information to the multi-camera frame memory 213 for accumulation.
  • the screen rearrangement buffer 203 supplies image information to the encoding processing unit 214 for an image on which inter-frame predictive encoding (inter-encoding) is performed.
  • the encoding processing unit 214 performs encoding processing on image information using the image information compression methods of the first to sixth embodiments of the present invention described later.
  • the encoding processing unit 214 supplies the generated reference image information to the adder 204, and the adder 204 converts the reference image information into a difference signal from the corresponding image information.
  • the encoding processing unit 214 supplies the motion vector information to the variable code unit 207 at the same time.
  • variable encoding unit 207 is based on the quantized transform coefficient and quantization scale from the quantization unit 206, the motion vector information supplied from the code key processing unit 214, and the like. Then, variable encoding such as variable length encoding or arithmetic encoding is performed on the determined encoding mode, and information to be inserted into the header portion of each image code key is generated. Then, the variable code key unit 207 supplies the encoded code key mode to the accumulation buffer 208 for accumulation. The encoded code mode is output as image compression information.
  • variable code key unit 207 performs variable coding processing such as variable length code key or arithmetic coding on the motion vector information, and is inserted into the header part of each image code key. Information is generated.
  • image information input to the orthogonal transform unit 205 is a difference signal obtained from the adder 204.
  • the other processes are the same as those in the case of image compression using intra codes.
  • FIG. 7 is a flowchart showing the encoding process of the image information encoding device 200 shown in FIG. It is As shown in FIG. 7, the image information encoding device 200 performs AZD conversion of the input analog video signal by the AZD conversion units 20 to 202 (step ST11
  • the screen is rearranged by the screen rearrangement buffer 203 (step ST12), and then the motion prediction 'compensation unit 215 for motion prediction' compensation (step ST21) and the interpolated image generation 'compensation unit 216 Generation / compensation (step ST22), encoding by referring to the interpolated image by the selection unit 217, or determination of whether to select a shift of the coding prediction by motion prediction / compensation (step ST23) is performed.
  • the conventional compression coding process for image information for example, processing conforming to the H.26 4ZAVC standard
  • interpolation by the interpolated image generation / compensation unit 216 is performed in the case of the first embodiment described later.
  • Image generation ⁇ No compensation is required.
  • step ST23 the image information generated by orthogonal transform section 205 is orthogonally transformed (step ST23), and quantization and quantization rate control are performed by quantization section 206 and rate control section 210 (steps ST25, 26).
  • Variable code key unit 207 performs variable code key (step ST2 7)
  • inverse quantization unit 211 performs inverse quantization (step ST28)
  • inverse orthogonal transform unit 212 performs inverse orthogonal transform (step ST29). )I do.
  • Steps ST21 to ST29 are performed on all blocks having a predetermined number of pixels in the frame, and steps ST11 and ST12 and steps ST21 to ST29 for all blocks are performed on all frames.
  • FIG. 8 is a flowchart showing an example of the operation of the interpolated image generation / compensation step ST22 shown in FIG. Interpolated image generation 'For compensation, depth estimation is performed at each pixel in the block to generate an interpolated pixel (for example, pixel value 0 to 255), and an evaluation value E is calculated based on the pixel value of the generated interpolated pixel.
  • the evaluation value E is, for example,
  • the evaluation value E is not limited to the above definition, and other definitions can be adopted.
  • an interpolation pixel is generated using the depth that is the minimum value E (step ST224).
  • steps ST221 to ST224 is performed on all the pixels in the block, and an evaluation value, which is an index indicating how much the estimated block generated by the interpolation pixel is similar to the actual block, is calculated (step ST225 ).
  • an evaluation value which is an index indicating how much the estimated block generated by the interpolation pixel is similar to the actual block.
  • the set of pixels S is I (i, j), a ⁇ i ⁇ b, c; j ⁇ d, and the set of pixels T of the image to be signed T
  • est int e is I (i, j), a ⁇ i ⁇ b, c; j ⁇ d, the evaluation ⁇ is
  • a, b, c, and d are values indicating the block range. Note that the interpolation method described above is merely an example, and any manufacturer or user of the apparatus that can use any of the interpolation methods in the present invention is free from the known frame interpolation methods. May be configured to be selectable.
  • FIG. 9 is a flowchart showing an example of the operation of the selection step of either the interpolated image or the motion prediction compensation shown in FIG.
  • evaluation ⁇ mt is calculated, but when evaluation ⁇ int force S motion prediction compensation is adopted ⁇ ⁇ ⁇ ⁇ ⁇ larger than mot
  • motion prediction compensation is employed, and when the evaluation ⁇ mt is equal to or less than the evaluation ⁇ mot when motion prediction compensation is adopted, an interpolation image is selected (steps ST231 to ST233).
  • motion prediction compensation is performed when performing conventional image information compression encoding processing (for example, processing conforming to the H.264ZAVC standard) or when performing the image information compression method of the first embodiment described later.
  • the image information encoded by is selected.
  • FIG. 10 is a block diagram schematically showing a configuration of an image information decoding device 300 corresponding to the image information encoding device 200.
  • an image information decoding apparatus 300 includes an input terminal 301, a storage buffer 302, a variable decoding unit 203, an inverse quantization unit 304, an inverse orthogonal transform unit 305, an adder 306 and Screen rearrangement buffer 307, N DZ A converters 308 to 308, and N output terminals
  • the image information decoding apparatus 300 is a multi-camera frame.
  • the motion prediction / compensation unit 312, the interpolated image generation / compensation unit 313, and the selection unit 314 constitute a decoding processing unit 311 that performs image information decoding.
  • An image information decoding apparatus 300 shown in FIG. 10 includes a decoding processing unit 311 that can decode image information encoded by the image information compression method of the present invention, and corresponds to image information of a plurality of cameras. This is different from the image information decoding apparatus disclosed in Patent Document 1 in that a plurality of analog video signals can be output.
  • N DZA converters when N digital output signals are output from 309 to 309 output terminals, N DZA converters
  • the image compression information input from the input terminal 301 is temporarily stored in the storage buffer 302 and then transferred to the variable decoding unit 303.
  • the variable decoding unit 303 performs processing such as variable length decoding or arithmetic decoding on the image compression information based on the determined format of the image compression information, and acquires code key mode information stored in the header unit. This is supplied to the inverse quantization unit 304 or the like. Similarly, the variable decoding unit 303 acquires the quantized transform coefficient and supplies it to the inverse quantization unit 304. Further, if the frame decoding inter-coding is performed, the variable decoding unit 303 also decodes the motion vector information stored in the header portion of the image compression information, and the information is decoded. Supply to 311.
  • the inverse quantization unit 304 inverse-quantizes the quantized transform coefficient supplied from the variable decoding unit 303, and supplies the transform coefficient to the inverse orthogonal transform unit 305.
  • the inverse orthogonal transform unit 305 performs inverse orthogonal transform such as inverse discrete cosine transform on the transform coefficient based on the determined format of the image compression information.
  • the image information subjected to the inverse orthogonal transform processing is stored in the screen rearrangement buffer 307, and the DZA in the DZA conversion units 308 to 308 After conversion processing, output terminals 309 to 3
  • the decoding processing unit 311 performs motion vector information subjected to variable decoding processing and image information stored in the multi-camera frame memory 310. Based on the above, a reference image is generated and supplied to the adder 306. The adder 306 combines the reference image and the output from the inverse orthogonal transform unit 305. The other processing is the same as that of the intra-coded frame.
  • FIG. 11 is a flowchart showing the code key processing of the image information decoding apparatus 300 shown in FIG.
  • the image information decoding apparatus 300 performs motion prediction compensation on image information after variable decoding (step ST31), inverse quantization (step ST32), and inverse orthogonal transform (step ST33) of an input signal. If so, decoding is performed using motion prediction compensation (steps ST34 and ST35), and if compensated using an interpolated image, decoding is performed using the interpolated image (steps ST36 and ST37).
  • the processing of steps ST31 to ST37 is performed for all blocks, and further, the processing of performing the processing of steps ST31 to ST37 for all blocks is performed for all frames. Thereafter, screen rearrangement (step ST41) and DZA conversion (step ST42) are performed based on the obtained decoded data.
  • FIG. 12 is a flowchart showing an example of the operation of the interpolated image generation / compensation step ST37 shown in FIG.
  • the processing in steps ST371 to ST374 in FIG. 12 is the same as the processing in steps ST221 to ST224 in FIG.
  • the depth is estimated at each pixel in the block to generate an interpolated pixel (for example, pixel value 0 to 255), and an evaluation value E based on the pixel value of the generated interpolated pixel is calculated. Then, the minimum value E of the evaluation value E in the block depth range is obtained (steps ST371 to ST373). Then the minimum value E
  • An interpolation pixel is generated using a depth of mm min (step ST374).
  • the processing in steps ST221 to ST224 is performed on all the pixels in the block.
  • the image information encoding apparatus 200 capable of performing the image information compression method of the present invention and the image information capable of decoding the image information encoded by the image information compression method of the present invention have been described above.
  • the decoding apparatus 300 has been described as an example, the image information encoding apparatus 200 and the image information decoding apparatus 300 that can implement the image information compression method of the present invention are not limited to those having the above-described configuration.
  • the image information compression method of the present invention can also be applied to an apparatus having the configuration described above.
  • an embodiment of the image information compression method of the present invention and the image information of the present invention The FTV system to which the compression method is applied is explained.
  • the image information compression method according to the first embodiment of the present invention will be described below.
  • the image information compression method according to the first embodiment applies inter-view prediction encoding described later.
  • inter-view prediction encoding described later.
  • FIGS. 13 and 14 are explanatory diagrams (parts 1 and 2) of the image information compression method according to the first embodiment of the present invention.
  • 13 and 14 t represents a time axis, and S represents a spatial axis in the camera arrangement order or the camera arrangement direction.
  • # 1 to # 7 indicate camera numbers assigned in the order of camera arrangement.
  • the number of cameras may be other than the number shown as long as the number is two or more. Further, the camera may be arranged in any one of FIGS. 2 (a) to 2 (e) or other arrangements.
  • I is an intra-frame encoded frame (I picture)
  • P is an inter-frame prediction code frame (P picture)
  • B is an inter-frame bi-directional prediction code frame.
  • a predetermined number of frames arranged in the direction of the time axis t constitute a GOP that is an image group composed of a predetermined number of frame covers.
  • a GOP is configured by a predetermined number of pictures of I, B, B, P, B, B, P,.
  • image information of frames arranged in the time axis t direction of moving images acquired by a plurality of cameras is obtained.
  • Coding is performed by intra-frame code (intra coding) and inter-frame prediction code (inter coding) using temporal correlation between frames.
  • the inter-frame prediction code using the temporal correlation is, for example, an encoding method based on the H.264ZAVC standard.
  • the inter-frame prediction code using the temporal correlation is not limited to the above method, and other code methods may be adopted.
  • a moving image frame that is, an encoded image as shown in FIG. 13 is obtained.
  • the first frame in time in the GOP that is composed of a predetermined number of frames aligned in the time axis t direction.
  • the first frame is an I picture
  • the first frame is an I picture.
  • the encoding processing of frames other than the first frame in the same GOP is performed by inter-frame prediction code using temporal correlation, and the encoded image is a P picture or a B picture. .
  • image information of frames of moving images acquired by a plurality of cameras, which are arranged at the same time in the spatial axis S direction in the order of camera arrangement, is obtained between frames using temporal correlation.
  • Encoding is performed by inter-frame prediction encoding using the correlation between frames at the same time using the same algorithm as the prediction code ⁇ .
  • the inter-frame prediction code ⁇ using the correlation between the frames at the same time is executed in units of image groups (G shown in FIG. 6) composed of a predetermined number of frames arranged at the same time in the spatial axis S direction. The in this way
  • the inter-frame prediction code using the correlation between frames at the same time is the inter-frame prediction code using the correlation between frames acquired at each viewpoint (for example, adjacent camera positions). This is referred to as “inter-view prediction encoding”.
  • the frame subjected to code processing by the inter-frame prediction code using the correlation between the simultaneous frames is the first frame of the frame in the GOP, that is, the I picture.
  • the inter-view prediction code ⁇ processing as shown in FIG. 14, the first frame in the GOP moves in the direction of the spatial axis S in the camera arrangement direction, I, B, B, P, B, B, P , ... signed to picture.
  • the inter-view prediction code ⁇ described above is executed for the first frame of each GOP acquired by a plurality of cameras.
  • the image information compression method according to the first embodiment is used in the H. 264ZAVC standard or the like between images taken at the same time by a plurality of cameras whose positional relationships are known. Focusing on the fact that there is a spatial correlation similar to the temporal correlation, we propose to apply inter-view predictive coding to the first GOP frame (I picture), which has a large amount of information. is there.
  • the image information compression method of the first embodiment the same as the inter-frame prediction encoding for the frame aligned in the time axis t direction with respect to the first frame in the GOP aligned in the spatial axis S direction.
  • the inter-frame predictive coding based on the algorithm that is, the inter-view prediction code is applied, the code compression efficiency can be improved.
  • the inter-view prediction encoding process is based on the same algorithm as the inter-frame prediction encoding for the frames arranged in the time axis t direction. It is also possible to divert the compensation unit 215. For this reason, it is necessary to add a significant configuration (circuit or software) in order to implement the image information compression method of the first embodiment.
  • the image information compression method of one embodiment is advantageous in terms of cost.
  • the image information compression method according to the second embodiment of the present invention will be described below.
  • the image information compression method of the second embodiment uses viewpoint interpolation, which will be described later, and includes a multiframe memory 213 and a motion prediction / compensation unit 215 of the code key processing unit 214 shown in FIG. This is executed by the image generation / compensation unit 216 and the selection unit 217.
  • FIGS. 15 to 18 are explanatory diagrams (parts 1 to 4) of the image information compression method according to the second embodiment of the present invention.
  • 15 to 18 t represents a time axis
  • S represents a spatial axis in the camera arrangement order or the camera arrangement direction.
  • the figure also shows only the frames acquired by cameras # 1 to # 5.
  • the number of cameras is the number of frames that can be interpolated, i.e. 3 (capturing the frame to be encoded). If there is more than one camera and two cameras that capture the reference frame to generate an interpolated image corresponding to the frame to be encoded, a total of three cameras) Also good.
  • I, P, and B are an I picture, a P picture, and a B picture, respectively.
  • the frames arranged in the space axis S direction are frames at the same time.
  • cameras other than the selected camera are selected based on the image information acquired by the selected odd-numbered cameras # 1, # 3, # 5, and so on.
  • viewpoint interpolation This is referred to as “viewpoint interpolation image”.
  • the interpolation method used for viewpoint interpolation may be any interpolation method, and may be based on various factors such as the performance required by the apparatus that implements the image information compression method of the present invention or the request of the apparatus user. Therefore, a known frame interpolation method may be selected. In addition, if it is clear that the movement of the shooting target has a specific law, an interpolation method suitable for the movement of the shooting target may be selected. Also, before or after generating the viewpoint interpolation image shown in FIG. 16, the inter-view prediction encoding described in the first embodiment is performed on the first frame in the GOP, and the first frame You can compress the amount of information.
  • the image information of frames arranged in the time axis t direction of the moving image acquired by even-numbered cameras # 2, # 4, • ⁇ -other than the selected camera. Is encoded using the intra-frame code and the inter-frame prediction code using the temporal correlation between frames.
  • the selection unit 217 of the image information encoding apparatus 200 is an image acquired by an even-numbered camera # 2, # 4, ... other than the selected camera, and is a frame to be encoded.
  • the coding efficiency is the highest when the encoding process is performed with reference to images of frames at different times and when the encoding process is performed with reference to the viewpoint interpolation image corresponding to the frame to be encoded.
  • the result of the encoding process when the value becomes high is selectively output.
  • FR (# 2, n) is based on the frame FR (# 2, n) adjacent frame FR (# 1, n) and FR (# 3, n).
  • the frame FR (# 2, n) to be encoded has frames FR (# 2, 11-1) and 1 ⁇ (# 2, n) as frames at different times.
  • the force referring to +1) (drawn with a thick solid line)
  • the frame to be referenced is not limited to the frames FR (# 2, n-1) and FR (# 2, n + 1).
  • Reference frame FR (# 2, n) force When referring to one of the frames FR (# 2, n— 1) or FR (# 2, n + 1), or the frame shown There may also be references to frames at different times.
  • the image information compression method of the second embodiment is the adjacent camera # 1,
  • image information acquired by cameras # 2, # 4 image information acquired by cameras # 2, # 4,.
  • Subject When the sign key processing is performed with reference to the image information of the frame at a time different from that of the frame FR (# 2, n), and the viewpoint interpolation image FR ( # 2,
  • the encoding processing result when the code compression efficiency is the highest is selectively output, so the encoding compression efficiency of the output image information is reduced. Can be improved.
  • the selected camera is an odd-numbered camera (# 1, # 3, # 5, # 7,...), And a camera other than the selected camera is an even-numbered camera ( # 2, # 4, # 6, etc.)
  • the power explained when the camera is a selected camera The selected camera is an even-numbered camera, and the cameras other than the selected camera are odd-numbered cameras Also good.
  • FIG. 18 shows a case where a viewpoint interpolation image is generated by interpolation as indicated by a white arrow, but a viewpoint interpolation image may be generated by extrapolation interpolation.
  • the selected camera is not limited to an even number or an odd number.
  • a camera in which one of three cameras whose camera numbers are indicated by # 3n-2 is selected (specifically, # 1, # 4, # 7, %) and the remaining cameras and cameras other than the selected camera (specifically, # 2, # 3, # 5, # 6,...;) and Other methods, such as, may be adopted.
  • some groups of selected cameras may be even (# 2, # 4, # 6, ...) or odd (# 1, # 3, # 5, ...) and the rest In the group part, one out of three cameras whose camera numbers are indicated by # 3n-2 can be selected cameras, and the remaining cameras can be other than the selected cameras.
  • some groups of selected cameras have one camera selected as the selected camera with the camera number indicated by # 3n-2 and the remaining cameras. Let the camera be a camera other than the selected camera, and in the remaining group part, even number (# 2, # 4, # 6, ...) or odd number (# 1, # 3, # 5, ...) It is good. That is, it is possible to adopt a method in which an even or odd numbered camera is selected as a selected camera and a method in which one predetermined number of cameras is selected as a selected camera.
  • the image information compression method according to the third embodiment of the present invention uses viewpoint interpolation.
  • the multiframe memory 213 shown in FIG. 5, the motion prediction / compensation unit 215 of the code key processing unit 214, and interpolation image generation are performed.
  • 'Complement This is executed by the compensation unit 216 and the selection unit 217.
  • the image information compression method of the third embodiment is an improved version of the image information compression method of the second embodiment, and the point of referring to a plurality of viewpoint-interpolated images is that of the image information compression of the second embodiment. It is different from the method.
  • FIG. 19 is an explanatory diagram of an image information compression method according to the third embodiment of this invention.
  • FR (# 1, n) is by camera # 1.
  • the acquired frame at t n and FR (# 1, n)
  • FIG. 19 Is a viewpoint interpolation image corresponding to the frame FR (# 2, n), which is generated using the second interpolation method.
  • Figure 19 shows two types of viewpoint-interpolated images FR
  • the first interpolation method and the second interpolation method can be determined based on various factors such as the performance required for a device that is not limited to a specific method and the performance required by the device user. Any known frame interpolation method can be selected freely. In addition, if it is clear that there is a specific law in the movement of the shooting target, you can select an interpolation method suitable for the movement of the shooting target!
  • the frame FR (# 2, n) to be encoded has frames FR (# 2, 11-1) and 1 ⁇ (# 2, n) as frames at different times.
  • the force indicating the case of referring to +1) (drawn with a thick solid line)
  • the frame to be referenced is not limited to the frames FR (# 2, n— 1) and FR (# 2, n + 1).
  • the target frame FR (# 2, n) is changed to frame FR (#
  • the selection unit 217 shown in FIG. 5 refers to a frame at a different time and performs code key processing using an inter-frame prediction code key that uses temporal correlation between frames (for example, H Frame FR (# 2, n) by referring to the viewpoint interpolation image FR (# 2, n) corresponding to the frame FR (# 2, n) to be encoded.
  • frames for example, H Frame FR (# 2, n) by referring to the viewpoint interpolation image FR (# 2, n) corresponding to the frame FR (# 2, n) to be encoded.
  • the viewpoint interpolation image FR (corresponding to the frame FR (# 2, n) to be encoded)
  • Interpolated image FR (# 2, n) based on time frame is different with the same camera # 2
  • Viewpoint interpolation images FR (# 2, n) based on the same time frames taken in # 1 and # 3 have the same power
  • the image information compression method of the second embodiment is based on the viewpoint interpolation image FR (# 2, n) or FR (# based on the same time frame taken by the adjacent cameras # 1 and # 3.
  • n may be more similar to the target frame FR (# 2, n) than the frame of different time taken by the same camera # 2, and the viewpoint interpolation image FR (# 2,
  • the image information acquired by the cameras # 2, # 4 the image information acquired by the cameras # 2, # 4,.
  • Target file When encoding processing is performed with reference to image information of a frame at a time different from that of frame FR (# 2, n), and viewpoint interpolation image FR (# 2) corresponding to frame FR (# 2, n) to be encoded , n
  • the encoding processing result when the compression efficiency becomes high is selectively output, the encoding efficiency of the output image information can be improved.
  • the selected camera is an odd-numbered camera and the other cameras are even-numbered cameras has been described.
  • the selected camera is an even-numbered camera. It is a camera, and other cameras may be odd-numbered cameras.
  • FIG. 19 shows a case where a viewpoint interpolation image is generated by interpolation as indicated by a white arrow, but a viewpoint interpolation image may be generated by extrapolation! .
  • the selected camera is not limited to an even or odd number.
  • one out of three cameras whose camera numbers are indicated by # 3n-2 are selected cameras, and the remaining cameras are selected.
  • Other methods may be employed, such as using a camera other than the selected camera.
  • some groups of selected cameras may be even (# 2, # 4, # 6, ...) or odd (# 1, # 3, # 5, ...) and the rest In this group part, one camera out of the three cameras whose camera number is indicated by # 3n-2 can be selected cameras, and the remaining cameras can be cameras other than the selected camera.
  • some of the selected cameras have one camera selected as the camera number # 3n-2, and the remaining cameras. Is the camera other than the selected camera, and the remaining group parts are even (# 2, # 4, # 6, ...) or odd (# 1, # 3, # 5, ...) It is good.
  • the image information compression method according to the fourth embodiment of the present invention uses viewpoint interpolation.
  • the multiframe memory 213 shown in FIG. 5, the motion prediction / compensation unit 215 of the code key processing unit 214, and interpolation image generation are performed. 'Executed by the compensation unit 216 and the selection unit 217.
  • Image information compression method of the fourth embodiment The method is an improved version of the image information compression method of the second embodiment, and the image information compression method of the second embodiment is different from the viewpoint interpolation image in that it also refers to the adjacent image at the same time. Is different.
  • FIG. 20 is an explanatory diagram of an image information compression method according to the fourth embodiment of the present invention.
  • FR (# 1, n) is by camera # 1.
  • the acquired frame at t n
  • FR (# 2, n) is
  • the frame FR (# 2, n—i; ⁇ FR (# 2, n + 1) is used as a frame at a different time to be encoded.
  • Reference frame is not limited to frames FR (# 2, n-1) and FR (# 2, n + 1).
  • Frame FR (# 2, n) refer to one of frame FR (# 2, 11-1) or? 1 ⁇ (# 2, n + 1), or other than the frame shown In some cases, frames of different times are referred to.
  • the selection unit 217 shown in Fig. 5 refers to frames at different times and performs code key processing using an inter-frame prediction code key that uses temporal correlation between frames (for example, H.264ZAVC), and frame FR (# 2, n) with reference to viewpoint interpolation image FR (# 2, n) corresponding to frame FR (# 2, n) to be encoded Sign of
  • Frame FR (# 2, n) with reference to frame FR (# 1, n) or FR (# 3, n) adjacent to the frame FR (# 2, n) to be encoded.
  • the reason for this processing is that when considering the problem of which frame the encoding target frame is similar to, the frames with the same time taken by the same camera # 2 are most similar When the viewpoint interpolation images based on the same time frames taken by adjacent cameras # 1 and # 3 are the most similar, and when the same time frames taken by adjacent cameras # 1 and # 3 are the most similar In either case, there are also different forces depending on the instantaneous movement of the subject.
  • the image information compression method of the fourth embodiment pays attention to this point, frames at different times taken with the same power camera, viewpoint interpolation images based on the same time frames taken with adjacent cameras, and images taken with adjacent cameras.
  • the encoding target frame is encoded using the most similar image of the same time frames.
  • the image information acquired by the cameras # 2, # 4 the image information acquired by the cameras # 2, # 4,.
  • encoding processing is performed with reference to image information of a frame at a time different from the target frame FR (# 2, n), and the viewpoint interpolation image FR corresponding to the encoding target frame FR (# 2, n). (# 2, n
  • the selected camera is an odd-numbered camera and the other cameras are even-numbered cameras has been described.
  • the selected camera is an even-numbered camera. It is a camera, and other cameras may be odd-numbered cameras.
  • FIG. 20 shows a case where a viewpoint interpolation image is generated by interpolation as indicated by a white arrow, but a viewpoint interpolation image may be generated by extrapolation! .
  • the selected camera is not limited to an even number or an odd number.
  • one out of three cameras whose camera numbers are indicated by # 3n-2 are selected cameras, and the remaining cameras are selected.
  • Other methods may be employed, such as using a camera other than the selected camera.
  • some groups of selected cameras may be even (# 2, # 4, # 6, ...) or odd (# 1, # 3, # 5, ...) and the rest In the group part, the camera number is indicated by # 3n— 2.
  • One out of three cameras can be the selected camera, and the remaining cameras can be cameras other than the selected camera.
  • some of the selected cameras have one camera selected as the camera number # 3n-2, and the remaining cameras. Let the camera other than the selected camera be an even number (# 2, # 4, # 6, ...) or odd number (# 1, # 3, # 5, ...) in the remaining group parts It is good.
  • a plurality of types of viewpoint interpolation images may be generated by combining the fourth embodiment with the third embodiment.
  • the image information compression method of the fifth embodiment is an improvement over the image information compression method of the first embodiment.
  • the image information compression method of the fifth embodiment is that the interpolated image is also referred to when the inter-view prediction code for the first temporal frame in the GOP is referred to. This is different from the image information compression method.
  • the image information compression method of the fifth embodiment includes a multi-frame memory 213 shown in FIG. 5, a motion prediction 'compensation unit 215, an interpolated image generation' compensation unit 216, and a selection unit 217. Executed.
  • FIGS. 21 to 26 are explanatory diagrams of an image information compression method according to the fifth embodiment of the present invention.
  • t indicates a time axis direction
  • S is a spatial axis corresponding to the camera arrangement order or the camera arrangement direction.
  • the figure shows cameras # 1 to # 9, but the number of cameras is not limited to nine.
  • I indicates an I picture
  • P indicates a P picture
  • B indicates a B picture.
  • P is a P picture that also refers to the interpolated image
  • B is a B picture that also refers to the interpolated image.
  • image information of frames arranged in the time axis t direction of moving images acquired by a plurality of cameras is obtained.
  • Code code processing for example, processing by H. 264ZAVC
  • image information of a moving image frame is obtained.
  • Time axis t direction The encoding process of the first frame in time within the GOP, which is composed of a predetermined number of frames arranged in the direction, is performed by the intraframe code ⁇ , and the first frame is the I picture.
  • the encoding process for frames other than the first frame in the same GOP is performed by inter-frame prediction codes using temporal correlation.
  • the frame FR (# 1, 1) that is an I picture is selected as the first reference frame, and is a P picture.
  • Select frame FR (# 3, 1) as the second reference frame.
  • a viewpoint interpolation image FR is generated by interpolation (extrapolation) based on the frame FR (# 1, 1) and the frame FR (# 3, 1).
  • Encoding processing (inter-view prediction encoding according to the first embodiment) with reference to image information of a frame different from the encoding target frame in the same time frames arranged in the order of
  • the encoding processing result when the encoding compression efficiency is the highest is the image information encoded in the encoding target frame (e.g., FR (# 5, 1)), e.g., Pi Let it be a picture.
  • the viewpoint interpolation image FR is sequentially generated from the image of the frame FR (# 3, 1) and the external interpolation based on the generated Pi picture, and the same processing is repeated.
  • the interpolated image is generated by frame FR (# n +
  • the encoding processing result when the encoding compression efficiency becomes the highest is the code of the target frame (for example, FR (# 4, 1)). It is assumed that the converted image information is, for example, a Bi picture.
  • encoding processing is performed with reference to image information of a frame different from the encoding target frame in frames at the same time arranged in the order of camera arrangement, and corresponds to the encoding target frame.
  • the encoding processing result when the encoding compression efficiency is highest is selectively output.
  • the reason for this processing is that the first frame in the GOP! / And the problem of which image the encoding target frame looks like are taken by the adjacent camera.
  • the inter-view prediction code ⁇ of the first embodiment By performing the inter-view prediction code ⁇ of the first embodiment based on the simultaneous frames, the case where the encoded images are most similar to each other and the reference frames taken by adjacent cameras are used.
  • the created interpolated image may be the most similar! /, And the difference between the V and the deviation depends on the instantaneous movement of the subject. Focusing on this point, the image information compression method of the fifth embodiment is encoded by performing the inter-view prediction code ⁇ of the first embodiment based on the same-time frame captured by the adjacent camera. If the image is the most similar, and if the interpolated image created based on the reference frame taken by the adjacent camera is the most similar, The target frame is encoded.
  • the image encoded by performing the inter-view prediction code in the first embodiment is most similar. Encoding the frame to be encoded using the most similar image between the case where the interpolated image created based on the reference frame taken by the adjacent camera is the most similar As a result, it is possible to improve the code compression efficiency of the output image information. Note that in the fifth embodiment, points other than those described above are the same as in the case of the first embodiment.
  • FIG. 27 is a diagram showing an example of a horizontal section of a light space referred to in the image information compression method of the sixth embodiment of the present invention.
  • FIG. 28 is an explanatory diagram of a motion vector prediction method in the image information compression method according to the sixth embodiment of the present invention.
  • FIG. 29 is an explanatory diagram of a motion vector prediction method in H.264ZAVC as a comparative example of the sixth embodiment of the present invention.
  • the image information compression method of the sixth embodiment is an improvement over the image information compression method of the first embodiment.
  • the image information compression method of the sixth embodiment is based on the premise that a plurality of cameras are arranged in a straight line in parallel with each other.
  • the image information compression method according to the sixth embodiment is a step in which image information of frames at the same time arranged in the order of camera arrangement is subjected to code processing using an inter-frame prediction code using correlation between frames at the same time.
  • the motion vector used in the motion compensated prediction encoding (step of inter-view prediction code in the first embodiment) is a horizontal cross-sectional image (EPI: Epipolar) when the ray space is cut horizontally. It is characterized by being obtained based on a straight line appearing in the Plane Image).
  • the image information compression method according to the sixth embodiment is executed by the multiframe memory 213 shown in FIG. 5 and the motion prediction / compensation unit 215 of the code key processing unit 214.
  • Blocks BL, BL and BL forces also predict motion vectors. This method is
  • a plurality of cameras are linearly arranged in a line in parallel with each other, and a moving image acquired by the plurality of cameras is used.
  • the horizontal sectional structure in the light space is a collection of linear structures.
  • Figure 30 (b) shows a point X in real space on the horizontal section of the ray space.
  • the image information compression method of the sixth embodiment is applied to the first embodiment.
  • the image information compression method of the sixth embodiment is the second It can also be applied to the fifth embodiment.
  • FIG. 30 is a diagram conceptually showing the basic structure of the FTV system according to the seventh embodiment of the present invention.
  • the same or corresponding elements as those shown in FIG. 30 are identical or corresponding elements as those shown in FIG.
  • the transmission-side device 250 and the reception-side device 350 are separated from each other, and from the transmission-side device 250 to the reception-side device 350, for example, the Internet It is a system that transmits FTV signals using, for example.
  • the transmission-side apparatus 250 includes a plurality of cameras (in FIG. Although five of 2 to 102 are shown, more cameras are actually used. ) And the power of multiple units
  • An image information encoding device 200 having the configuration and functions described in the first to sixth embodiments, which compresses video information acquired by a camera, is provided.
  • the image information compressed and encoded by the image information encoding device 200 is sent to the receiving device 350 by a communication device (not shown).
  • receiving-side apparatus 350 includes, as shown, a receiving apparatus, image information decoding apparatus 300 described in Embodiment 1 above, and an output signal from image information decoding apparatus 300. Then, a light ray space 103 is formed on the basis of the information, and a cross section is extracted from the light ray space 103 according to the viewpoint position input from the user interface 104 and displayed.
  • FIGS. 3 (a), (b) and FIGS. 4 (a) to (c) for example, by using the ray space method, by cutting an arbitrary surface from the ray space 103, It is possible to generate an image viewed from an arbitrary viewpoint in the horizontal direction in real space. For example, when the cross section 103a is cut out from the ray space 103 shown in FIG. 4 (a), an image as shown in FIG. 4 (b) is generated, and the cross section 103b is drawn from the ray space 103 shown in FIG. When cut out, the image shown in Fig. 4 (c) is generated.
  • the FTV in the FTV system can be used.
  • the sign key compression efficiency of the signal can be improved.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

There is provided an image information compression method capable of improving compression efficiency in encoding image information captured by a plurality of cameras. An FTV system employing the method is also disclosed. The image information compression method includes: a step for encoding frames FR (#1, n-1) to FR (#1, n+1), FR (#3, n-1) to FR (#3, n+1) of a dynamic image captured by the cameras of the odd numbers #1 and #3; a step for generating a viewpoint interpolation image FRint (#2, n) corresponding to a frame of a dynamic image captured by the camera of the even number #2; and a step for selectively outputting an encoding result of the highest encoding compression efficiency when encoding the image captured by the camera #2 among the case for performing encoding by referencing the frames FR (#2, n-1) and FR (#2, n+1) of different times and the case for performing encoding by referencing the viewpoint interpolation image FRint (#2, n).

Description

明 細 書  Specification
画像情報圧縮方法及び自由視点テレビシステム  Image information compression method and free viewpoint television system
技術分野  Technical field
[0001] 本発明は、複数台のカメラによって取得された画像情報の符号ィ匕において符号ィ匕 圧縮効率を向上させることができる画像情報圧縮方法及びこの方法を適用した自由 視点テレビシステムに関するものである。  [0001] The present invention relates to an image information compression method capable of improving the code compression efficiency of image information acquired by a plurality of cameras, and a free viewpoint television system to which this method is applied. is there.
背景技術  Background art
[0002] 本出願の発明者は、見る者があた力もその場に 、るかのように、自由に視点を変え て 3次元シーンを見ることのできる自由視点テレビ(Free viewpoint TV:FTV)を 提案しており(例えば、非特許文献 1〜4参照)、さらに、 15台のカメラで取得した実 写画像をもとにして水平面内で自由に視点を移動させてシーンを見ることができる F TVの実験装置を完成させて ヽる (例えば、非特許文献 1参照)。  [0002] The inventor of the present application is a free viewpoint TV (FTV) that allows viewers to freely change their viewpoints and view 3D scenes as if they were on the spot. (For example, see Non-Patent Documents 1 to 4). Furthermore, the viewpoint can be freely moved in the horizontal plane based on the photographed images acquired by 15 cameras. F TV experimental equipment is completed (see Non-Patent Document 1, for example).
[0003] 非特許文献 1 :谷本正幸、「自由視点テレビ」、日本工業出版、画像ラボ、 2005年 2 月号、 23〜28頁  [0003] Non-Patent Document 1: Masayuki Tanimoto, “Free Viewpoint Television”, Nihon Kogyo Publishing, Imaging Lab, February 2005, pp. 23-28
非特許文献 2:岡慎也、ナ ノ ンチャンプリム、藤井俊彰、谷本正幸、「自由視点テレ ビのための光線空間情報圧縮」、信学技報、 CS2003— 141、 7〜12頁、 2003年 1 2月  Non-Patent Document 2: Shinya Oka, Nonon Champurim, Toshiaki Fujii, Masayuki Tanimoto, “Light-Space Information Compression for Free Viewpoint Television”, IEICE Technical Report, CS2003—141, pp. 7-12, 2003 1 2 Moon
非特許文献 3 :谷本正幸、「5. 自由視点テレビ FTV、〜多視点画像処理を使って〜 」、映像メディア情報学会誌、 Vol. 58、 No. 7、 pp. 898— 901、 2004年 非特許文献 4:岡慎也、ナ ノ ンチャンプリム、藤井俊彰、谷本正幸、「自由視点テレ ビのための動的光線空間の情報圧縮」、 3D Image Conference 2004、 139〜 142頁、 2004年  Non-Patent Document 3: Masayuki Tanimoto, "5. Free-viewpoint TV FTV, using multi-viewpoint image processing", Journal of the Institute of Image Information and Media Sciences, Vol. 58, No. 7, pp. 898-901, 2004 Patent Document 4: Shinya Oka, Nonon Champurim, Toshiaki Fujii, Masayuki Tanimoto, “Compression of Dynamic Ray Space for Free Viewpoint Television”, 3D Image Conference 2004, pp. 139-142, 2004
[0004] なお、非特許文献 2の 9頁左欄には、「光線空間は時間軸にも空間軸にも画像同士 が非常に類似しているため、動き (視差)予測を両軸に適応することによって高い圧 縮率を得ることが可能であると考えられる。」との記載がある。また、非特許文献 3の 8 99頁左欄には「光線空間を補間すること」の記載があり、 900頁左欄には「補間は光 線空間全体にではなく必要な部分のみに行えばよい。」との記載がある。また、非特 許文献 4の 140頁左欄には「動的光線空間は時間、空間領域に大きな相関を持って いることが予想できる。」との記載があり、 140頁右欄から 141頁左欄には参照画像の 例が示されている。 [0004] It should be noted that the left column on page 9 of Non-Patent Document 2 states, “Because the light space is very similar in both the time axis and the space axis, motion (parallax) prediction is applied to both axes. It is thought that it is possible to obtain a high compression ratio by doing so. " Also, Non-Patent Document 3 on page 899, the left column says “interpolate the ray space”, and the left column on page 900 says “If the interpolation is performed only on the necessary part, not the entire light space. "It's good." Non-special The left column on page 140 of Permitted Document 4 states that “dynamic ray space can be expected to have a large correlation between time and space.” From the right column on page 140 to the left column on page 141, An example of a reference image is shown.
[0005] 図 1は、 FTVシステムの基本的な構成を概念的に示す図である。図 1に示される F TVシステムは、カメラによる撮影 (ステップ ST1)、画像の補間処理 (ステップ ST2又 は ST2a)、画像情報の圧縮処理 (ステップ ST3)、及び入力された視点から見た画 像の表示 (ステップ ST4及び ST5)を行う。 FTVシステムでは、 3次元実空間に存在 する被写体 101の画像情報を複数台のカメラ(図 1には、符号 102〜102の 5台を  FIG. 1 is a diagram conceptually showing the basic configuration of an FTV system. The F TV system shown in Fig. 1 uses a camera (step ST1), image interpolation processing (step ST2 or ST2a), image information compression processing (step ST3), and an image viewed from the input viewpoint. Is displayed (steps ST4 and ST5). In an FTV system, image information of a subject 101 that exists in a three-dimensional real space is stored in multiple cameras (Fig. 1 shows five cameras 102 to 102).
1 5 示すが、実際にはより多くのカメラが用いられる。 )によって取得し (ステップ ST1)、複 数台のカメラによって取得した画像(図 1には、符号 103〜103の 5つ画像を示す  1 5 As shown, more cameras are actually used. ) (Step ST1) and images acquired by multiple cameras (Figure 1 shows five images with reference numerals 103 to 103)
1 5  1 5
力 実際にはより多くの画像が用いられる。)を光線空間 103に互いに配列し、 FTV 信号とする。なお、図 1において、 Xは、水平視野方向、 yは、垂直視野方向、 u(=ta n 0 )は、視域方向を示す。複数台のカメラ 102の配置の仕方には、図 2 (a)に示され るように、直線上に互いに平行な方向を向けて並ぶ直線配置、図 2 (b)に示されるよ うに、円周上に円周の内側を向けて並ぶ円周配置 (又は円弧配置)、図 2 (c)に示さ れるように、平面上に互いに平行な方向を向けて並ぶ平面配置、図 2 (d)に示される ように、球面上に球面の内側を向けて並ぶ球面配置 (又は半球面配置)、図 2 (e)に 示されるように、円筒上に円筒の内側を向けて並ぶ円筒配置等がある。複数台のカメ ラ 102の配置は、水平方向の自由視点のみを実現する場合には、図 2 (a)に示され る直線配置又は図 2 (b)に示される円周配置とし、水平方向と垂直方向の両方の自 由視点を実現する場合には、図 2 (c)に示される平面配置、図 2 (d)に示される円筒 配置、又は図 2 (e)に示される球面配置とする。  Force More images are actually used. ) Are arranged in the ray space 103 to form an FTV signal. In FIG. 1, X represents a horizontal viewing direction, y represents a vertical viewing direction, and u (= tan 0) represents a viewing zone direction. As shown in Fig. 2 (a), the arrangement of the plurality of cameras 102 is a linear arrangement in which the directions parallel to each other are arranged on a straight line, as shown in Fig. 2 (b). Circumferential arrangement (or arc arrangement) arranged with the inside of the circumference facing the inside of the circumference, as shown in Fig. 2 (c), planar arrangement arranged in parallel with each other on the plane, Fig. 2 (d) As shown in Fig. 2, the spherical arrangement (or hemispherical arrangement) arranged on the spherical surface with the inner surface of the spherical surface arranged, and the cylindrical arrangement arranged on the cylinder with the inner surface of the cylinder oriented as shown in Fig. 2 (e). is there. The arrangement of multiple cameras 102 should be either the linear arrangement shown in Fig. 2 (a) or the circumferential arrangement shown in Fig. 2 (b) when only a horizontal free viewpoint is realized. When the free viewpoint in both the vertical direction and the vertical direction is realized, the planar arrangement shown in Fig. 2 (c), the cylindrical arrangement shown in Fig. 2 (d), or the spherical arrangement shown in Fig. 2 (e) To do.
[0006] また、光線空間法では、 3次元実空間の 1本の光線を、それを表すパラメータを座 標とする多次元空間の 1点で表す。この仮想的な多次元空間を光線空間という。光 線空間全体は、 3次元空間のすべての光線を過不足なく表現する。光線空間は、多 くの視点力 撮影された画像を集めることによって作られる。光線空間の点の値は、 画像の画素値と同じであるから、画像力 光線空間への変換は、単なる座標変換で ある。図 3 (a)に示されるように、実空間中の基準面 106を通過する光線 107は通過 位置 (x, y)と通過方向 ( θ , φ )の 4つのパラメータによって一意に表現することがで きる。図 3 (a)において、 Xは、 3次元実空間における水平方向の座標軸であり、 Yは 、垂直方向の座標軸であり、 Zは、奥行き方向の座標軸である。また、 Θは、基準面 1 06の法線に対する水平方向の角度、すなわち、基準面 106に対する水平方向の出 射角であり、 φは、基準面 106の法線に対する垂直方向の角度、すなわち、基準面 106に対する垂直方向の出射角である。これにより、この 3次元実空間内の光線情報 を輝度 f (x, y, θ , φ )と表すことができる。ここでは、説明を分力りやすくするために 、垂直方向の視差 (角度 Φ )を無視する。図 3 (a)に示されるように、基準面 106に向 けて、且つ、水平に配置された多数のカメラで撮影された画像は、図 3 (b)に示される ように、 X, y, u (=tan 0 )の軸を持つ 3次元空間において、点線で描かれる断面 10 3〜103に位置していることになる。図 3 (b)に示される光線空間 103から任意の面[0006] In the ray space method, one ray in a three-dimensional real space is represented by one point in a multidimensional space with a parameter representing it as a coordinate. This virtual multidimensional space is called a light space. The whole ray space expresses all rays in 3D space without excess or deficiency. Ray space is created by collecting images taken with a lot of viewpoint power. Since the value of the point in the ray space is the same as the pixel value of the image, conversion to the image force ray space is just a coordinate transformation. As shown in Fig. 3 (a), the light beam 107 passing through the reference plane 106 in real space passes. It can be uniquely expressed by four parameters: position (x, y) and passing direction (θ, φ). In FIG. 3 (a), X is a horizontal coordinate axis in three-dimensional real space, Y is a vertical coordinate axis, and Z is a depth coordinate axis. Θ is the horizontal angle with respect to the normal of the reference surface 106, that is, the horizontal projection angle with respect to the reference surface 106, and φ is the vertical angle with respect to the normal of the reference surface 106, that is, This is an emission angle in a direction perpendicular to the reference plane 106. As a result, the ray information in this three-dimensional real space can be expressed as luminance f (x, y, θ, φ). Here, in order to simplify the explanation, the vertical parallax (angle Φ) is ignored. As shown in Fig. 3 (a), images taken by a number of cameras placed horizontally toward the reference plane 106 are X, y as shown in Fig. 3 (b). , u (= tan 0) in the three-dimensional space, it is located in the cross section 103-103 drawn with a dotted line. Arbitrary surface from ray space 103 shown in Fig. 3 (b)
1 5 1 5
を切り取ることによって、実空間における水平方向の任意の視点から見た画像を生成 することが可能となる。例えば、図 4 (a)に示される光線空間 103から断面 103aを切り 出すと、図 4 (b)に示されるような画像がディスプレイ 105に表示され、図 4 (a)に示さ れる光線空間 103から断面 103bを切り出すと、図 4 (c)に示されるような画像がディ スプレイ 105に表示される。  It is possible to generate an image viewed from an arbitrary viewpoint in the horizontal direction in real space. For example, when the section 103a is cut out from the light beam space 103 shown in FIG. 4 (a), an image as shown in FIG. 4 (b) is displayed on the display 105, and the light beam space 103 shown in FIG. When the cross section 103b is cut out from the image, an image as shown in FIG. 4 (c) is displayed on the display 105.
[0007] また、光線空間 103に配列された画像(断面 103〜103 )の間にはデータがない [0007] In addition, there is no data between the images (sections 103 to 103) arranged in the light space 103.
1 5  1 5
ため、これを補間によって作る(図 1のステップ ST2又は ST2a)。なお、補間は、光線 空間の全体についてではなぐ必要な部分についてのみ行えばよい。また、補間を 行う場所は、 VOD (Video On Demend)のような用途では画像情報の送信側 (ス テツプ ST2)となり、放送のような用途では画像情報の受信側 (ステップ ST2a)となる  Therefore, this is created by interpolation (step ST2 or ST2a in Fig. 1). It should be noted that the interpolation need only be performed for the necessary part of the entire ray space. In addition, the location where interpolation is performed is the image information transmission side (step ST2) for applications such as VOD (Video On Demend), and the image information reception side (step ST2a) for applications such as broadcasting.
[0008] 画像情報の圧縮(図 1のステップ ST3)は、 FTVシステムの各構成が同じ場所にあ る場合には、必須の処理ではないが、カメラとユーザーとが別の場所に存在し、イン ターネット等を利用して画像情報を配信する場合には必須の処理となる。従来の画 像情報圧縮方法としては、例えば、 H. 264ZAVC規格に準拠したものがある(例え ば、特許文献 1参照)。 [0008] Compression of image information (step ST3 in Fig. 1) is not an indispensable process when the components of the FTV system are in the same location, but the camera and the user are in different locations. This is an indispensable process when distributing image information using the Internet. As a conventional image information compression method, for example, there is a method compliant with the H.264ZAVC standard (for example, see Patent Document 1).
特許文献 1 :特開 2003— 348595号公報(図 1及び図 2) 発明の開示 Patent Document 1: Japanese Patent Laid-Open No. 2003-348595 (FIGS. 1 and 2) Disclosure of the invention
発明が解決しょうとする課題  Problems to be solved by the invention
[0009] しかしながら、 FTVシステムにおいて配信される画像情報は、従来の TVシステムに おける画像情報に比べて、カメラの台数分だけ情報量が多くなる。このため、従来の 画像情報圧縮方法を用いるのみでは、圧縮効率が不十分であり、画像情報の伝送 を伴う FTVシステムを実用化するためには、さらに効率的な圧縮を行うことができる 画像情報圧縮方法が必要不可欠である。  [0009] However, the amount of image information distributed in the FTV system is larger by the number of cameras than the image information in the conventional TV system. For this reason, compression efficiency is insufficient only by using the conventional image information compression method, and more efficient compression can be performed in order to put an FTV system that involves transmission of image information into practical use. A compression method is essential.
[0010] そこで、本発明は、上記従来技術の課題を解決するためになされたものであり、そ の目的は、複数台のカメラによって取得された画像情報の符号ィ匕において符号ィ匕圧 縮効率を向上させることができる画像情報圧縮方法及びこの方法を適用した FTVシ ステムを提供することである。  [0010] Therefore, the present invention has been made to solve the above-described problems of the prior art, and the object thereof is to reduce the sign key compression in the sign key of image information obtained by a plurality of cameras. The object is to provide an image information compression method capable of improving efficiency and an FTV system to which this method is applied.
課題を解決するための手段  Means for solving the problem
[0011] 本発明の画像情報圧縮方法は、 [0011] The image information compression method of the present invention includes:
3台以上のカメラの中力も選択された 2台以上のカメラによって取得された動画像の 時間軸方向に並ぶフレームの画像情報を、フレーム内符号化及びフレーム間の時 間的相関を利用したフレーム間予測符号ィ匕を用いて符号ィ匕処理するステップと、 前記選択されたカメラによって取得された画像情報に基づ 、て、前記選択された力 メラ以外のカメラによって取得された動画像の時間軸方向に並ぶフレームに対応す る第 1の視点補間画像を生成するステップと、  Three or more cameras' medium power is also selected Frame information arranged in the time axis direction of moving images acquired by two or more cameras using intra-frame coding and temporal correlation between frames A time of a moving image acquired by a camera other than the selected force based on the step of performing the code processing using the inter-predictive code and the image information acquired by the selected camera Generating a first viewpoint interpolated image corresponding to the axially aligned frames;
前記選択されたカメラ以外のカメラによって取得された動画像の時間軸方向に並ぶ フレームの画像情報を符号ィ匕処理するステップとを有し、  Encoding the image information of frames arranged in the time axis direction of a moving image acquired by a camera other than the selected camera, and
前記選択されたカメラ以外のカメラによって取得された動画像の時間軸方向に並ぶ フレームの画像情報を符号ィ匕処理する前記ステップが、前記選択されたカメラ以外 のカメラによって取得された画像情報であって符号ィ匕対象のフレームと異なる時刻の フレームの画像情報を参照して符号化処理する場合と、前記符号化対象のフレーム に対応する前記第 1の視点補間画像を参照して符号化処理する場合の中で、最も符 号化圧縮効率が高くなる場合の符号化処理結果を選択的に出力するステップを含 む ことを特徴とするものである。 The step of encoding and processing image information of frames arranged in a time axis direction of a moving image acquired by a camera other than the selected camera is image information acquired by a camera other than the selected camera. Encoding processing with reference to image information of a frame at a time different from the encoding target frame, and encoding processing with reference to the first viewpoint interpolated image corresponding to the encoding target frame In some cases, the method includes a step of selectively outputting an encoding processing result when the encoding compression efficiency is highest. It is characterized by this.
[0012] また、本発明の他の画像情報圧縮方法は、  [0012] Another image information compression method of the present invention includes:
複数台のカメラによって取得された動画像の時間軸方向に並ぶフレームの画像情 報を、フレーム内符号ィ匕及びフレーム間の時間的相関を利用したフレーム間予測符 号化によって符号化処理するステップと、  A step of encoding image information of frames arranged in the time axis direction of moving images acquired by a plurality of cameras by inter-frame predictive encoding using intra-frame code and temporal correlation between frames. When,
前記複数台のカメラによって取得された動画像のフレームであって、前記カメラの 配列順に並ぶ同時刻のフレームの画像情報を、前記時間的相関を利用したフレー ム間予測符号ィ匕と同じアルゴリズムによる同時刻のフレーム間の相関を利用したフレ ーム間予測符号ィ匕によって符号ィ匕処理するステップとを有する  Image information of frames of moving images acquired by the plurality of cameras at the same time arranged in the order of the arrangement of the cameras is obtained by the same algorithm as the inter-frame prediction code 利用 using the temporal correlation. And a step of performing a code process using an inter-frame prediction code using a correlation between frames at the same time.
ことを特徴とするものである。  It is characterized by this.
[0013] さらに、本発明の FTVシステムは、 [0013] Further, the FTV system of the present invention includes:
上記画像情報圧縮方法を実行する画像情報符号化装置と、  An image information encoding apparatus for executing the image information compression method;
前記画像情報符号化装置に映像信号を供給する複数台のカメラと、  A plurality of cameras for supplying video signals to the image information encoding device;
前記画像情報符号化装置から出力された符号化情報を復号する画像情報復号装 置と、  An image information decoding device for decoding the encoded information output from the image information encoding device;
見る者の視点位置を入力するユーザーインターフェースと、  A user interface for inputting the viewpoint position of the viewer;
前記複数台のカメラによって撮影された同時刻の画像から、前記ユーザーインター フェースによって入力された視点力 見た画像を抽出する画像情報抽出部と を有することを特徴とするものである。  And an image information extracting unit that extracts an image of viewpoint power input by the user interface from images of the same time taken by the plurality of cameras.
発明の効果  The invention's effect
[0014] 本発明の画像情報圧縮方法及び FTVシステムによれば、複数台のカメラによって 取得された動画像のフレームを、同時刻のフレーム間の相関を利用したフレーム間 予測符号化によって符号化処理するので、符号ィヒ圧縮効率を向上させることができ るという効果を得ることができる。  [0014] According to the image information compression method and the FTV system of the present invention, a frame of a moving image acquired by a plurality of cameras is encoded by inter-frame prediction encoding using correlation between frames at the same time. As a result, it is possible to obtain the effect that the coding compression efficiency can be improved.
[0015] また、本発明の他の画像情報圧縮方法及び FTVシステムによれば、選択された 2 台以上のカメラによって取得された動画像の時間軸方向に並ぶフレームの画像情報 を符号化処理し、選択されたカメラ以外のカメラによって取得された動画像のフレー ムに対応する第 1の視点補間画像を生成し、選択されたカメラ以外のカメラによって 取得された画像情報であって符号ィ匕対象のフレームと異なる時刻のフレームの画像 情報を参照して符号化処理する場合と、第 1の視点補間画像を参照して符号化処理 する場合の中で、最も符号化圧縮効率が高くなる場合の符号化処理結果を選択的 に出力するので、出力される画像情報の符号ィ匕圧縮効率を向上させることができると いう効果を得ることができる。 [0015] According to another image information compression method and FTV system of the present invention, image information of frames arranged in the time axis direction of moving images acquired by two or more selected cameras is encoded. The first viewpoint interpolation image corresponding to the frame of the moving image acquired by the camera other than the selected camera is generated, and the camera other than the selected camera generates the first viewpoint interpolation image. When the encoding process is performed with reference to the image information of the acquired image information and the frame at a different time from the encoding target frame, and when the encoding process is performed with reference to the first viewpoint interpolated image. Thus, since the encoding process result when the encoding compression efficiency becomes the highest is selectively output, it is possible to obtain the effect that the encoding efficiency of the output image information can be improved.
図面の簡単な説明 Brief Description of Drawings
[図 1]FTVシステムの基本的な構成を概念的に示す図である。 FIG. 1 is a diagram conceptually showing the basic configuration of an FTV system.
[図 2] (a)〜(e)は複数台のカメラの配置例を示す図であり、(a)は直線配置、(b)は 円周配置、(c)は平面配置、(d)は円筒配置、(e)は球面配置を示す。  [Fig. 2] (a) to (e) are diagrams showing examples of the arrangement of multiple cameras, (a) is a linear arrangement, (b) is a circumferential arrangement, (c) is a planar arrangement, (d) Is a cylindrical arrangement, and (e) is a spherical arrangement.
[図 3] (a)は実空間上における物体、直線配置されたカメラ、基準面、及び光線を示 す図であり、(b)は光線空間を示す図である。 [Fig. 3] (a) is a diagram showing an object in real space, a linearly arranged camera, a reference plane, and light rays, and (b) is a diagram showing the light space.
[図 4] (a)は光線空間を示す図であり、 (b)は光線空間から切り出された画像を示す 図であり、(c)は光線空間から切り出された他の画像を示す図である。  [Fig. 4] (a) is a diagram showing a light space, (b) is a diagram showing an image cut out from the light space, and (c) is a diagram showing another image cut out from the light space. is there.
[図 5]本発明の画像情報圧縮方法を実施することができる画像情報符号ィ匕装置の構 成を概略的に示すブロック図である。 FIG. 5 is a block diagram schematically showing a configuration of an image information encoding device capable of implementing the image information compression method of the present invention.
[図 6]複数台のカメラによって撮影された動画像のフレームが時間軸方向に並び、且 つ、同時刻のフレームがカメラの配列順に並ぶことを概念的に示す図である。  FIG. 6 is a diagram conceptually showing that frames of moving images taken by a plurality of cameras are arranged in the time axis direction, and frames at the same time are arranged in the order of camera arrangement.
[図 7]図 5に示される画像情報符号ィ匕装置の動作を示すフローチャートである。  FIG. 7 is a flowchart showing an operation of the image information encoding device shown in FIG.
[図 8]図 7に示される補間画像生成 ·補償ステップの動作の一例を示すフローチャート である。  8 is a flowchart showing an example of the operation of the interpolated image generation / compensation step shown in FIG.
[図 9]図 7に示される選択ステップの動作の一例を示すフローチャートである。  FIG. 9 is a flowchart showing an example of the operation of the selection step shown in FIG.
[図 10]本発明の画像情報圧縮方法によって符号化された画像情報を復号することが できる画像情報復号装置の構成を概略的に示すブロック図である。  FIG. 10 is a block diagram schematically showing a configuration of an image information decoding apparatus capable of decoding image information encoded by the image information compression method of the present invention.
[図 11]図 10に示される画像情報復号装置の動作を示すフローチャートである。  FIG. 11 is a flowchart showing an operation of the image information decoding apparatus shown in FIG.
[図 12]図 10に示される補間画像生成 ·補償ステップの動作の一例を示すフローチヤ ートである。  FIG. 12 is a flowchart showing an example of the operation of the interpolated image generation / compensation step shown in FIG.
[図 13]本発明の第 1の実施形態の画像情報圧縮方法の説明図 (その 1)である。  FIG. 13 is an explanatory diagram (part 1) of the image information compression method according to the first embodiment of the present invention.
[図 14]本発明の第 1の実施形態の画像情報圧縮方法の説明図 (その 2)である。 [図 15]本発明の第 2の実施形態の画像情報圧縮方法の説明図 (その 1)である。 FIG. 14 is an explanatory diagram (part 2) of the image information compression method according to the first embodiment of the present invention. FIG. 15 is an explanatory diagram (part 1) of the image information compression method according to the second embodiment of the present invention.
[図 16]本発明の第 2の実施形態の画像情報圧縮方法の説明図 (その 2)である。 FIG. 16 is an explanatory diagram (part 2) of the image information compression method according to the second embodiment of the present invention.
[図 17]本発明の第 2の実施形態の画像情報圧縮方法の説明図 (その 3)である。 FIG. 17 is an explanatory diagram (part 3) of the image information compression method according to the second embodiment of the present invention.
[図 18]本発明の第 2の実施形態の画像情報圧縮方法の説明図(その 4)である。 FIG. 18 is an explanatory diagram (part 4) of the image information compression method according to the second embodiment of the present invention.
[図 19]本発明の第 3の実施形態の画像情報圧縮方法の説明図である。 FIG. 19 is an explanatory diagram of an image information compression method according to the third embodiment of the present invention.
[図 20]本発明の第 4の実施形態の画像情報圧縮方法の説明図である。 FIG. 20 is an explanatory diagram of an image information compression method according to the fourth embodiment of the present invention.
[図 21]本発明の第 5の実施形態の画像情報圧縮方法の説明図 (その 1)である。 FIG. 21 is an explanatory diagram (part 1) of the image information compression method according to the fifth embodiment of the present invention.
[図 22]本発明の第 5の実施形態の画像情報圧縮方法の説明図 (その 2)である。 FIG. 22 is an explanatory diagram (part 2) of the image information compression method according to the fifth embodiment of the present invention.
[図 23]本発明の第 5の実施形態の画像情報圧縮方法の説明図 (その 3)である。 FIG. 23 is an explanatory diagram (part 3) of the image information compression method according to the fifth embodiment of the present invention.
[図 24]本発明の第 5の実施形態の画像情報圧縮方法の説明図(その 4)である。 FIG. 24 is an explanatory diagram (part 4) of the image information compression method according to the fifth embodiment of the present invention.
[図 25]本発明の第 5の実施形態の画像情報圧縮方法の説明図(その 5)である。 FIG. 25 is an explanatory diagram (part 5) of the image information compression method according to the fifth embodiment of the present invention.
[図 26]本発明の第 5の実施形態の画像情報圧縮方法の説明図(その 6)である。 FIG. 26 is an explanatory diagram (No. 6) of the image information compression method according to the fifth embodiment of the invention.
[図 27]本発明の第 6の実施形態の画像情報圧縮方法において光線空間の水平断面 の一例を示す図である。 FIG. 27 is a diagram showing an example of a horizontal section of a light space in an image information compression method according to a sixth embodiment of the present invention.
[図 28]本発明の第 6の実施形態の画像情報圧縮方法における動きベクトルの予測方 法の説明図である。  FIG. 28 is an explanatory diagram of a motion vector prediction method in the image information compression method according to the sixth embodiment of the present invention.
[図 29]本発明の第 6の実施形態の比較例としての H. 264ZAVCにおける動きべク トルの予測方法の説明図である。  FIG. 29 is an explanatory diagram of a motion vector prediction method in H.264ZAVC as a comparative example of the sixth embodiment of the present invention.
[図 30] (a)及び (b)は、実空間上の点と光線空間の水平断面における直線の関係を 示す説明図である。 FTVシステムの基本的な構成を概念的に示す図である。  [FIG. 30] (a) and (b) are explanatory diagrams showing the relationship between a point in real space and a straight line in a horizontal section of the light space. It is a figure which shows notionally the basic composition of a FTV system.
[図 31]本発明の第 7の実施形態の FTVシステムの基本的な構成を概念的に示す図 である。 FIG. 31 is a diagram conceptually showing the basic structure of an FTV system in a seventh embodiment of the present invention.
符号の説明 Explanation of symbols
101 被写体 (物体)  101 Subject (object)
102, 102〜102 カメラ  102, 102-102 camera
1 5  1 5
103 光線空間  103 Ray space
103〜103 実写画像  103-103 live action image
1 5  1 5
103a, 103b 光線空間の垂直断面 104 ユーザーインターフェース103a, 103b Vertical section of ray space 104 User interface
105 ディスプレイ 105 display
106 基準面  106 Reference plane
107 光線  107 rays
200 画像情報符号化装置 200 Image information encoder
201 〜201 入力端子 201 to 201 input terminals
1 N  1 N
202 〜202 AZD変換部  202 to 202 AZD converter
1 N  1 N
203 画面並べ替えノ ッファ 203 Screen sorting nota
204 加算器 204 Adder
205 直交変換部  205 Orthogonal transformation unit
206 量子化部  206 Quantizer
207 可変符号化部  207 Variable encoding unit
208 蓄積バッファ  208 Accumulation buffer
209 出力端子  209 Output terminal
210 レート制御部  210 Rate control section
211 逆量子化部  211 Inverse quantization part
212 逆直交変換部  212 Inverse orthogonal transform
213 マルチカメラフレームメモリ 213 Multi-camera frame memory
214 符号化処理部 214 Encoding processor
215 動き予測,補償部  215 Motion prediction and compensation unit
216 補間画像生成,補償部 216 Interpolated image generation and compensation unit
217 選択部 217 Selector
250 FTVシステムの送信側の装置 250 FTV system transmitter equipment
300 画像情報復号装置 300 Image information decoder
301 入力端子  301 Input terminal
302 蓄積バッファ  302 accumulation buffer
303 可変復号部  303 Variable decoding unit
304 逆量子化部 305 逆直交変換部 304 Inverse quantization 305 Inverse orthogonal transform unit
306 加算器 306 Adder
307 画面並べ替えバッファ  307 Screen sorting buffer
308〜308 DZA変換部 308-308 DZA converter
1 N  1 N
309〜309 出力端子  309 to 309 output terminals
1 N  1 N
310 マルチカメラフレームメモリ  310 Multi-camera frame memory
311 復号処理部 311 Decryption processor
312 動き予測,補償部 312 Motion prediction and compensation unit
313 補間画像生成 ·補償部 313 Interpolated Image GenerationCompensator
314 選択部 314 Selector
350 FTVシステムの受信側の装置  350 FTV system receiver equipment
351 画像情報抽出部 351 Image information extraction unit
#1, #2, #3, ···, #n, #n+l,… カメラ番号  # 1, # 2, # 3, ..., #n, # n + l,… Camera number
FR フレーム(画像) FR frame (image)
FR(#1, n-1) カメラ #1によって取得された t=n—l時のフレーム FR(#1, n) カメラ #1によって取得された t=n時のフレーム FR(#1, n+1) カメラ #1によって取得された t=n+l時のフレーム FR(#2, n-1) カメラ #2によって取得された t=n—l時のフレーム FR(#2, n) カメラ #2によって取得された t=n時のフレーム FR(#2, n+1) カメラ #2によって取得された t=n+l時のフレーム FR(#3, n-1) カメラ #3によって取得された t=n—l時のフレーム FR(#3, n) カメラ #3によって取得された t=n時のフレーム FR(#3, n+1) カメラ #3によって取得された t=n+l時のフレーム FR ( # 2, n) フレーム FR ( # 2, n)に対応する視点補間画像  FR (# 1, n-1) Frame at t = n—l obtained by camera # 1 FR (# 1, n) Frame at t = n obtained by camera # 1 FR (# 1, n +1) Frame FR (# 2, n-1) obtained by camera # 1 at t = n + l FR (# 2, n-1) Frame obtained by camera # 2 at t = n—l FR (# 2, n) camera The frame at t = n obtained by # 2 FR (# 2, n + 1) The frame at t = n + l obtained by camera # 2 FR (# 3, n-1) Obtained by camera # 3 Frame at t = n—l FR (# 3, n) obtained by camera # 3 frame at t = n FR (# 3, n + 1) t = n + obtained by camera # 3 Frame FR at the time of l (# 2, n) Viewpoint interpolation image corresponding to frame FR (# 2, n)
mt  mt
FR ( # 2, n) フレーム FR ( # 2, n)に対応する視点補間画像 intl  Viewpoint interpolation image intl corresponding to FR (# 2, n) frame FR (# 2, n)
FR ( # 2, n) フレーム FR ( # 2, n)に対応する視点補間画像 int2  Viewpoint interpolation image int2 corresponding to FR (# 2, n) frame FR (# 2, n)
t 時間軸 GOP グループ'ォブ 'ピクチヤ(所定数のフレームからなる時間軸 t方向の画像グ ループ) t Time axis GOP group 'Ob' Picture (image group in the t-direction of time axis consisting of a predetermined number of frames)
G 複数の同時刻のフレーム力もなる空間軸 S方向の画像グループ  G Spatial axis with multiple frame forces at the same time Image group in the S direction
s  s
I フレーム内符号化フレーム(Iピクチャ)  I intra-coded frame (I picture)
P フレーム間予測符号ィ匕フレーム(Pピクチャ)  P Interframe prediction code 匕 frame (P picture)
B フレーム間双方向予測符号ィ匕フレーム (Bピクチャ)  B Inter-frame bi-directional prediction code frame (B picture)
発明を実施するための最良の形態  BEST MODE FOR CARRYING OUT THE INVENTION
[0018] <本発明の画像情報圧縮方法を実施する装置の説明 > <Description of Apparatus for Implementing Image Information Compression Method of the Present Invention>
図 5は、本発明の画像情報圧縮方法を実施することができる画像情報符号ィヒ装置 FIG. 5 shows an image information coding apparatus capable of implementing the image information compression method of the present invention.
200の構成を概略的に示すブロック図である。 It is a block diagram which shows the structure of 200 roughly.
[0019] 図 5に示されるように、画像情報符号ィ匕装置 200は、 N個(Nは 2以上の整数)の入 力端子 201〜201 と、 N個の AZD変換部 202〜202と、画面並べ替えバッファ As shown in FIG. 5, the image information encoding device 200 includes N input terminals 201 to 201 (N is an integer of 2 or more), N AZD conversion units 202 to 202, Screen sorting buffer
1 N 1 N  1 N 1 N
203と、加算器 204と、直交変換部 205と、量子化部 206と、可変符号化部 207と、 蓄積バッファ 208と、出力端子 209と、レート制御部 210とを備えている。また、画像 情報符号化装置 200は、逆量子化部 211と、逆直交変換部 212と、マルチカメラフレ ーム 213と、動き予測 ·補償部 215と、補間画像生成 ·補償部 216と、動き予測,補償 部 215及び補間画像生成 ·補償部 216の出力信号のいずれかを選択的に出力する 選択部 217とを備えている。動き予測 ·補償部 215、補間画像生成 ·補償部 216、及 び選択部 217は、本発明の画像情報圧縮方法を実施する符号化処理部 214を構成 している。図 5に示される画像情報符号ィ匕装置 200は、複数台のカメラからの画像情 報を受信できる点、及び、本発明の画像情報圧縮方法を実施できる符号化処理部 2 14を備えて ヽる点が、上記特許文献 1に開示されて ヽる従来の画像情報符号化装 置と相違する。  203, an adder 204, an orthogonal transform unit 205, a quantization unit 206, a variable encoding unit 207, an accumulation buffer 208, an output terminal 209, and a rate control unit 210. The image information coding apparatus 200 includes an inverse quantization unit 211, an inverse orthogonal transform unit 212, a multi-camera frame 213, a motion prediction / compensation unit 215, an interpolated image generation / compensation unit 216, a motion A selection unit 217 that selectively outputs one of the output signals of the prediction / compensation unit 215 and the interpolated image generation / compensation unit 216; The motion prediction / compensation unit 215, the interpolated image generation / compensation unit 216, and the selection unit 217 constitute an encoding processing unit 214 that performs the image information compression method of the present invention. An image information encoding apparatus 200 shown in FIG. 5 includes a point that can receive image information from a plurality of cameras, and an encoding processing unit 214 that can implement the image information compression method of the present invention. This is different from the conventional image information encoding apparatus disclosed in Patent Document 1 described above.
[0020] 画像情報符号化装置 200の入力端子 201〜201 のそれぞれには、配置位置及  [0020] Each of the input terminals 201 to 201 of the image information encoding device 200 has an arrangement position and
1 N  1 N
び撮影方向が既知である N台のカメラによって取得されたアナログ映像信号が入力 される。 N台のカメラは、通常は解像度等の性能が同一のものであり、例えば、図 2 (a ;)〜(e)に示されるように規則的に配置されている。ただし、実際の FTVシステムにお いては、通常、カメラの台数は、数十台、百数十台、又はそれ以上の台数になる。ま た、カメラの配置は、図 2 (a)〜(e)に示されるものに限定されない。入力端子 SO^ 201 に入力されたアナログ映像信号はそれぞれ、 AZD変換部 202〜202でデIn addition, analog video signals acquired by N cameras with known shooting directions are input. The N cameras usually have the same performance, such as resolution, and are regularly arranged as shown in FIGS. 2 (a;) to (e), for example. However, in an actual FTV system, the number of cameras is usually tens, hundreds, or more. Ma The camera arrangement is not limited to that shown in FIGS. 2 (a) to 2 (e). The analog video signals input to the input terminal SO ^ 201 are respectively decoded by the AZD converters 202-202.
N 1 N ジタル映像信号に変換され、画面並べ替えバッファ 203に保持される。なお、変形例 として、入力端子 201〜201 にデジタル映像信号が入力される場合は、 AZD変 It is converted into an N 1 N digital video signal and held in the screen rearrangement buffer 203. As a modification, when a digital video signal is input to the input terminals 201 to 201, AZD conversion is performed.
1 N  1 N
換部 202〜202 は不要である。  Replacement units 202 to 202 are not necessary.
1 N  1 N
[0021] 図 6は、複数台のカメラ # 1〜# 5によって撮影された動画像のフレーム(「画像 (ピ クチャ)」とも言う。)FRが時間軸 t方向に並び、且つ、カメラ # 1〜# 5によって取得さ れた同時刻のフレームがカメラの配列順に空間軸 S方向に並ぶことを概念的に示す 図である。図 6に示されるように、各カメラ # 1〜# 5によって撮影された動画像のフレ ーム FRは、時間軸 t方向に時系列的に並んで所定数のフレーム力 なる画像グルー プである GOP (Group of Pictures)を構成する。また、図 6に示されるように、各力 メラ # 1〜 # 5によって撮影された動画像の同時刻に撮影されたフレーム、すなわち 、同時刻のフレームは、カメラの配列順である空間軸 S方向(図 6においては水平方 向)に並ぶ所定数の同時刻のフレームの画像グループ Gを構成する。  [0021] FIG. 6 shows frames of moving images (also referred to as “images”) taken by a plurality of cameras # 1 to # 5, and FRs are arranged in the time axis t direction, and camera # 1. It is a figure which shows notionally that the frames of the same time acquired by ~ # 5 are arranged in the spatial axis S direction in the arrangement order of the cameras. As shown in FIG. 6, the frame FR of the moving images taken by the cameras # 1 to # 5 is an image group having a predetermined number of frame forces arranged in time series in the time axis t direction. Configure GOP (Group of Pictures). In addition, as shown in FIG. 6, the frames taken at the same time of the moving images taken by the respective force cameras # 1 to # 5, that is, the frames at the same time are the spatial axes S which are the arrangement order of the cameras. An image group G of a predetermined number of frames at the same time arranged in the direction (horizontal direction in Fig. 6) is formed.
S  S
[0022] 画像情報符号ィ匕装置 200の画面並べ替えバッファ 203は、 AZD変換部 202〜2 02力 供給された画像情報の GOP構造に応じて、フレームの並べ替えを行う。画 The screen rearrangement buffer 203 of the image information encoding device 200 performs frame rearrangement according to the GOP structure of the supplied image information. Picture
N N
面並べ替えバッファ 203は、フレーム内符号ィ匕 (イントラ符号化)が行われる画像に対 しては、フレーム全体の画像情報を直交変換部 205に供給する。直交変換部 205は 、画像情報に対して離散コサイン変換等の直交変換を施し、変換係数を量子化部 2 06に供給する。量子化部 206は、直交変換部 205から供給された変換係数に対し て量子化処理を施す。  The face rearrangement buffer 203 supplies the image information of the entire frame to the orthogonal transform unit 205 for the image on which intra-frame coding (intra coding) is performed. The orthogonal transform unit 205 performs orthogonal transform such as discrete cosine transform on the image information and supplies transform coefficients to the quantization unit 206. The quantization unit 206 performs a quantization process on the transform coefficient supplied from the orthogonal transform unit 205.
[0023] 可変符号ィ匕部 207は、量子化部 206から供給された量子化された変換係数や量 子化スケール等力 符号ィ匕モードを決定し、この符号化モードに対して可変長符号 ィ匕、又は算術符号化等の可変符号化を施し、画像符号ィ匕単位のヘッダ部に挿入さ れる情報を形成する。そして、可変符号ィ匕部 207は、符号化された符号化モードを 蓄積バッファ 208に供給して蓄積させる。この符号化された符号ィ匕モードは、画像圧 縮情報として出力端子 209から出力される。また、可変符号ィ匕部 207は、量子化され た変換係数に対して可変長符号ィ匕又は算術符号ィ匕等の可変符号ィ匕を施し、符号ィ匕 された変換係数を蓄積バッファ 208に供給して蓄積させる。この符号化された変換係 数は、画像圧縮情報として出力端子 209より出力される。 [0023] The variable code key unit 207 determines the quantized transform coefficient and quantization scale iso-power code key mode supplied from the quantization unit 206, and sets a variable length code for this coding mode. Or variable coding such as arithmetic coding is performed to form information to be inserted into the header portion of each image code key. Then, the variable code key unit 207 supplies the encoded encoding mode to the accumulation buffer 208 for accumulation. The encoded code mode is output from the output terminal 209 as image compression information. The variable code key unit 207 applies a variable code key such as a variable-length code key or an arithmetic code key to the quantized transform coefficient to generate a code key. The converted conversion coefficient is supplied to the accumulation buffer 208 and accumulated. The encoded conversion coefficient is output from the output terminal 209 as image compression information.
[0024] 量子化部 206の挙動は、蓄積バッファ 208に蓄積された変換係数のデータ量に基 づいて、レート制御部 210によって制御される。また、量子化部 206は、量子化後の 変換係数を逆量子化部 211に供給し、逆量子化部 211は、その量子化後の変換係 数を逆量子化する。逆直交変換部 212は、逆量子化された変換係数に対して逆直 交変換処理を施して復号画像情報を生成し、その情報をマルチカメラフレームメモリ 213に供給して蓄積させる。  The behavior of the quantization unit 206 is controlled by the rate control unit 210 based on the data amount of transform coefficients accumulated in the accumulation buffer 208. Further, the quantization unit 206 supplies the quantized transform coefficient to the inverse quantization unit 211, and the inverse quantization unit 211 performs inverse quantization on the quantized transform coefficient. The inverse orthogonal transform unit 212 performs inverse orthogonal transform processing on the inversely quantized transform coefficients to generate decoded image information, and supplies the information to the multi-camera frame memory 213 for accumulation.
[0025] また、画面並べ替えバッファ 203は、フレーム間予測符号化 (インター符号化)が行 われる画像に関しては、画像情報を符号化処理部 214に供給する。符号化処理部 2 14は、後述する本発明の第 1〜第 6の実施形態の画像情報圧縮方法を用いて画像 情報に符号化処理を施す。符号化処理部 214は、生成した参照画像情報を加算器 204に供給し、加算器 204は、参照画像情報を対応する画像情報との差分信号に 変換する。また、符号化処理部 214は、同時に動きベクトル情報を可変符号ィ匕部 20 7に供給する。  In addition, the screen rearrangement buffer 203 supplies image information to the encoding processing unit 214 for an image on which inter-frame predictive encoding (inter-encoding) is performed. The encoding processing unit 214 performs encoding processing on image information using the image information compression methods of the first to sixth embodiments of the present invention described later. The encoding processing unit 214 supplies the generated reference image information to the adder 204, and the adder 204 converts the reference image information into a difference signal from the corresponding image information. Also, the encoding processing unit 214 supplies the motion vector information to the variable code unit 207 at the same time.
[0026] 可変符号化部 207は、量子化部 206からの量子化された変換係数及び量子化ス ケール、並びに符号ィ匕処理部 214から供給された動きベクトル情報等に基づいて符 号化モードを決定し、その決定した符号化モードに対して可変長符号化又は算術符 号化等の可変符号化を施し、画像符号ィ匕単位のヘッダ部に挿入される情報を生成 する。そして、可変符号ィ匕部 207は、符号化された符号ィ匕モードを蓄積バッファ 208 に供給して蓄積させる。この符号化された符号ィ匕モードは、画像圧縮情報として出力 される。  The variable encoding unit 207 is based on the quantized transform coefficient and quantization scale from the quantization unit 206, the motion vector information supplied from the code key processing unit 214, and the like. Then, variable encoding such as variable length encoding or arithmetic encoding is performed on the determined encoding mode, and information to be inserted into the header portion of each image code key is generated. Then, the variable code key unit 207 supplies the encoded code key mode to the accumulation buffer 208 for accumulation. The encoded code mode is output as image compression information.
[0027] また、可変符号ィ匕部 207は、その動きベクトル情報に対して可変長符号ィ匕又は算 術符号化等の可変符号化処理を施し、画像符号ィ匕単位のヘッダ部に挿入される情 報を生成する。また、イントラ符号化と異なり、インター符号ィ匕の場合、直交変換部 20 5に入力される画像情報は、加算器 204より得られた差分信号である。なお、その他 の処理については、イントラ符号ィ匕による画像圧縮の場合と同様である。  [0027] Further, the variable code key unit 207 performs variable coding processing such as variable length code key or arithmetic coding on the motion vector information, and is inserted into the header part of each image code key. Information is generated. In contrast to intra coding, in the case of inter coding, image information input to the orthogonal transform unit 205 is a difference signal obtained from the adder 204. The other processes are the same as those in the case of image compression using intra codes.
[0028] 図 7は、図 5に示される画像情報符号化装置 200の符号化処理を示すフローチヤ ートである。図 7に示されるように、画像情報符号ィ匕装置 200は、 AZD変換部 20 〜202 によって、入力されたアナログ映像信号の AZD変換を行い (ステップ ST11FIG. 7 is a flowchart showing the encoding process of the image information encoding device 200 shown in FIG. It is As shown in FIG. 7, the image information encoding device 200 performs AZD conversion of the input analog video signal by the AZD conversion units 20 to 202 (step ST11
N N
)、画面並べ替えバッファ 203によって画面の並べ替えを行い(ステップ ST12)、その 後、動き予測'補償部 215による動き予測'補償 (ステップ ST21)、補間画像生成'補 償部 216による補間画像の生成 ·補償 (ステップ ST22)、選択部 217による補間画像 を参照する符号化又は動き予測 ·補償による符号ィヒの 、ずれを選択するかの決定( ステップ ST23)を行う。ただし、従来の画像情報の圧縮符号ィ匕処理 (例えば、 H. 26 4ZAVC規格に準拠した処理)を行う場合、後述する第 1の実施形態の場合には、 補間画像生成 ·補償部 216による補間画像の生成 ·補償を行う必要はない。  ), The screen is rearranged by the screen rearrangement buffer 203 (step ST12), and then the motion prediction 'compensation unit 215 for motion prediction' compensation (step ST21) and the interpolated image generation 'compensation unit 216 Generation / compensation (step ST22), encoding by referring to the interpolated image by the selection unit 217, or determination of whether to select a shift of the coding prediction by motion prediction / compensation (step ST23) is performed. However, in the case of performing the conventional compression coding process for image information (for example, processing conforming to the H.26 4ZAVC standard), in the case of the first embodiment described later, interpolation by the interpolated image generation / compensation unit 216 is performed. Image generation · No compensation is required.
[0029] その後、直交変換部 205によって生成された画像情報を直交変換し (ステップ ST2 3)、量子化部 206及びレート制御部 210によって量子化及び量子化レート制御を行 い (ステップ ST25, 26)、可変符号ィ匕部 207により可変符号ィ匕を行い (ステップ ST2 7)、逆量子化部 211により逆量子化を行い (ステップ ST28)、逆直交変換部 212に より逆直交変換 (ステップ ST29)を行う。ステップ ST21〜ST29の処理を、フレーム 内の所定画素数からなるブロックのすべてに対して行い、ステップ ST11及び ST12 と全ブロックについてのステップ ST21〜ST29の処理を、全フレームに対して行う。  [0029] Thereafter, the image information generated by orthogonal transform section 205 is orthogonally transformed (step ST23), and quantization and quantization rate control are performed by quantization section 206 and rate control section 210 (steps ST25, 26). ), Variable code key unit 207 performs variable code key (step ST2 7), inverse quantization unit 211 performs inverse quantization (step ST28), and inverse orthogonal transform unit 212 performs inverse orthogonal transform (step ST29). )I do. Steps ST21 to ST29 are performed on all blocks having a predetermined number of pixels in the frame, and steps ST11 and ST12 and steps ST21 to ST29 for all blocks are performed on all frames.
[0030] 図 8は、図 7に示される補間画像生成 ·補償ステップ ST22の動作の一例を示すフロ 一チャートである。補間画像生成 '補償に際しては、ブロック内の各画素で奥行き推 定をして補間画素(例えば、画素値 0〜255)を生成し、生成された補間画素の画素 値に基づく評価値 Eを算出し、ブロックの奥行き範囲における評価値 Eの最小値 E  FIG. 8 is a flowchart showing an example of the operation of the interpolated image generation / compensation step ST22 shown in FIG. Interpolated image generation 'For compensation, depth estimation is performed at each pixel in the block to generate an interpolated pixel (for example, pixel value 0 to 255), and an evaluation value E is calculated based on the pixel value of the generated interpolated pixel. The minimum value E of the evaluation value E in the block depth range
min を求める(ステップ ST221〜ST223)。ここで、生成された補間画素の画素値を I (i  min is obtained (steps ST221 to ST223). Here, the pixel value of the generated interpolation pixel is expressed as I (i
int int
, j)、奥行きを D (i, j)と定義し、(i, j)は画像上の位置を示し、符号化される画像の , j), and depth as D (i, j), where (i, j) indicates the position on the image and
mt  mt
画素値を I (i, j)と定義したときに、評価値 Eは、例えば、  When the pixel value is defined as I (i, j), the evaluation value E is, for example,
en  en
abs (l (i, j) -I (i, j) )  abs (l (i, j) -I (i, j))
int en  int en
とすることができる。ここで、 abs ( は、括弧内の絶対値を示す。ただし、評価値 Eの 定義は、  It can be. Where abs (indicates the absolute value in parentheses. However, the evaluation value E is defined as
abs (l (i, j) -I (i, j) )  abs (l (i, j) -I (i, j))
int en  int en
abs (D. (i, j)— D. (i- 1, j) ) としてもよい。なお、本発明において、評価値 Eは、上記定義に限定されず、他の定 義を採用することもできる。 abs (D. (i, j) — D. (i- 1, j)) It is good. In the present invention, the evaluation value E is not limited to the above definition, and other definitions can be adopted.
[0031] 次に、最小値 E となる奥行きを用いて補間画素を生成する (ステップ ST224)。ス [0031] Next, an interpolation pixel is generated using the depth that is the minimum value E (step ST224). The
min  min
テツプ ST221〜ST224の処理を、ブロック内画素の全体に対して行い、補間画素に よって生成された推定ブロックが実際のブロックとどの程度似ているかを示す指標で ある評価銜 を算出する (ステップ ST225)。ここで、評価銜は、ブロック内の推定  The processing in steps ST221 to ST224 is performed on all the pixels in the block, and an evaluation value, which is an index indicating how much the estimated block generated by the interpolation pixel is similar to the actual block, is calculated (step ST225 ). Where the evaluation 銜 is the estimation within the block
mt 1  mt 1
画素の集合 S を I (i, j)、a< i< b、cく; j < dとし、符号ィ匕する画像の画素の集合 T  The set of pixels S is I (i, j), a <i <b, c; j <d, and the set of pixels T of the image to be signed T
est int e を I (i, j)、a< i< b、cく; j < dとすると、評価銜 は、例えば、  If est int e is I (i, j), a <i <b, c; j <d, the evaluation 銜 is
n en mt  n en mt
∑{abs (l (i, j) -I (i, j) ) }、a< i< b、c<j < d  ∑ {abs (l (i, j) -I (i, j))}, a <i <b, c <j <d
int en  int en
と定義できる。または、評価銜 mtは、例えば、  Can be defined. Or evaluation 銜 mt, for example
∑{abs (l (i, j) -I (i, j) ) * abs (I (i, j) I (i, j) ) }、 a< i< b、 c<j < d  ∑ {abs (l (i, j) -I (i, j)) * abs (I (i, j) I (i, j))}, a <i <b, c <j <d
int en int en  int en int en
と定義することができる。ここで、 a、 b、 c、 dは、ブロックの範囲を示す値である。なお、 以上に説明した補間方法は、一例に過ぎず、本発明における補間方法としては、何 を用いてもよぐ装置の製造者又は使用者が、既知のフレーム補間方法の中から自 由に選択できるように構成してもよ 、。  Can be defined as Here, a, b, c, and d are values indicating the block range. Note that the interpolation method described above is merely an example, and any manufacturer or user of the apparatus that can use any of the interpolation methods in the present invention is free from the known frame interpolation methods. May be configured to be selectable.
[0032] 図 9は、図 7に示される補間画像又は動き予測補償のいずれかの選択ステップの動 作の一例を示すフローチャートである。図 9に示されるように、補間画像又は動き予測 補償のいずれかの選択ステップにおいては、評価銜 mtを算出するが、評価銜 int力 S 動き予測補償を採用した場合の評価銜 motより大きい場合には、動き予測補償を採 用し、評価銜 mtが動き予測補償を採用した場合の評価銜 mot以下の場合には、補間 画像を選択する (ステップ ST231〜ST233)。ただし、従来の画像情報の圧縮符号 化処理 (例えば、 H. 264ZAVC規格に準拠した処理)を行う場合、又は、後述する 第 1の実施形態の画像情報圧縮方法を行う場合には、動き予測補償により符号化さ れた画像情報を選択する。 FIG. 9 is a flowchart showing an example of the operation of the selection step of either the interpolated image or the motion prediction compensation shown in FIG. As shown in Fig. 9, in the selection step of either interpolated image or motion prediction compensation, evaluation 銜 mt is calculated, but when evaluation 銜 int force S motion prediction compensation is adopted よ り 大 き い larger than mot In this case, motion prediction compensation is employed, and when the evaluation 銜 mt is equal to or less than the evaluation 銜 mot when motion prediction compensation is adopted, an interpolation image is selected (steps ST231 to ST233). However, when performing conventional image information compression encoding processing (for example, processing conforming to the H.264ZAVC standard) or when performing the image information compression method of the first embodiment described later, motion prediction compensation is performed. The image information encoded by is selected.
[0033] 図 10は、画像情報符号ィ匕装置 200に対応する画像情報復号装置 300の構成を概 略的に示すブロック図である。  FIG. 10 is a block diagram schematically showing a configuration of an image information decoding device 300 corresponding to the image information encoding device 200.
[0034] 図 10に示されるように、画像情報復号装置 300は、入力端子 301と、蓄積バッファ 302と、可変復号部 203と、逆量子化部 304と、逆直交変換部 305と、加算器 306と 、画面並べ替えバッファ 307と、 N個の DZ A変換部 308〜308 と、 N個の出力端 As shown in FIG. 10, an image information decoding apparatus 300 includes an input terminal 301, a storage buffer 302, a variable decoding unit 203, an inverse quantization unit 304, an inverse orthogonal transform unit 305, an adder 306 and Screen rearrangement buffer 307, N DZ A converters 308 to 308, and N output terminals
1 N  1 N
子 309〜309 とを備えている。また、画像情報復号装置 300は、マルチカメラフレ Children 309-309. In addition, the image information decoding apparatus 300 is a multi-camera frame.
1 N 1 N
ームメモリ 310と、動き予測 ·補償部 312と、補間画像生成 ·補償部 313と、動き予測 · 補償部 312及び補間画像生成'補償部 313の出力の内のいずれかを選択的に出力 する選択部 314とを備えている。動き予測'補償部 312、補間画像生成'補償部 313 、及び選択部 314は、画像情報復号を実施する復号処理部 311を構成している。図 10に示される画像情報復号装置 300は、本発明の画像情報圧縮方法によって符号 化された画像情報を復号できる復号処理部 311を備えている点、及び、複数のカメラ 力もの画像情報に相当する複数のアナログ映像信号を出力できる点が、上記特許文 献 1に開示されている画像情報復号装置と相違する。なお、変形例として、 N個の出 力端子 309〜309カゝらデジタル映像信号を出力する場合は、 N個の DZA変換部  Motion memory 310, motion prediction / compensation unit 312, interpolation image generation / compensation unit 313, selection unit that selectively outputs one of the outputs of motion prediction / compensation unit 312 and interpolation image generation / compensation unit 313 And 314. The motion prediction / compensation unit 312, the interpolated image generation / compensation unit 313, and the selection unit 314 constitute a decoding processing unit 311 that performs image information decoding. An image information decoding apparatus 300 shown in FIG. 10 includes a decoding processing unit 311 that can decode image information encoded by the image information compression method of the present invention, and corresponds to image information of a plurality of cameras. This is different from the image information decoding apparatus disclosed in Patent Document 1 in that a plurality of analog video signals can be output. As a modification, when N digital output signals are output from 309 to 309 output terminals, N DZA converters
1 N  1 N
308〜308 は不要となる。  308 to 308 are not necessary.
1 N  1 N
[0035] 図 10に示した画像情報復号装置 300において、入力端子 301から入力された画 像圧縮情報は、蓄積バッファ 302において一時的に格納された後、可変復号部 303 に転送される。可変復号部 303は、定められた画像圧縮情報のフォーマットに基づき 、画像圧縮情報に対して可変長復号又は算術復号等の処理を施し、ヘッダ部に格 納された符号ィ匕モード情報を取得し逆量子化部 304等に供給する。また同様に、可 変復号部 303は、量子化された変換係数を取得し逆量子化部 304に供給する。さら に、可変復号部 303は、復号するフレーム力インター符号ィ匕されたものである場合に は、画像圧縮情報のヘッダ部に格納された動きベクトル情報についても復号し、その 情報を復号処理部 311に供給する。  In the image information decoding apparatus 300 shown in FIG. 10, the image compression information input from the input terminal 301 is temporarily stored in the storage buffer 302 and then transferred to the variable decoding unit 303. The variable decoding unit 303 performs processing such as variable length decoding or arithmetic decoding on the image compression information based on the determined format of the image compression information, and acquires code key mode information stored in the header unit. This is supplied to the inverse quantization unit 304 or the like. Similarly, the variable decoding unit 303 acquires the quantized transform coefficient and supplies it to the inverse quantization unit 304. Further, if the frame decoding inter-coding is performed, the variable decoding unit 303 also decodes the motion vector information stored in the header portion of the image compression information, and the information is decoded. Supply to 311.
[0036] 逆量子化部 304は、可変復号部 303から供給された量子化後の変換係数を逆量 子化し、変換係数を逆直交変換部 305に供給する。逆直交変換部 305は、定められ た画像圧縮情報のフォーマットに基づき、変換係数に対して逆離散コサイン変換等 の逆直交変換を施す。ここで、対象となるフレーム力 Sイントラ符号ィ匕されたものである 場合、逆直交変換処理が施された画像情報は、画面並べ替えバッファ 307に格納さ れ、 DZA変換部 308〜308 における DZA変換処理の後に、出力端子 309〜3  [0036] The inverse quantization unit 304 inverse-quantizes the quantized transform coefficient supplied from the variable decoding unit 303, and supplies the transform coefficient to the inverse orthogonal transform unit 305. The inverse orthogonal transform unit 305 performs inverse orthogonal transform such as inverse discrete cosine transform on the transform coefficient based on the determined format of the image compression information. Here, in the case where the target frame force is S intra code, the image information subjected to the inverse orthogonal transform processing is stored in the screen rearrangement buffer 307, and the DZA in the DZA conversion units 308 to 308 After conversion processing, output terminals 309 to 3
1 N 1 1 N 1
09力 出力される。 [0037] また、対象となるフレーム力インター符号ィ匕されたものである場合、復号処理部 311 は、可変復号処理が施された動きベクトル情報とマルチカメラフレームメモリ 310に格 納された画像情報とに基づいて参照画像を生成し、加算器 306に供給する。加算器 306は、この参照画像と逆直交変換部 305からの出力とを合成する。なお、その他の 処理につ 、ては、イントラ符号ィ匕されたフレームと同様である。 09 power is output. [0037] If the target frame force inter-coding is performed, the decoding processing unit 311 performs motion vector information subjected to variable decoding processing and image information stored in the multi-camera frame memory 310. Based on the above, a reference image is generated and supplied to the adder 306. The adder 306 combines the reference image and the output from the inverse orthogonal transform unit 305. The other processing is the same as that of the intra-coded frame.
[0038] 図 11は、図 10に示される画像情報復号装置 300の符号ィ匕処理を示すフローチヤ ートである。図 11に示されるように、画像情報復号装置 300は、入力信号の可変復 号 (ステップ ST31)、逆量子化 (ステップ ST32)、逆直交変換 (ステップ ST33)後、 画像情報が動き予測補償されたものであれば、動き予測補償を用いて復号し (ステツ プ ST34, ST35)、補間画像を用いて補償したものであれば補間画像を用いた復号 をする(ステップ ST36, ST37)。ステップ ST31〜ST37の処理を、全ブロックについ て行い、さらに、ステップ ST31〜ST37の処理を全ブロックについて行う処理を、全 フレームについて行う。その後、得られた復号データに基づいて、画面の並べ替え( ステップ ST41)、 DZA変換 (ステップ ST42)を行う。  FIG. 11 is a flowchart showing the code key processing of the image information decoding apparatus 300 shown in FIG. As shown in FIG. 11, the image information decoding apparatus 300 performs motion prediction compensation on image information after variable decoding (step ST31), inverse quantization (step ST32), and inverse orthogonal transform (step ST33) of an input signal. If so, decoding is performed using motion prediction compensation (steps ST34 and ST35), and if compensated using an interpolated image, decoding is performed using the interpolated image (steps ST36 and ST37). The processing of steps ST31 to ST37 is performed for all blocks, and further, the processing of performing the processing of steps ST31 to ST37 for all blocks is performed for all frames. Thereafter, screen rearrangement (step ST41) and DZA conversion (step ST42) are performed based on the obtained decoded data.
[0039] 図 12は、図 10に示される補間画像生成 ·補償ステップ ST37の動作の一例を示す フローチャートである。図 12のステップ ST371〜ST374の処理は、図 8のステップ S T221〜ST224の処理と同様である。補間画像生成'補償に際しては、ブロック内の 各画素で奥行き推定をして補間画素(例えば、画素値 0〜255)を生成し、生成され た補間画素の画素値に基づく評価値 Eを算出し、ブロックの奥行き範囲における評 価値 Eの最小値 E を求める(ステップ ST371〜ST373)。その後、最小値 E とな  FIG. 12 is a flowchart showing an example of the operation of the interpolated image generation / compensation step ST37 shown in FIG. The processing in steps ST371 to ST374 in FIG. 12 is the same as the processing in steps ST221 to ST224 in FIG. When generating the interpolated image, the depth is estimated at each pixel in the block to generate an interpolated pixel (for example, pixel value 0 to 255), and an evaluation value E based on the pixel value of the generated interpolated pixel is calculated. Then, the minimum value E of the evaluation value E in the block depth range is obtained (steps ST371 to ST373). Then the minimum value E
mm min る奥行きを用いて補間画素を生成する(ステップ ST374)。ステップ ST221〜ST22 4の処理を、ブロック内画素の全体に対して行う。  An interpolation pixel is generated using a depth of mm min (step ST374). The processing in steps ST221 to ST224 is performed on all the pixels in the block.
[0040] 以上は、本発明の画像情報圧縮方法を実施することができる画像情報符号ィ匕装置 200と、本発明の画像情報圧縮方法によって符号化された画像情報を復号すること ができる画像情報復号装置 300を例示して説明したが、本発明の画像情報圧縮方 法を実施することができる画像情報符号ィ匕装置 200及び画像情報復号装置 300は、 上記構成のものに限定されず、他の構成の装置にも本発明の画像情報圧縮方法を 適用できる。次に、本発明の画像情報圧縮方法の実施形態及び本発明の画像情報 圧縮方法を適用した FTVシステムを説明する。 [0040] The image information encoding apparatus 200 capable of performing the image information compression method of the present invention and the image information capable of decoding the image information encoded by the image information compression method of the present invention have been described above. Although the decoding apparatus 300 has been described as an example, the image information encoding apparatus 200 and the image information decoding apparatus 300 that can implement the image information compression method of the present invention are not limited to those having the above-described configuration. The image information compression method of the present invention can also be applied to an apparatus having the configuration described above. Next, an embodiment of the image information compression method of the present invention and the image information of the present invention The FTV system to which the compression method is applied is explained.
[0041] <第 1の実施形態の画像情報圧縮方法の説明 >  <Description of image information compression method of first embodiment>
以下に、本発明の第 1の実施形態の画像情報圧縮方法を説明する。第 1の実施形 態の画像情報圧縮方法は、後述する視点間予測符号化を適用したものであり、例え ば、図 5に示されるマルチカメラフレームメモリ 213と、符号ィ匕処理部 214の動き予測 '補償部 215によって実行される。  The image information compression method according to the first embodiment of the present invention will be described below. The image information compression method according to the first embodiment applies inter-view prediction encoding described later. For example, the motion of the multi-camera frame memory 213 and the code key processing unit 214 shown in FIG. Prediction 'Executed by the compensation unit 215.
[0042] 図 13及び図 14は、本発明の第 1の実施形態の画像情報圧縮方法の説明図(その 1及び 2)である。図 13及び図 14において、 tは、時間軸を示し、 Sは、カメラの配列順 又はカメラの配列方向の空間軸を示す。また、図 13及び図 14において、 # 1〜# 7 はカメラの配列順に付されたカメラ番号を示す。ただし、第 1の実施形態においては 、カメラの台数は、 2台以上であれば、図示された台数以外の台数であってもよい。ま た、カメラの配置は、図 2 (a)〜(e)の中のいずれかの配置、又は、それ以外の配置 であってもよい。また、図 13及び図 14において、 Iは、フレーム内符号化フレーム(Iピ クチャ)、 Pは、フレーム間予測符号ィ匕フレーム(Pピクチャ)、 Bは、フレーム間双方向 予測符号ィ匕フレーム (Bピクチャ)を示す。図 13及び図 14において、空間軸 S方向に 並ぶフレームは、同時刻のフレームである。また、図 13及び図 14において、時間軸 t 方向に並ぶ所定数のフレームは、所定数のフレームカゝら構成される画像グループで ある GOPを構成している。例えば、カメラ # 1については、時間軸 t方向に並ぶ I, B, B, P, B, B, P,…の所定数のピクチヤによって GOPが構成されている。  FIGS. 13 and 14 are explanatory diagrams (parts 1 and 2) of the image information compression method according to the first embodiment of the present invention. 13 and 14, t represents a time axis, and S represents a spatial axis in the camera arrangement order or the camera arrangement direction. In FIGS. 13 and 14, # 1 to # 7 indicate camera numbers assigned in the order of camera arrangement. However, in the first embodiment, the number of cameras may be other than the number shown as long as the number is two or more. Further, the camera may be arranged in any one of FIGS. 2 (a) to 2 (e) or other arrangements. 13 and 14, I is an intra-frame encoded frame (I picture), P is an inter-frame prediction code frame (P picture), and B is an inter-frame bi-directional prediction code frame. (B picture). In FIG. 13 and FIG. 14, the frames arranged in the space axis S direction are frames at the same time. In FIG. 13 and FIG. 14, a predetermined number of frames arranged in the direction of the time axis t constitute a GOP that is an image group composed of a predetermined number of frame covers. For example, for the camera # 1, a GOP is configured by a predetermined number of pictures of I, B, B, P, B, B, P,.
[0043] 第 1の実施形態の画像情報圧縮方法においては、先ず、図 13に示されるように、 複数台のカメラによって取得された動画像の時間軸 t方向に並ぶフレームの画像情 報を、フレーム内符号ィ匕 (イントラ符号化)及びフレーム間の時間的相関を利用したフ レーム間予測符号ィ匕 (インター符号化)によって符号化処理する。時間的相関を利用 したフレーム間予測符号ィ匕は、例えば、 H. 264ZAVC規格に準拠した符号化方式 である。ただし、時間的相関を利用したフレーム間予測符号ィ匕は、上記方式に限定 されず、他の符号ィ匕方式を採用してもよい。符号化処理の結果、例えば、図 13に示 されるような、動画像のフレーム、すなわち、符号化された画像が得られる。時間軸 t 方向に並ぶ所定数のフレームによって構成される GOP内の時間的に最初のフレー ムの符号化処理は、フレーム内符号ィ匕によって行われており、最初のフレームは Iピ クチャである。また、同じ GOP内の最初のフレーム以外のフレームの符号化処理は、 時間的相関を利用したフレーム間予測符号ィ匕によって行われており、符号化された 画像は、 Pピクチャ又は Bピクチャである。 In the image information compression method of the first embodiment, first, as shown in FIG. 13, image information of frames arranged in the time axis t direction of moving images acquired by a plurality of cameras is obtained. Coding is performed by intra-frame code (intra coding) and inter-frame prediction code (inter coding) using temporal correlation between frames. The inter-frame prediction code using the temporal correlation is, for example, an encoding method based on the H.264ZAVC standard. However, the inter-frame prediction code using the temporal correlation is not limited to the above method, and other code methods may be adopted. As a result of the encoding process, for example, a moving image frame, that is, an encoded image as shown in FIG. 13 is obtained. The first frame in time in the GOP that is composed of a predetermined number of frames aligned in the time axis t direction. The first frame is an I picture, and the first frame is an I picture. In addition, the encoding processing of frames other than the first frame in the same GOP is performed by inter-frame prediction code using temporal correlation, and the encoded image is a P picture or a B picture. .
[0044] 次に、複数台のカメラによって取得された動画像のフレームであって、カメラの配列 順に空間軸 S方向に並ぶ同時刻のフレームの画像情報を、時間的相関を利用したフ レーム間予測符号ィ匕と同じアルゴリズムによる同時刻のフレーム間の相関を利用した フレーム間予測符号化によって符号化処理する。この同時刻のフレーム間の相関を 利用したフレーム間予測符号ィ匕は、空間軸 S方向に並ぶ同時刻の所定数のフレーム によって構成される画像グループ(図 6に示される G )単位で実行される。このように [0044] Next, image information of frames of moving images acquired by a plurality of cameras, which are arranged at the same time in the spatial axis S direction in the order of camera arrangement, is obtained between frames using temporal correlation. Encoding is performed by inter-frame prediction encoding using the correlation between frames at the same time using the same algorithm as the prediction code 匕. The inter-frame prediction code 匕 using the correlation between the frames at the same time is executed in units of image groups (G shown in FIG. 6) composed of a predetermined number of frames arranged at the same time in the spatial axis S direction. The in this way
S  S
、同時刻のフレーム間の相関を利用したフレーム間予測符号ィ匕は、各視点(例えば、 隣接する各カメラ位置)で取得したフレーム間の相関を利用したフレーム間予測符号 ィ匕であることから、「視点間予測符号化」と称する。第 1の実施形態においては、同時 刻のフレーム間の相関を利用したフレーム間予測符号ィ匕によって符号ィ匕処理される フレームは、 GOP内のフレームの最初のフレーム、すなわち、 Iピクチャである。この 視点間予測符号ィ匕の処理により、図 14に示されるように、 GOP内の最初のフレーム がカメラの配列方向の空間軸 S方向に、 I, B, B, P, B, B, P,…ピクチャに符号ィ匕さ れる。  The inter-frame prediction code using the correlation between frames at the same time is the inter-frame prediction code using the correlation between frames acquired at each viewpoint (for example, adjacent camera positions). This is referred to as “inter-view prediction encoding”. In the first embodiment, the frame subjected to code processing by the inter-frame prediction code using the correlation between the simultaneous frames is the first frame of the frame in the GOP, that is, the I picture. By this inter-view prediction code 匕 processing, as shown in FIG. 14, the first frame in the GOP moves in the direction of the spatial axis S in the camera arrangement direction, I, B, B, P, B, B, P , ... signed to picture.
[0045] 以上に説明した視点間予測符号ィ匕を、複数台のカメラによって取得された各 GOP の最初のフレームについて、実行する。このように、第 1の実施形態の画像情報圧縮 方法は、互いの位置関係が既知である複数台のカメラによって同時刻に撮影された 画像間には、 H. 264ZAVC規格等において用いられている時間的相関に類似し た空間的相関が存在することに着目し、特に情報量の大きい、 GOPの最初のフレー ム (Iピクチャ)に、視点間予測符号化処理を施すことを提案するものである。このよう に、第 1の実施形態の画像情報圧縮方法を用いれば、空間軸 S方向に並ぶ、 GOP 内の最初のフレームに対して、時間軸 t方向に並ぶフレームに対するフレーム間予測 符号化と同じアルゴリズムに基づくフレーム間予測符号化、すなわち、視点間予測符 号ィ匕を施すので、符号ィ匕圧縮効率を向上させることができる。 [0046] また、視点間予測符号化処理は、時間軸 t方向に並ぶフレームに対するフレーム間 予測符号化と同じアルゴリズムに基づく処理であるので、視点間予測符号ィ匕処理に は既存の動き予測 ·補償部 215を転用することも可能である。このため、第 1の実施 形態の画像情報圧縮方法を実施するために、大幅な構成(回路又はソフトウェア)の 追加は必要なぐ 1の実施形態の画像情報圧縮方法はコスト面でも有利である。 [0045] The inter-view prediction code 匕 described above is executed for the first frame of each GOP acquired by a plurality of cameras. As described above, the image information compression method according to the first embodiment is used in the H. 264ZAVC standard or the like between images taken at the same time by a plurality of cameras whose positional relationships are known. Focusing on the fact that there is a spatial correlation similar to the temporal correlation, we propose to apply inter-view predictive coding to the first GOP frame (I picture), which has a large amount of information. is there. Thus, using the image information compression method of the first embodiment, the same as the inter-frame prediction encoding for the frame aligned in the time axis t direction with respect to the first frame in the GOP aligned in the spatial axis S direction. Since the inter-frame predictive coding based on the algorithm, that is, the inter-view prediction code is applied, the code compression efficiency can be improved. [0046] In addition, the inter-view prediction encoding process is based on the same algorithm as the inter-frame prediction encoding for the frames arranged in the time axis t direction. It is also possible to divert the compensation unit 215. For this reason, it is necessary to add a significant configuration (circuit or software) in order to implement the image information compression method of the first embodiment. The image information compression method of one embodiment is advantageous in terms of cost.
[0047] <第 2の実施形態の画像情報圧縮方法の説明 >  <Description of Image Information Compression Method of Second Embodiment>
以下に、本発明の第 2の実施形態の画像情報圧縮方法を説明する。第 2の実施形 態の画像情報圧縮方法は、後述する視点補間を利用するものであり、図 5に示される マルチフレームメモリ 213と、符号ィ匕処理部 214の動き予測'補償部 215、補間画像 生成'補償部 216、及び選択部 217によって実行される。  The image information compression method according to the second embodiment of the present invention will be described below. The image information compression method of the second embodiment uses viewpoint interpolation, which will be described later, and includes a multiframe memory 213 and a motion prediction / compensation unit 215 of the code key processing unit 214 shown in FIG. This is executed by the image generation / compensation unit 216 and the selection unit 217.
[0048] 図 15から図 18までは、本発明の第 2の実施形態の画像情報圧縮方法の説明図( その 1〜4)である。図 15から図 18までにおいて、 tは、時間軸を示し、 Sは、カメラの 配列順又はカメラの配列方向の空間軸である。また、図には、カメラ # 1〜# 5によつ て取得されたフレームのみを示す力 カメラの台数はフレーム補間を行うことが可能 な台数、すなわち、 3台 (符号化対象のフレームを撮影するカメラが 1台と、符号化対 象のフレームに対応する補間画像を生成するために参照するフレームを撮影する力 メラが 2台の、合計 3台)以上であれば、何台であってもよい。また、図において、 I、 P 、 Bはそれぞれ、 Iピクチャ、 Pピクチャ、 Bピクチャである。また、図 15から図 17までに おいて、空間軸 S方向に並ぶフレームは同時刻のフレームである。  FIGS. 15 to 18 are explanatory diagrams (parts 1 to 4) of the image information compression method according to the second embodiment of the present invention. 15 to 18, t represents a time axis, and S represents a spatial axis in the camera arrangement order or the camera arrangement direction. The figure also shows only the frames acquired by cameras # 1 to # 5. The number of cameras is the number of frames that can be interpolated, i.e. 3 (capturing the frame to be encoded). If there is more than one camera and two cameras that capture the reference frame to generate an interpolated image corresponding to the frame to be encoded, a total of three cameras) Also good. In the figure, I, P, and B are an I picture, a P picture, and a B picture, respectively. In FIGS. 15 to 17, the frames arranged in the space axis S direction are frames at the same time.
[0049] 第 2の実施形態の画像情報圧縮方法においては、先ず、図 15に示されるように、 奇数番目のカメラ # 1, # 3, # 5,…を選択し、選択されたカメラ # 1, # 3, # 5,… によって取得された動画像の時間軸 t方向に並ぶフレームの画像情報を、フレーム 内符号ィ匕及びフレーム間の時間的相関を利用したフレーム間予測符号ィ匕を用いて 符号化処理する。  In the image information compression method of the second embodiment, first, as shown in FIG. 15, odd-numbered cameras # 1, # 3, # 5,... Are selected, and the selected camera # 1 is selected. , # 3, # 5,… Using the intra-frame code and the inter-frame prediction code using the temporal correlation between the frames, the image information of the frames arranged in the time axis t direction Encoding process.
[0050] 次に、図 16に示されるように、選択された奇数番目のカメラ # 1, # 3, # 5,…によ つて取得された画像情報に基づいて、選択されたカメラ以外のカメラである偶数番目 のカメラ # 2, # 4,…によって取得された動画像の時間軸 t方向に並ぶフレームに対 応する補間画像を生成する。すなわち、隣接するカメラの撮影画像に基づくフレーム 補間を実行する。このように、隣接するカメラによって (すなわち、隣接する視点から) 撮影された同時刻のフレームに基づいて、補間画像を生成する処理を「視点補間」と 称し、視点補間によって生成された画像を「視点補間画像」と称する。なお、視点補 間に用いる補間方法は、どのような補間方法であってもよぐ本発明の画像情報圧縮 方法を実施する装置に要求される性能又は装置使用者の要望などの各種要因に基 づいて、既知のフレーム補間方法の中から選択すればよい。また、撮影対象の動き に特定の法則性があることがわ力 ている場合には、撮影対象の動きに適した補間 方法を選択すればよい。また、図 16に示される視点補間画像を生成する前又は後に 、 GOP内の最初のフレームに対して、上記第 1の実施形態において説明した視点間 予測符号化を実行して、最初のフレームの情報量を圧縮してもよ 、。 [0050] Next, as shown in FIG. 16, cameras other than the selected camera are selected based on the image information acquired by the selected odd-numbered cameras # 1, # 3, # 5, and so on. Interpolated images corresponding to frames arranged in the time axis t direction of the moving image acquired by the even-numbered cameras # 2, # 4,. That is, a frame based on an image taken by an adjacent camera Perform interpolation. In this way, the process of generating an interpolated image based on a frame at the same time taken by an adjacent camera (that is, from an adjacent viewpoint) is called “viewpoint interpolation”. This is referred to as “viewpoint interpolation image”. Note that the interpolation method used for viewpoint interpolation may be any interpolation method, and may be based on various factors such as the performance required by the apparatus that implements the image information compression method of the present invention or the request of the apparatus user. Therefore, a known frame interpolation method may be selected. In addition, if it is clear that the movement of the shooting target has a specific law, an interpolation method suitable for the movement of the shooting target may be selected. Also, before or after generating the viewpoint interpolation image shown in FIG. 16, the inter-view prediction encoding described in the first embodiment is performed on the first frame in the GOP, and the first frame You can compress the amount of information.
[0051] 次に、図 17に示されるように、選択されたカメラ以外の偶数番目のカメラ # 2, # 4, • · -によって取得された動画像の時間軸 t方向に並ぶフレームの画像情報を、フレー ム内符号ィ匕及びフレーム間の時間的相関を利用したフレーム間予測符号ィ匕を用い て符号化処理する。 [0051] Next, as shown in FIG. 17, the image information of frames arranged in the time axis t direction of the moving image acquired by even-numbered cameras # 2, # 4, • ·-other than the selected camera. Is encoded using the intra-frame code and the inter-frame prediction code using the temporal correlation between frames.
[0052] この際、画像情報符号ィ匕装置 200の選択部 217は、選択されたカメラ以外の偶数 番目のカメラ # 2, # 4,…によって取得された画像であって符号ィ匕対象のフレームと 異なる時刻のフレームの画像を参照して符号化処理する場合と、符号化対象のフレ ームに対応する視点補間画像を参照して符号化処理する場合の中で、最も符号ィ匕 圧縮効率が高くなる場合の符号化処理結果を選択的に出力する。この処理の説明 図を図 18に示す。図 18において、 FR( # 1, n—l)は、カメラ # 1によって取得され た t=n— 1時のフレームであり、 FR( # 1, n)は、カメラ # 1によって取得された t=n 時のフレームであり、 FR( # 1, n+ 1)は、カメラ # 1によって取得された t=n+ 1時の フレームである。また、 FR( # 2, n— 1)は、カメラ # 2によって取得された t=n— 1時 のフレームであり、 FR( # 2, n)は、カメラ # 2によって取得された t=n時のフレーム であり、 FR ( # 2, n+ 1)は、カメラ # 2によって取得された t=n+ 1時のフレームであ る。さらに、 FR ( # 3, n- 1)は、カメラ # 3によって取得された t=n— 1時のフレーム であり、 FR ( # 3, n)は、カメラ # 3によって取得された t=n時のフレームであり、 FR( # 3, n+ 1)は、カメラ # 3によって取得された t=n+ l時のフレームである。また、 FR (#2, n)は、フレーム FR(#2, n)の隣接フレーム FR(#1, n)と FR(#3, n)に基 int [0052] At this time, the selection unit 217 of the image information encoding apparatus 200 is an image acquired by an even-numbered camera # 2, # 4, ... other than the selected camera, and is a frame to be encoded. The coding efficiency is the highest when the encoding process is performed with reference to images of frames at different times and when the encoding process is performed with reference to the viewpoint interpolation image corresponding to the frame to be encoded. The result of the encoding process when the value becomes high is selectively output. An explanatory diagram of this process is shown in FIG. In Figure 18, FR (# 1, n—l) is the frame at t = n—1 obtained by camera # 1, and FR (# 1, n) is t obtained by camera # 1. = n frame, FR (# 1, n + 1) is the frame at t = n + 1 obtained by camera # 1. FR (# 2, n—1) is the frame at t = n—1 obtained by camera # 2, and FR (# 2, n) is t = n obtained by camera # 2. FR (# 2, n + 1) is the frame at t = n + 1 obtained by camera # 2. In addition, FR (# 3, n- 1) is the frame at t = n—1 o'clock acquired by camera # 3 and FR (# 3, n) is t = n acquired by camera # 3 FR (# 3, n + 1) is the frame at t = n + 1 obtained by camera # 3. FR (# 2, n) is based on the frame FR (# 2, n) adjacent frame FR (# 1, n) and FR (# 3, n).
づいて生成された、フレーム FR(#2, n)に対応する視点補間画像である。  It is a viewpoint interpolation image corresponding to the frame FR (# 2, n) generated based on this.
[0053] なお、図 18においては、符号化対象のフレーム FR(#2, n)が、異なる時刻のフレ ームとして、フレーム FR(#2, 11—1)と 1^(#2, n+1)を参照(太い実線で描かれ ている。)している力 参照するフレームはフレーム FR(# 2, n— 1)と FR(#2, n+1 )に限らない。符号ィ匕対象のフレーム FR(# 2, n)力 フレーム FR(#2, n— 1)若し くは FR(#2, n+1)の一方を参照する場合、又は、図示されたフレーム以外の異な る時間のフレームを参照する場合もある。そして、図 5に示される選択部 217は、異な る時間のフレームを参照してフレーム間の時間的相関を利用したフレーム間予測符 号ィ匕を用いて符号ィ匕処理する場合 (例えば、 H.264ZAVCによる処理を実行する 場合)と、符号化対象のフレーム FR( # 2, n)に対応する視点補間画像 FR ( # 2, In FIG. 18, the frame FR (# 2, n) to be encoded has frames FR (# 2, 11-1) and 1 ^ (# 2, n) as frames at different times. The force referring to +1) (drawn with a thick solid line) The frame to be referenced is not limited to the frames FR (# 2, n-1) and FR (# 2, n + 1). Reference frame FR (# 2, n) force When referring to one of the frames FR (# 2, n— 1) or FR (# 2, n + 1), or the frame shown There may also be references to frames at different times. Then, the selection unit 217 shown in FIG. 5 refers to frames at different times and performs code key processing using inter-frame prediction codes that use temporal correlation between frames (for example, H .264ZAVC processing) and the viewpoint interpolation image FR (# 2, n) corresponding to the frame FR (# 2, n) to be encoded
mt n)を参照してフレーム FR (#2, n)の符号化処理をする場合 (例えば、視点補間画 像をフレーム FR(#2, n)の符号化された画像情報とする場合)の中で、最も符号ィ匕 圧縮効率が高くなる場合の符号化処理結果を選択して出力する。  When encoding the frame FR (# 2, n) with reference to (mt n) (for example, when the viewpoint interpolation image is the encoded image information of the frame FR (# 2, n)) Among them, an encoding process result when the code compression efficiency is highest is selected and output.
[0054] このような処理を行う理由は、符号ィ匕対象のフレーム FR(# 2, n)がどの画像に似 ているかという問題を考えた場合に、同じカメラ # 2で撮影した異なる時間のフレーム 力 隣接カメラ # 1、 # 3で撮影した同時刻フレームに基づく視点補間画像 FR ( # 2 [0054] The reason for performing such processing is that when considering the problem of which image the frame FR (# 2, n) to be encoded is similar to, the different time taken by the same camera # 2 Frame force Viewpoint interpolation image FR (# 2 based on the same frame taken by adjacent cameras # 1 and # 3
int int
, n)よりも似ている場合と、隣接カメラ #1、 #3で撮影した同時刻フレームに基づく視 点補間画像 FR ( # 2, n)が同じカメラ # 2で撮影した異なる時間のフレームよりも似 , n), and the interpolated image FR (# 2, n) based on the same time frame taken by adjacent cameras # 1 and # 3 from frames of different time taken by the same camera # 2. Also
mt  mt
ている場合とがあり、いずれの場合であるかは、撮影対象の瞬間の動きによって異な るカゝらである。第 2の実施形態の画像情報圧縮方法は、このように、隣接カメラ #1、 Depending on the momentary movement of the object to be photographed, this is different. In this way, the image information compression method of the second embodiment is the adjacent camera # 1,
# 3で撮影した同時刻フレームに基づく視点補間画像 FR ( # 2, n)力 同じカメラ Viewpoint interpolation image based on same-time frame taken in # 3 FR (# 2, n) force Same camera
int  int
# 2で撮影した異なる時間のフレームよりも符号ィ匕対象のフレーム FR( # 2, n)に似 ている場合があるという点に着目し、視点補間画像 FR (#2, n)をも参照の対象と、  Pay attention to the fact that the frame may be more similar to the target frame FR (# 2, n) than the frame of different time taken in # 2, see also the viewpoint interpolated image FR (# 2, n). Subject of
int  int
複数の圧縮方法の中の最も符号ィ匕圧縮効率の高い方法を選ぶことによって、符号 化圧縮効率を向上させるものである。  By selecting the method with the highest code compression efficiency among the multiple compression methods, the coding compression efficiency is improved.
[0055] 以上に説明したように、第 2の実施形態の画像情報圧縮方法によれば、選択された カメラ以外のカメラ #2, #4,…によって取得された画像情報であって符号ィ匕対象の フレーム FR( # 2, n)と異なる時刻のフレームの画像情報を参照して符号ィ匕処理す る場合と、符号ィ匕対象のフレーム FR (#2, n)に対応する視点補間画像 FR ( # 2, As described above, according to the image information compression method of the second embodiment, image information acquired by cameras # 2, # 4,. Subject When the sign key processing is performed with reference to the image information of the frame at a time different from that of the frame FR (# 2, n), and the viewpoint interpolation image FR ( # 2,
mt n)を参照して符号化処理する場合の中で、最も符号ィ匕圧縮効率が高くなる場合の 符号化処理結果を選択的に出力するので、出力される画像情報の符号化圧縮効率 を向上させることができる。  In the case of encoding processing with reference to mt n), the encoding processing result when the code compression efficiency is the highest is selectively output, so the encoding compression efficiency of the output image information is reduced. Can be improved.
[0056] なお、上記説明においては、選択されたカメラが奇数番目(#1、 #3、 #5、 #7、 ···)のカメラであり、選択されたカメラ以外のカメラが偶数番目(#2、 #4、 #6、 ···)の カメラである場合を説明した力 選択されたカメラが偶数番目のカメラであり、選択さ れたカメラ以外のカメラが奇数番目のカメラであってもよい。また、図 18には、白抜き の矢印で示されるように内挿補間によって視点補間画像を生成する場合を示してい るが、外挿補間によって視点補間画像を生成してもよい。  In the above description, the selected camera is an odd-numbered camera (# 1, # 3, # 5, # 7,...), And a camera other than the selected camera is an even-numbered camera ( # 2, # 4, # 6, etc.) The power explained when the camera is a selected camera The selected camera is an even-numbered camera, and the cameras other than the selected camera are odd-numbered cameras Also good. Further, FIG. 18 shows a case where a viewpoint interpolation image is generated by interpolation as indicated by a white arrow, but a viewpoint interpolation image may be generated by extrapolation interpolation.
[0057] また、選択されたカメラは、偶数番目又は奇数番目に限定されず、例えば、カメラ番 号が #3n— 2で示される 3台に 1台のカメラを選択されたカメラ (具体的には、 #1、 # 4、 #7、 ···)とし、残りのカメラを選択されたカメラ以外のカメラ (具体的には、 #2、 # 3、 #5、 #6、…;)とする等の、他の方法を採用してもよい。例えば、選択されたカメラ の一部のグループは、偶数番目(#2、 #4、 #6、 ···)又は奇数番目(#1、 #3、 #5 、 ···)とし、残りのグループの部分では、カメラ番号が #3n— 2で示される 3台に 1台の カメラを選択されたカメラとし、残りのカメラを選択されたカメラ以外のカメラとすること もできる。また、更に他の変形例としては、選択されたカメラの一部のグループは、力 メラ番号が #3n— 2で示される 3台に 1台のカメラを選択されたカメラとし、残りのカメ ラを選択されたカメラ以外のカメラとし、残りのグループの部分では、偶数番目(#2、 #4、 #6、 ···)又は奇数番目(#1、 #3、 #5、 ···)としてもよい。すなわち、偶数番目 又は奇数番目のカメラを選択されたカメラとする方法と、所定台数毎の 1台を選択さ れたカメラとする方法とを組み合わせた方法を採用することもできる。  [0057] Further, the selected camera is not limited to an even number or an odd number. For example, a camera in which one of three cameras whose camera numbers are indicated by # 3n-2 is selected (specifically, # 1, # 4, # 7, ...) and the remaining cameras and cameras other than the selected camera (specifically, # 2, # 3, # 5, # 6,…;) and Other methods, such as, may be adopted. For example, some groups of selected cameras may be even (# 2, # 4, # 6, ...) or odd (# 1, # 3, # 5, ...) and the rest In the group part, one out of three cameras whose camera numbers are indicated by # 3n-2 can be selected cameras, and the remaining cameras can be other than the selected cameras. As still another modification, some groups of selected cameras have one camera selected as the selected camera with the camera number indicated by # 3n-2 and the remaining cameras. Let the camera be a camera other than the selected camera, and in the remaining group part, even number (# 2, # 4, # 6, ...) or odd number (# 1, # 3, # 5, ...) It is good. That is, it is possible to adopt a method in which an even or odd numbered camera is selected as a selected camera and a method in which one predetermined number of cameras is selected as a selected camera.
[0058] <第 3の実施形態の画像情報圧縮方法の説明 >  <Description of Image Information Compression Method of Third Embodiment>
以下に、本発明の第 3の実施形態の画像情報圧縮方法を説明する。第 3の実施形 態の画像情報圧縮方法は、視点補間を利用するものであり、図 5に示されるマルチフ レームメモリ 213と、符号ィ匕処理部 214の動き予測 ·補償部 215、補間画像生成'補 償部 216、及び選択部 217によって実行される。第 3の実施形態の画像情報圧縮方 法は、上記第 2の実施形態の画像情報圧縮方法の改良型であり、複数の視点補間 画像を参照する点が上記第 2の実施形態の画像情報圧縮方法と相違する。 The image information compression method according to the third embodiment of the present invention will be described below. The image information compression method according to the third embodiment uses viewpoint interpolation. The multiframe memory 213 shown in FIG. 5, the motion prediction / compensation unit 215 of the code key processing unit 214, and interpolation image generation are performed. 'Complement This is executed by the compensation unit 216 and the selection unit 217. The image information compression method of the third embodiment is an improved version of the image information compression method of the second embodiment, and the point of referring to a plurality of viewpoint-interpolated images is that of the image information compression of the second embodiment. It is different from the method.
[0059] 図 19は、本発明の第 3の実施形態の画像情報圧縮方法の説明図である。図 19に お!、て、 FR( # 1, n- 1)は、カメラ # 1によって取得された t=n— 1時のフレームで あり、 FR(# 1, n)は、カメラ # 1によって取得された t=n時のフレームであり、 FR(#FIG. 19 is an explanatory diagram of an image information compression method according to the third embodiment of this invention. In Figure 19, FR (# 1, n-1) is the frame at t = n—1 obtained by camera # 1, and FR (# 1, n) is by camera # 1. The acquired frame at t = n and FR (#
1, n+1)は、カメラ #1によって取得された t=n+l時のフレームである。また、 FR( # 2, n- 1)は、カメラ # 2によって取得された t=n— 1時のフレームであり、 FR( # 2 , n)は、カメラ #2によって取得された t=n時のフレームであり、 FR(# 2, n+1)は、 カメラ #2によって取得された t=n+l時のフレームである。さらに、 FR(#3, n— 1) は、カメラ #3によって取得された t=n—l時のフレームであり、 FR(#3, n)は、カメ ラ # 3によって取得された t=n時のフレームであり、 FR( # 3, n+ 1)は、カメラ # 3に よって取得された t=n+l時のフレームである。また、図 19において、 FR (#2, n 1, n + 1) is the frame at t = n + l obtained by camera # 1. FR (# 2, n- 1) is the frame at t = n—1 obtained by camera # 2 and FR (# 2, n) is t = n obtained by camera # 2. FR (# 2, n + 1) is the frame at t = n + l obtained by camera # 2. Furthermore, FR (# 3, n—1) is the frame at t = n—l obtained by camera # 3, and FR (# 3, n) is t = obtained by camera # 3. The frame at time n, FR (# 3, n + 1) is the frame at time t = n + l obtained by camera # 3. In Fig. 19, FR (# 2, n
intl  intl
)は、第 1の補間方法を用いて生成された、フレーム FR(#2, n)に対応する視点補 間画像 (図では、補間画像 1とする。)であり、 FR (#2, n)は、第 1の補間方法と異  ) Is the viewpoint interpolation image (interpolated image 1 in the figure) corresponding to the frame FR (# 2, n) generated using the first interpolation method, and FR (# 2, n ) Is different from the first interpolation method.
int2  int2
なる第 2の補間方法を用いて生成された、フレーム FR(#2, n)に対応する視点補間 画像(図では、補間画像 2とする。)である。図 19には、 2種類の視点補間画像 FR  Is a viewpoint interpolation image corresponding to the frame FR (# 2, n), which is generated using the second interpolation method. Figure 19 shows two types of viewpoint-interpolated images FR
intl intl
(#2, n)と FR (#2, n)を示しているが、 3種類以上の補間方法を用いることによ (# 2, n) and FR (# 2, n) are shown. By using three or more interpolation methods,
int2  int2
つて 3種類以上の補間画像を生成してもよい。なお、第 1の補間方法、第 2の補間方 法は、特定の方法に限定されるものはなぐ装置に要求される性能、装置使用者が 要求する性能などの各種要因に基づいて決定すればよぐ既知のフレーム補間方法 の中から自由に選択すればよい。また、撮影対象の動きに特定の法則性があること がわカゝつて ヽる場合には、撮影対象の動きに適した補間方法を選択すればよ!ヽ。  Therefore, three or more types of interpolated images may be generated. Note that the first interpolation method and the second interpolation method can be determined based on various factors such as the performance required for a device that is not limited to a specific method and the performance required by the device user. Any known frame interpolation method can be selected freely. In addition, if it is clear that there is a specific law in the movement of the shooting target, you can select an interpolation method suitable for the movement of the shooting target!
[0060] なお、図 19においては、符号化対象のフレーム FR(#2, n)が、異なる時刻のフレ ームとして、フレーム FR(#2, 11—1)と 1^(#2, n+1)を参照(太い実線で描かれ ている。)する場合を示している力 参照するフレームはフレーム FR(# 2, n— 1)と F R(#2, n+1)に限らない。符号ィ匕対象のフレーム FR(# 2, n)が、フレーム FR(#In FIG. 19, the frame FR (# 2, n) to be encoded has frames FR (# 2, 11-1) and 1 ^ (# 2, n) as frames at different times. The force indicating the case of referring to +1) (drawn with a thick solid line) The frame to be referenced is not limited to the frames FR (# 2, n— 1) and FR (# 2, n + 1). The target frame FR (# 2, n) is changed to frame FR (#
2, n— 1)若しくは FR(#2, n+ 1)の一方を参照する場合、又は、図示されたフレー ム以外の異なる時間のフレームを参照する場合もある。そして、図 5に示される選択 部 217は、異なる時間のフレームを参照してフレーム間の時間的相関を利用したフレ ーム間予測符号ィ匕を用いて符号ィ匕処理する場合 (例えば、 H. 264ZAVCによる処 理を実行する場合)と、符号化対象のフレーム FR( # 2, n)に対応する視点補間画 像 FR ( # 2, n)を参照してフレーム FR( # 2, n)の符号化処理をする場合 (例えば intl 2, n— 1) or FR (# 2, n + 1), or the frame shown In some cases, a frame at a different time other than the time frame is referred to. Then, the selection unit 217 shown in FIG. 5 refers to a frame at a different time and performs code key processing using an inter-frame prediction code key that uses temporal correlation between frames (for example, H Frame FR (# 2, n) by referring to the viewpoint interpolation image FR (# 2, n) corresponding to the frame FR (# 2, n) to be encoded. (For example, intl
、視点補間画像 FR ( # 2, n)をフレーム FR ( # 2, n)の符号化された画像情報と  , View-interpolated image FR (# 2, n) and encoded image information of frame FR (# 2, n)
intl  intl
する場合)と、符号化対象のフレーム FR ( # 2, n)に対応する視点補間画像 FR (  The viewpoint interpolation image FR (corresponding to the frame FR (# 2, n) to be encoded)
int2 int2
# 2, n)を参照してフレーム FR ( # 2, n)の符号化処理をする場合 (例えば、視点補 間画像 FR ( # 2, n)をフレーム FR ( # 2, n)の符号化された画像情報とする場合) When encoding frame FR (# 2, n) with reference to # 2, n) (e.g., encoding view complement image FR (# 2, n) to frame FR (# 2, n)) (If the image information is to be
intl  intl
の中で、最も符号化圧縮効率が高くなる場合の符号化処理結果を選択して出力する  Select and output the encoding process result when the encoding compression efficiency is the highest
[0061] このような処理を行う理由は、符号ィ匕対象のフレーム FR( # 2, n)がどの画像に似 ているかという問題を考えた場合に、同じカメラ # 2で撮影した異なる時間のフレーム 力 隣接カメラ # 1、 # 3で撮影した同時刻フレームに基づく視点補間画像 FR ( # [0061] The reason for this processing is that when considering the problem of which image the frame FR (# 2, n) to be encoded is similar to, the different time taken by the same camera # 2 Frame force Viewpoint interpolation image FR (# based on the same frame taken by adjacent cameras # 1 and # 3
intl intl
2, n)及び FR ( # 2, n)よりも似ている場合と、隣接カメラ # 1、 # 3で撮影した同時 2, n) and FR (# 2, n) and when taken with adjacent cameras # 1 and # 3
int2  int2
刻フレームに基づく視点補間画像 FR ( # 2, n)が同じカメラ # 2で撮影した異なる  Interpolated image FR (# 2, n) based on time frame is different with the same camera # 2
intl  intl
時間のフレーム及び視点補間画像 FR ( # 2, n)よりも似て!/、る場合と、隣接カメラ  Similar to the time frame and view-interpolated image FR (# 2, n)!
int2  int2
# 1、 # 3で撮影した同時刻フレームに基づく視点補間画像 FR ( # 2, n)が同じ力  Viewpoint interpolation images FR (# 2, n) based on the same time frames taken in # 1 and # 3 have the same power
int2  int2
メラ # 2で撮影した異なる時間のフレーム及び視点補間画像 FR ( # 2, n)よりも似  Similar to frame of different time taken with Mera # 2 and view-interpolated image FR (# 2, n)
intl  intl
ている場合とがあり、いずれの場合であるかは、撮影対象の瞬間の動きによって異な るカゝらである。第 2の実施形態の画像情報圧縮方法は、このように、隣接カメラ # 1、 # 3で撮影した同時刻フレームに基づく視点補間画像 FR ( # 2, n)又は FR ( #  Depending on the momentary movement of the object to be photographed, this is different. As described above, the image information compression method of the second embodiment is based on the viewpoint interpolation image FR (# 2, n) or FR (# based on the same time frame taken by the adjacent cameras # 1 and # 3.
intl int2 intl int2
2, n)が、同じカメラ # 2で撮影した異なる時間のフレームよりも符号ィ匕対象のフレー ム FR( # 2, n)に似ている場合があるという点に着目し、視点補間画像 FR ( # 2, 2, n) may be more similar to the target frame FR (# 2, n) than the frame of different time taken by the same camera # 2, and the viewpoint interpolation image FR (# 2,
intl n)及び FR ( # 2, n)をも参照の対象とすることによって、符号ィ匕圧縮効率を向上さ  intl n) and FR (# 2, n) are also referenced.
int2  int2
·¾:るものである。  · ¾: It is something.
[0062] 以上説明したように、第 3の実施形態の画像情報圧縮方法によれば、選択された力 メラ以外のカメラ # 2, # 4,…によって取得された画像情報であって符号ィ匕対象のフ レーム FR( # 2, n)と異なる時刻のフレームの画像情報を参照して符号ィ匕処理する 場合と、符号化対象のフレーム FR( # 2, n)に対応する視点補間画像 FR ( # 2, n [0062] As described above, according to the image information compression method of the third embodiment, the image information acquired by the cameras # 2, # 4,. Target file When encoding processing is performed with reference to image information of a frame at a time different from that of frame FR (# 2, n), and viewpoint interpolation image FR (# 2) corresponding to frame FR (# 2, n) to be encoded , n
intl  intl
)を参照して符号化処理する場合と、符号化対象のフレーム FR( # 2, n)に対応する 視点補間画像 FR ( # 2, n)を参照して符号化処理する場合の中で、最も符号ィ匕  ) And the encoding process with reference to the viewpoint interpolation image FR (# 2, n) corresponding to the frame FR (# 2, n) to be encoded. Most sign
int2  int2
圧縮効率が高くなる場合の符号化処理結果を選択的に出力するので、出力される画 像情報の符号ィ匕圧縮効率を向上させることができる。  Since the encoding processing result when the compression efficiency becomes high is selectively output, the encoding efficiency of the output image information can be improved.
[0063] なお、上記説明にお 、ては、選択されたカメラが奇数番目のカメラであり、それ以外 のカメラが偶数番目のカメラである場合を説明したが、選択されたカメラが偶数番目 のカメラであり、それ以外のカメラが奇数番目のカメラとしてもよい。また、図 19には、 白抜きの矢印で示されるように内挿補間によって視点補間画像を生成する場合を示 して 、るが、外挿補間によって視点補間画像を生成してもよ!、。  [0063] In the above description, the case where the selected camera is an odd-numbered camera and the other cameras are even-numbered cameras has been described. However, the selected camera is an even-numbered camera. It is a camera, and other cameras may be odd-numbered cameras. In addition, FIG. 19 shows a case where a viewpoint interpolation image is generated by interpolation as indicated by a white arrow, but a viewpoint interpolation image may be generated by extrapolation! .
[0064] また、選択されたカメラは、偶数番目又は奇数番目に限定されず、例えば、カメラ番 号が # 3n— 2で示される 3台に 1台のカメラを選択されたカメラとし、残りのカメラを選 択されたカメラ以外のカメラとする等の、他の方法を採用してもよい。例えば、選択さ れたカメラの一部のグループは、偶数番目(# 2、 # 4、 # 6、 · ··)又は奇数番目(# 1 、 # 3、 # 5、 · ··)とし、残りのグループの部分では、カメラ番号が # 3n— 2で示される 3台に 1台のカメラを選択されたカメラとし、残りのカメラを選択されたカメラ以外のカメ ラとすることもできる。また、更に他の変形例としては、選択されたカメラの一部のダル ープは、カメラ番号が # 3n— 2で示される 3台に 1台のカメラを選択されたカメラとし、 残りのカメラを選択されたカメラ以外のカメラとし、残りのグループの部分では、偶数 番目(# 2、 # 4、 # 6、 · ··)又は奇数番目(# 1、 # 3、 # 5、 · ··)としてもよい。  [0064] In addition, the selected camera is not limited to an even or odd number. For example, one out of three cameras whose camera numbers are indicated by # 3n-2 are selected cameras, and the remaining cameras are selected. Other methods may be employed, such as using a camera other than the selected camera. For example, some groups of selected cameras may be even (# 2, # 4, # 6, ...) or odd (# 1, # 3, # 5, ...) and the rest In this group part, one camera out of the three cameras whose camera number is indicated by # 3n-2 can be selected cameras, and the remaining cameras can be cameras other than the selected camera. As yet another variation, some of the selected cameras have one camera selected as the camera number # 3n-2, and the remaining cameras. Is the camera other than the selected camera, and the remaining group parts are even (# 2, # 4, # 6, ...) or odd (# 1, # 3, # 5, ...) It is good.
[0065] なお、第 3の実施形態において、上記以外の点は、上記第 2の実施形態の場合と 同じである。  [0065] In the third embodiment, points other than those described above are the same as in the case of the second embodiment.
[0066] <第 4の実施形態の画像情報圧縮方法の説明 >  <Description of Image Information Compression Method of Fourth Embodiment>
以下に、本発明の第 4の実施形態の画像情報圧縮方法を説明する。第 4の実施形 態の画像情報圧縮方法は、視点補間を利用するものであり、図 5に示されるマルチフ レームメモリ 213と、符号ィ匕処理部 214の動き予測 ·補償部 215、補間画像生成'補 償部 216、及び選択部 217によって実行される。第 4の実施形態の画像情報圧縮方 法は、上記第 2の実施形態の画像情報圧縮方法の改良型であり、視点補間画像に 加えて同時刻の隣接画像をも参照する点が上記第 2の実施形態の画像情報圧縮方 法と相違する。 The image information compression method according to the fourth embodiment of the present invention will be described below. The image information compression method according to the fourth embodiment uses viewpoint interpolation. The multiframe memory 213 shown in FIG. 5, the motion prediction / compensation unit 215 of the code key processing unit 214, and interpolation image generation are performed. 'Executed by the compensation unit 216 and the selection unit 217. Image information compression method of the fourth embodiment The method is an improved version of the image information compression method of the second embodiment, and the image information compression method of the second embodiment is different from the viewpoint interpolation image in that it also refers to the adjacent image at the same time. Is different.
[0067] 図 20は、本発明の第 4の実施形態の画像情報圧縮方法の説明図である。図 20に お!、て、 FR( # 1, n- 1)は、カメラ # 1によって取得された t=n— 1時のフレームで あり、 FR(# 1, n)は、カメラ # 1によって取得された t=n時のフレームであり、 FR(# 1, n+1)は、カメラ #1によって取得された t=n+l時のフレームである。また、 FR( # 2, n- 1)は、カメラ # 2によって取得された t=n— 1時のフレームであり、 FR( # 2 , n)は、カメラ #2によって取得された t=n時のフレームであり、 FR(# 2, n+1)は、 カメラ #2によって取得された t=n+l時のフレームである。さらに、 FR(#3, n— 1) は、カメラ #3によって取得された t=n—l時のフレームであり、 FR(#3, n)は、カメ ラ # 3によって取得された t=n時のフレームであり、 FR( # 3, n+ 1)は、カメラ # 3に よって取得された t=n+l時のフレームである。図 20において、 FR (#2, n)は、  FIG. 20 is an explanatory diagram of an image information compression method according to the fourth embodiment of the present invention. In Figure 20, FR (# 1, n-1) is the frame at t = n—1 obtained by camera # 1, and FR (# 1, n) is by camera # 1. The acquired frame at t = n, and FR (# 1, n + 1) is the frame at t = n + l acquired by camera # 1. FR (# 2, n- 1) is the frame at t = n—1 obtained by camera # 2 and FR (# 2, n) is t = n obtained by camera # 2. FR (# 2, n + 1) is the frame at t = n + l obtained by camera # 2. Furthermore, FR (# 3, n—1) is the frame at t = n—l obtained by camera # 3, and FR (# 3, n) is t = obtained by camera # 3. The frame at time n, FR (# 3, n + 1) is the frame at time t = n + l obtained by camera # 3. In Figure 20, FR (# 2, n) is
int  int
符号ィ匕対象のフレーム FR( # 2, n)に対応する視点補間画像である。  This is a viewpoint-interpolated image corresponding to the frame FR (# 2, n) to be encoded.
[0068] なお、図 20においては、符号化対象のフレーム FR( # 2, n)力 異なる時刻のフレ ームとして、フレーム FR(#2, n—i;^FR(#2, n+ 1)を参照(図 20において、太 い実線で描かれている。)している力 参照するフレームはフレーム FR(# 2, n-1) と FR(#2, n+1)に限らない。符号化対象のフレーム FR(#2, n)が、フレーム FR( #2, 11—1)又は?1^(#2, n+1)の一方を参照する場合、又は、図示されたフレー ム以外の異なる時間のフレームを参照する場合もある。 Note that in FIG. 20, the frame FR (# 2, n—i; ^ FR (# 2, n + 1) is used as a frame at a different time to be encoded. (See the bold solid line in Fig. 20) Reference frame is not limited to frames FR (# 2, n-1) and FR (# 2, n + 1). Frame FR (# 2, n) refer to one of frame FR (# 2, 11-1) or? 1 ^ (# 2, n + 1), or other than the frame shown In some cases, frames of different times are referred to.
[0069] そして、図 5に示される選択部 217は、異なる時間のフレームを参照してフレーム間 の時間的相関を利用したフレーム間予測符号ィ匕を用いて符号ィ匕処理する場合 (例え ば、 H.264ZAVCによる処理を実行する場合)と、符号化対象のフレーム FR(#2 , n)に対応する視点補間画像 FR ( # 2, n)を参照してフレーム FR( # 2, n)の符号 [0069] Then, the selection unit 217 shown in Fig. 5 refers to frames at different times and performs code key processing using an inter-frame prediction code key that uses temporal correlation between frames (for example, H.264ZAVC), and frame FR (# 2, n) with reference to viewpoint interpolation image FR (# 2, n) corresponding to frame FR (# 2, n) to be encoded Sign of
mt  mt
化処理をする場合と、符号化対象のフレーム FR(#2, n)に隣接するフレーム FR( #1, n)又は FR(#3, n)を参照してフレーム FR(#2, n)の符号化処理をする場合 (例えば、 H.264ZAVCによる処理と同じアルゴリズムを空間軸 S方向に適用する 場合)の中で、最も符号化圧縮効率が高くなる場合の符号化処理結果を選択して出 力する。 Frame FR (# 2, n) with reference to frame FR (# 1, n) or FR (# 3, n) adjacent to the frame FR (# 2, n) to be encoded. (For example, when applying the same algorithm as the processing by H.264ZAVC in the spatial axis S direction), select the encoding processing result for the highest encoding compression efficiency. Out To help.
[0070] このような処理を行う理由は、符号化対象のフレームがどの画像に似ているかという 問題を考えた場合に、同じカメラ # 2で撮影した異なる時間のフレームが最もよく似て いる場合と、隣接カメラ # 1、 # 3で撮影した同時刻フレームに基づく視点補間画像 が最もよく似ている場合と、隣接カメラ # 1、 # 3で撮影した同時刻フレームが最もよく 似ている場合とがあり、いずれの場合であるかは、撮影対象の瞬間の動きによって異 なる力もである。第 4の実施形態の画像情報圧縮方法は、この点に着目して、同じ力 メラで撮影した異なる時間のフレーム、隣接カメラで撮影した同時刻フレームに基づ く視点補間画像、隣接カメラで撮影した同時刻フレームのうちの、最も似ている画像 を用いて、符号化対象フレームの符号化を行っている。  [0070] The reason for this processing is that when considering the problem of which frame the encoding target frame is similar to, the frames with the same time taken by the same camera # 2 are most similar When the viewpoint interpolation images based on the same time frames taken by adjacent cameras # 1 and # 3 are the most similar, and when the same time frames taken by adjacent cameras # 1 and # 3 are the most similar In either case, there are also different forces depending on the instantaneous movement of the subject. The image information compression method of the fourth embodiment pays attention to this point, frames at different times taken with the same power camera, viewpoint interpolation images based on the same time frames taken with adjacent cameras, and images taken with adjacent cameras. The encoding target frame is encoded using the most similar image of the same time frames.
[0071] 以上説明したように、第 4の実施形態の画像情報圧縮方法によれば、選択された力 メラ以外のカメラ # 2, # 4,…によって取得された画像情報であって符号ィ匕対象のフ レーム FR( # 2, n)と異なる時刻のフレームの画像情報を参照して符号ィ匕処理する 場合と、符号化対象のフレーム FR( # 2, n)に対応する視点補間画像 FR ( # 2, n  [0071] As described above, according to the image information compression method of the fourth embodiment, the image information acquired by the cameras # 2, # 4,. When encoding processing is performed with reference to image information of a frame at a time different from the target frame FR (# 2, n), and the viewpoint interpolation image FR corresponding to the encoding target frame FR (# 2, n). (# 2, n
mt  mt
)を参照して符号化処理する場合と、符号化対象のフレーム FR( # 2, n)に隣接する フレーム FR( # 1, n)及び FR ( # 3, n)を参照して符号化処理する場合の中で、最も 符号ィ匕圧縮効率が高くなる場合の符号ィ匕処理結果を選択的に出力するので、出力 される画像情報の符号ィ匕圧縮効率を向上させることができる。  ) And encoding processing with reference to frames FR (# 1, n) and FR (# 3, n) adjacent to the encoding target frame FR (# 2, n). In this case, since the code key processing result when the code key compression efficiency becomes the highest is selectively output, the code key compression efficiency of the output image information can be improved.
[0072] なお、上記説明にお 、ては、選択されたカメラが奇数番目のカメラであり、それ以外 のカメラが偶数番目のカメラである場合を説明したが、選択されたカメラが偶数番目 のカメラであり、それ以外のカメラが奇数番目のカメラとしてもよい。また、図 20には、 白抜きの矢印で示されるように内挿補間によって視点補間画像を生成する場合を示 して 、るが、外挿補間によって視点補間画像を生成してもよ!、。  [0072] In the above description, the case where the selected camera is an odd-numbered camera and the other cameras are even-numbered cameras has been described. However, the selected camera is an even-numbered camera. It is a camera, and other cameras may be odd-numbered cameras. In addition, FIG. 20 shows a case where a viewpoint interpolation image is generated by interpolation as indicated by a white arrow, but a viewpoint interpolation image may be generated by extrapolation! .
[0073] また、選択されたカメラは、偶数番目又は奇数番目に限定されず、例えば、カメラ番 号が # 3n— 2で示される 3台に 1台のカメラを選択されたカメラとし、残りのカメラを選 択されたカメラ以外のカメラとする等の、他の方法を採用してもよい。例えば、選択さ れたカメラの一部のグループは、偶数番目(# 2、 # 4、 # 6、 ···)又は奇数番目(# 1 、 # 3、 # 5、 ···)とし、残りのグループの部分では、カメラ番号が # 3n— 2で示される 3台に 1台のカメラを選択されたカメラとし、残りのカメラを選択されたカメラ以外のカメ ラとすることもできる。また、更に他の変形例としては、選択されたカメラの一部のダル ープは、カメラ番号が # 3n— 2で示される 3台に 1台のカメラを選択されたカメラとし、 残りのカメラを選択されたカメラ以外のカメラとし、残りのグループの部分では、偶数 番目(# 2、 # 4、 # 6、···)又は奇数番目(# 1、 # 3、 # 5、···)としてもよい。 [0073] Further, the selected camera is not limited to an even number or an odd number. For example, one out of three cameras whose camera numbers are indicated by # 3n-2 are selected cameras, and the remaining cameras are selected. Other methods may be employed, such as using a camera other than the selected camera. For example, some groups of selected cameras may be even (# 2, # 4, # 6, ...) or odd (# 1, # 3, # 5, ...) and the rest In the group part, the camera number is indicated by # 3n— 2. One out of three cameras can be the selected camera, and the remaining cameras can be cameras other than the selected camera. As yet another variation, some of the selected cameras have one camera selected as the camera number # 3n-2, and the remaining cameras. Let the camera other than the selected camera be an even number (# 2, # 4, # 6, ...) or odd number (# 1, # 3, # 5, ...) in the remaining group parts It is good.
[0074] さらに、第 4の実施形態に、第 3の実施形態を組み合わせて、視点補間画像を複数 種類生成してもよい。 [0074] Furthermore, a plurality of types of viewpoint interpolation images may be generated by combining the fourth embodiment with the third embodiment.
[0075] なお、第 4の実施形態において、上記以外の点は、上記第 2の実施形態の場合と 同じである。  [0075] In the fourth embodiment, points other than the above are the same as those in the second embodiment.
[0076] <第 5の実施形態の画像情報圧縮方法の説明 >  <Description of Image Information Compression Method of Fifth Embodiment>
以下に、本発明の第 5の実施形態の画像情報圧縮方法を説明する。第 5の実施形 態の画像情報圧縮方法は、第 1の実施形態の画像情報圧縮方法に改良を加えたも のである。第 5の実施形態の画像情報圧縮方法は、 GOP内の時間的に最初のフレ ームに対して行う視点間予測符号ィ匕に際して、補間画像をも参照する点が、第 1の 実施形態の画像情報圧縮方法と相違する。第 5の実施形態の画像情報圧縮方法は 、図 5に示されるマルチフレームメモリ 213と、符号ィ匕処理部 214の動き予測'補償部 215、補間画像生成'補償部 216、及び選択部 217によって実行される。  The image information compression method according to the fifth embodiment of the present invention will be described below. The image information compression method of the fifth embodiment is an improvement over the image information compression method of the first embodiment. The image information compression method of the fifth embodiment is that the interpolated image is also referred to when the inter-view prediction code for the first temporal frame in the GOP is referred to. This is different from the image information compression method. The image information compression method of the fifth embodiment includes a multi-frame memory 213 shown in FIG. 5, a motion prediction 'compensation unit 215, an interpolated image generation' compensation unit 216, and a selection unit 217. Executed.
[0077] 図 21から図 26までは、本発明の第 5の実施形態の画像情報圧縮方法の説明図で ある。図 21から図 26までにおいて、 tは、時間軸方向を示し、 Sは、カメラの配列順又 はカメラの配列方向に対応する空間軸である。また、図には、カメラ # 1〜# 9につい て示すが、カメラの数は 9台に限定されない。また、図において、 Iは、 Iピクチャ、 Pは 、 Pピクチャ、 Bは、 Bピクチャを示す。また、 Pは、補間画像をも参照した Pピクチャ)、 Bは、補間画像をも参照した Bピクチャを示す。  FIGS. 21 to 26 are explanatory diagrams of an image information compression method according to the fifth embodiment of the present invention. In FIG. 21 to FIG. 26, t indicates a time axis direction, and S is a spatial axis corresponding to the camera arrangement order or the camera arrangement direction. The figure shows cameras # 1 to # 9, but the number of cameras is not limited to nine. In the figure, I indicates an I picture, P indicates a P picture, and B indicates a B picture. P is a P picture that also refers to the interpolated image), and B is a B picture that also refers to the interpolated image.
[0078] 第 5の実施形態の画像情報圧縮方法においては、先ず、図 21に示されるように、 複数台のカメラによって取得された動画像の時間軸 t方向に並ぶフレームの画像情 報を、フレーム内符号ィ匕及びフレーム間の時間的相関を利用したフレーム間予測符 号ィ匕によって符号ィ匕処理 (例えば、 H. 264ZAVCによる処理)する。その結果、例 えば、図 21に示されるように、動画像のフレームの画像情報が得られる。時間軸 t方 向に並ぶ所定数のフレームによって構成される GOP内の時間的に最初のフレーム の符号化処理は、フレーム内符号ィ匕によって行われており、最初のフレームは Iピク チヤである。また、同じ GOP内の最初のフレーム以外のフレームの符号化処理は、 時間的相関を利用したフレーム間予測符号ィ匕によって行われる。 In the image information compression method of the fifth embodiment, first, as shown in FIG. 21, image information of frames arranged in the time axis t direction of moving images acquired by a plurality of cameras is obtained. Code code processing (for example, processing by H. 264ZAVC) is performed using an intra-frame code code and an inter-frame prediction code key that uses temporal correlation between frames. As a result, for example, as shown in FIG. 21, image information of a moving image frame is obtained. Time axis t direction The encoding process of the first frame in time within the GOP, which is composed of a predetermined number of frames arranged in the direction, is performed by the intraframe code 匕, and the first frame is the I picture. In addition, the encoding process for frames other than the first frame in the same GOP is performed by inter-frame prediction codes using temporal correlation.
[0079] 次に、図 22に示されるように、 GOP内の最初のフレームにつ!/、て、空間軸 S方向に 第 1の実施形態の画像情報圧縮方法で説明した視点間予測符号ィ匕処理、すなわち 、カメラの配列順に並ぶ同時刻のフレームの画像情報を、同時刻のフレーム間の相 関を利用したフレーム間予測符号化によって符号化処理する。図 21及び図 22の処 理は、上記第 1の実施形態の場合と同じである。  [0079] Next, as shown in FIG. 22, for the first frame in the GOP, in the direction of the spatial axis S, the inter-view prediction code described in the image information compression method of the first embodiment is used.匕 processing, that is, image information of frames at the same time arranged in the order of camera arrangement is encoded by interframe predictive coding using the correlation between frames at the same time. The processing in FIGS. 21 and 22 is the same as that in the first embodiment.
[0080] 次に、図 23に示されるように、 GOP内の最初のフレームから、 Iピクチャであるフレ ーム FR(#1, 1)を第 1の基準フレームとして選択し、 Pピクチャであるフレーム FR( #3, 1)を第 2の基準フレームとして選択する。フレーム FR(#1, 1)とフレーム FR( #3, 1)に基づく補間 (外挿)によって、視点補間画像 FR を生成する。次に、カメラ  Next, as shown in FIG. 23, from the first frame in the GOP, the frame FR (# 1, 1) that is an I picture is selected as the first reference frame, and is a P picture. Select frame FR (# 3, 1) as the second reference frame. A viewpoint interpolation image FR is generated by interpolation (extrapolation) based on the frame FR (# 1, 1) and the frame FR (# 3, 1). Next, the camera
int  int
の配列順に並ぶ同時刻のフレームの中の符号化対象のフレームと異なるフレームの 画像情報を参照して符号化処理 (第 1の実施形態の視点間予測符号化)する場合と Encoding processing (inter-view prediction encoding according to the first embodiment) with reference to image information of a frame different from the encoding target frame in the same time frames arranged in the order of
、符号化対象のフレームに対応する視点補間画像 FR を参照して符号化処理する , Refer to the viewpoint interpolation image FR corresponding to the encoding target frame, and perform encoding processing
int  int
場合の中で、最も符号化圧縮効率が高くなる場合の符号化処理結果を、符号化対 象のフレーム (例えば、 FR(#5, 1))の符号ィ匕された画像情報、例えば、 Piピクチャ とする。次に、フレーム FR(#3, 1)の画像と、生成された Piピクチャに基づく外揷補 間によつて、視点補間画像 FR を順次生成し、同様の処理を繰り返す。ここで、視点  In this case, the encoding processing result when the encoding compression efficiency is the highest is the image information encoded in the encoding target frame (e.g., FR (# 5, 1)), e.g., Pi Let it be a picture. Next, the viewpoint interpolation image FR is sequentially generated from the image of the frame FR (# 3, 1) and the external interpolation based on the generated Pi picture, and the same processing is repeated. Where perspective
int  int
補間画像は、図 24に示されるように、異なる補間方法によってフレーム FR (#n+  As shown in Figure 24, the interpolated image is generated by frame FR (# n +
intl  intl
4, 1)及び FR (#n+4, 1)のように複数種類作成してもよい。さらに、図 24に示さ  4, 1) and FR (# n + 4, 1) may be created. In addition, as shown in Figure 24
int2  int2
れるように、 GOP内の最初のフレームにおいて、 Iピクチャ、 Pピクチャ、 Piピクチャが 生成された後に、補間フレーム FR (#n+l, 1)及び FR (#n+l, 1)、又は、  In the first frame in the GOP, after the I picture, P picture, and Pi picture are generated, the interpolated frames FR (# n + l, 1) and FR (# n + l, 1), or
intl mt2  intl mt2
補間フレーム FR (#n+3, 1)及び FR ( #n+3, 1)を作成する。次に、カメラの  Create interpolation frames FR (# n + 3, 1) and FR (# n + 3, 1). Next, the camera
mtl mt2  mtl mt2
配列順に並ぶ同時刻のフレームの中の符号化対象のフレームと異なるフレームの画 像情報を参照して符号化処理 (第 1の実施形態の視点間予測符号化)する場合と、 符号ィ匕対象のフレームに対応する視点補間画像 FR (#n+l, 1)若しくは FR ( # n+ l, 1)、又は、補間フレーム FR ( # n+ 3, 1)若しくは FR ( # n+ 3, 1) FR When encoding processing (inter-view prediction encoding according to the first embodiment) with reference to image information of a frame different from the encoding target frame in the frames at the same time arranged in the arrangement order, and encoding target Viewpoint interpolation image FR (# n + l, 1) or FR ( # n + l, 1) or interpolation frame FR (# n + 3, 1) or FR (# n + 3, 1) FR
intl int2  intl int2
mtを参照して符号化処理する場合の中で、最も符号化圧縮効率が高くなる場合の符 号化処理結果を、符号ィ匕対象のフレーム (例えば、 FR ( # 4, 1) )の符号化された画 像情報、例えば、 Biピクチャとする。  Among the encoding processing with reference to mt, the encoding processing result when the encoding compression efficiency becomes the highest is the code of the target frame (for example, FR (# 4, 1)). It is assumed that the converted image information is, for example, a Bi picture.
[0081] 次に、カメラの配列順に並ぶ同時刻のフレームの中の符号ィ匕対象のフレームと異 なるフレームの画像情報を参照して符号化処理する場合と、符号化対象のフレーム に対応する視点補間画像を参照して符号化処理する場合の中で、最も符号化圧縮 効率が高くなる場合の符号化処理結果を選択的に出力する。その結果、図 25に示 されるように、 t= l時の最初のフレームが、符号化効率の最も高い方法で符号化さ れる。 [0081] Next, encoding processing is performed with reference to image information of a frame different from the encoding target frame in frames at the same time arranged in the order of camera arrangement, and corresponds to the encoding target frame. In the case of encoding processing with reference to the viewpoint interpolation image, the encoding processing result when the encoding compression efficiency is highest is selectively output. As a result, as shown in FIG. 25, the first frame at t = l is encoded by the method with the highest encoding efficiency.
[0082] 次に、図 6に示されるように、次の GOPに対して同様の処理を繰り返す。  Next, as shown in FIG. 6, the same processing is repeated for the next GOP.
[0083] このような処理を行う理由は、 GOP内の最初のフレームお!/、て、符号化対象のフレ ームがどの画像に似ているかという問題を考えた場合に、隣接カメラで撮影した同時 刻フレームに基づいて第 1の実施形態の視点間予測符号ィ匕を実施することによって 符号化された画像が最もよく似ている場合と、隣接カメラで撮影した基準フレームに 基づ 、て作成された補間画像が最もよく似て!/、る場合とがあり、 V、ずれの場合である かは、撮影対象の瞬間の動きによって異なるからである。第 5の実施形態の画像情報 圧縮方法は、この点に着目して、隣接カメラで撮影した同時刻フレームに基づいて第 1の実施形態の視点間予測符号ィ匕を実施することによって符号化された画像が最も よく似て 、る場合と、隣接カメラで撮影した基準フレームに基づ 、て作成された補間 画像が最もよく似ている場合のうちの、最も似ている画像を用いて、符号化対象フレ ームの符号化を行って 、る。 [0083] The reason for this processing is that the first frame in the GOP! / And the problem of which image the encoding target frame looks like are taken by the adjacent camera. By performing the inter-view prediction code の of the first embodiment based on the simultaneous frames, the case where the encoded images are most similar to each other and the reference frames taken by adjacent cameras are used. The created interpolated image may be the most similar! /, And the difference between the V and the deviation depends on the instantaneous movement of the subject. Focusing on this point, the image information compression method of the fifth embodiment is encoded by performing the inter-view prediction code の of the first embodiment based on the same-time frame captured by the adjacent camera. If the image is the most similar, and if the interpolated image created based on the reference frame taken by the adjacent camera is the most similar, The target frame is encoded.
[0084] 以上説明したように、第 5の実施形態の画像情報圧縮方法によれば、第 1の実施形 態の視点間予測符号ィ匕を実施することによって符号化された画像が最もよく似てい る場合と、隣接カメラで撮影した基準フレームに基づ ヽて作成された補間画像が最も よく似ている場合のうちの、最も似ている画像を用いて、符号化対象フレームの符号 化を行っているので、出力される画像情報の符号ィ匕圧縮効率を向上させることができ る。 [0085] なお、第 5の実施形態において、上記以外の点は、上記第 1の実施形態の場合と 同じである。 [0084] As described above, according to the image information compression method of the fifth embodiment, the image encoded by performing the inter-view prediction code in the first embodiment is most similar. Encoding the frame to be encoded using the most similar image between the case where the interpolated image created based on the reference frame taken by the adjacent camera is the most similar As a result, it is possible to improve the code compression efficiency of the output image information. Note that in the fifth embodiment, points other than those described above are the same as in the case of the first embodiment.
[0086] <第 6の実施形態の画像情報圧縮方法の説明 >  <Explanation of Image Information Compression Method of Sixth Embodiment>
以下に、本発明の第 6の実施形態の画像情報圧縮方法を説明する。図 27は、本発 明の第 6の実施形態の画像情報圧縮方法において参照する光線空間の水平断面 の一例を示す図である。また、図 28は、本発明の第 6の実施形態の画像情報圧縮方 法における動きベクトルの予測方法の説明図である。また、図 29は、本発明の第 6の 実施形態の比較例としての H. 264ZAVCにおける動きベクトルの予測方法の説明 図である。  The image information compression method according to the sixth embodiment of the present invention will be described below. FIG. 27 is a diagram showing an example of a horizontal section of a light space referred to in the image information compression method of the sixth embodiment of the present invention. FIG. 28 is an explanatory diagram of a motion vector prediction method in the image information compression method according to the sixth embodiment of the present invention. FIG. 29 is an explanatory diagram of a motion vector prediction method in H.264ZAVC as a comparative example of the sixth embodiment of the present invention.
[0087] 第 6の実施形態の画像情報圧縮方法は、第 1の実施形態の画像情報圧縮方法に 改良を加えたものである。第 6の実施形態の画像情報圧縮方法は、複数台のカメラ が互いに平行に 1列に直線配置されていることを前提とする。第 6の実施形態の画像 情報圧縮方法は、カメラの配列順に並ぶ同時刻のフレームの画像情報を、同時刻の フレーム間の相関を利用したフレーム間予測符号ィ匕によって符号ィ匕処理するステツ プ (第 1の実施形態における視点間予測符号ィ匕のステップ)における動き補償予測 符号化にぉ 、て用いられる動きベクトルを、光線空間を水平方向に切断したときの水 平断面画像(EPI :Epipolar Plane Image)に現れる直線に基づいて求めることを 特徴としている。第 6の実施形態の画像情報圧縮方法は、図 5に示されるマルチフレ ームメモリ 213と、符号ィ匕処理部 214の動き予測'補償部 215によって実行される。  [0087] The image information compression method of the sixth embodiment is an improvement over the image information compression method of the first embodiment. The image information compression method of the sixth embodiment is based on the premise that a plurality of cameras are arranged in a straight line in parallel with each other. The image information compression method according to the sixth embodiment is a step in which image information of frames at the same time arranged in the order of camera arrangement is subjected to code processing using an inter-frame prediction code using correlation between frames at the same time. The motion vector used in the motion compensated prediction encoding (step of inter-view prediction code in the first embodiment) is a horizontal cross-sectional image (EPI: Epipolar) when the ray space is cut horizontally. It is characterized by being obtained based on a straight line appearing in the Plane Image). The image information compression method according to the sixth embodiment is executed by the multiframe memory 213 shown in FIG. 5 and the motion prediction / compensation unit 215 of the code key processing unit 214.
[0088] H. 264ZAVCによる画像の符号化では、図 29に示されるように、カメラによって 取得された動画像のフレーム FR内の該当ブロック BL に隣接する符号化済の隣接 [0088] In the encoding of an image by H.264ZAVC, as shown in FIG. 29, an encoded adjacent region adjacent to the corresponding block BL in the frame FR of the moving image acquired by the camera is used.
en  en
ブロック BL , BL , BL 力も動きベクトルを予測している。この方法は、該当ブ  Blocks BL, BL and BL forces also predict motion vectors. This method is
neil nei2 nei3  neil nei2 nei3
ロック BL と参照ブロック BL , BL , BL とが大きく異なる場合に、多くのビット  Many bits when the lock BL and the reference blocks BL, BL, BL are very different
en neii nei2 nei3  en neii nei2 nei3
を発生させてしまう欠点がある。  Has the disadvantage of generating
[0089] そこで、第 6の実施形態の画像情報圧縮方法にぉ 、ては、複数台のカメラが互!ヽ に平行に 1列に直線配置されており、複数台のカメラによって取得された動画像の同 時刻のフレームを、複数台のカメラの配列順に互いに平行に立てて並べることによつ て光線空間を構成した場合には、光線空間における水平断面構造が直線構造の集 まりで表現される性質を利用する。この性質は、フレームの動きが、連続して起こる、 且つ、動きが重複する領域(図 27において直線が交差する領域)では、直線の傾き の大きい直線で表現されている点を優先する。傾きの大きい直線は、 3次元空間中 の手前の点に相当する。 Therefore, according to the image information compression method of the sixth embodiment, a plurality of cameras are linearly arranged in a line in parallel with each other, and a moving image acquired by the plurality of cameras is used. When the light space is configured by arranging frames at the same time in parallel with each other in the arrangement order of a plurality of cameras, the horizontal sectional structure in the light space is a collection of linear structures. Take advantage of the nature represented by Mari. This property gives priority to the point represented by a straight line with a large slope of the straight line in the region where the motion of the frame occurs continuously and where the motion overlaps (the region where the straight lines intersect in FIG. 27). A straight line with a large slope corresponds to the point in the front in 3D space.
[0090] ここで、複数台のカメラの配列順に互いに平行に立てて並べることによって光線空 間を構成した場合には、光線空間における水平断面構造が直線構造の集まりで表 現される性質を、図 3 (a)及び (b)と図 30 (a)及び (b)を参考にしながら説明する。縦 方向の視差( Φ )を無視して、 yが一定である断面を考えて、図 30 (a)に示されるよう に、 (X, Z)を実空間における一点 Pの座標とし、 X, z, 0を光線が基準面 106を通過 する位置及び角度とする。このとき、 X=x+Z'tan Θの関係が成り立つ。すなわち、 実空間で一点を通る光線群は光線空間の水平断面 (y=—定の断面)上では直線に 並ぶという特徴を持っている。図 30 (b)は、実空間上の点 Xを光線空間の水平断面 上に示している。 [0090] Here, in the case where the light space is configured by arranging them in parallel with each other in the arrangement order of the plurality of cameras, the property that the horizontal sectional structure in the light space is expressed as a collection of linear structures, Please refer to Fig. 3 (a) and (b) and Fig. 30 (a) and (b). Considering the cross section where y is constant, ignoring the vertical parallax (Φ), as shown in Fig. 30 (a), let (X, Z) be the coordinates of one point P in real space, Let z, 0 be the position and angle at which the ray passes through the reference plane 106. At this time, the relationship X = x + Z'tan Θ holds. In other words, a group of rays passing through a point in real space has a feature that they are arranged in a straight line on the horizontal section (y = -constant section) of the ray space. Figure 30 (b) shows a point X in real space on the horizontal section of the ray space.
[0091] このように、第 6の実施形態の画像情報圧縮方法においては、図 29に示されるよう に、隣接ブロックの動きベクトルと用いないので、適切な動きベクトルを予測できる。 第 6の実施形態によれば、適切な動きベクトルを予測できるので、画像圧縮効率を向 上させることができる。  Thus, in the image information compression method of the sixth embodiment, as shown in FIG. 29, since it is not used with the motion vector of the adjacent block, an appropriate motion vector can be predicted. According to the sixth embodiment, since an appropriate motion vector can be predicted, the image compression efficiency can be improved.
[0092] なお、以上の説明においては、第 6の実施形態の画像情報圧縮方法を第 1の実施 形態に適用した場合を説明したが、第 6の実施形態の画像情報圧縮方法を、第 2〜 第 5の実施形態に適用することもできる。  In the above description, the case where the image information compression method of the sixth embodiment is applied to the first embodiment has been described. However, the image information compression method of the sixth embodiment is the second It can also be applied to the fifth embodiment.
[0093] <第 7の実施形態の FTVシステムの説明 > [0093] <Explanation of FTV System of Seventh Embodiment>
図 30は、本発明の第 7の実施形態の FTVシステムの基本的な構成を概念的に示 す図である。図 30において、図 1に示される構成と同一又は対応する構成には、同じ 符号を付す。  FIG. 30 is a diagram conceptually showing the basic structure of the FTV system according to the seventh embodiment of the present invention. In FIG. 30, the same or corresponding elements as those shown in FIG.
[0094] 第 7の実施形態の FTVシステムは、送信側の装置 250と、受信側の装置 350とが 離れた場所にあり、送信側の装置 250から受信側の装置 350まで、例えば、インター ネットなどを用いて、 FTV信号を伝送するシステムである。  [0094] In the FTV system of the seventh embodiment, the transmission-side device 250 and the reception-side device 350 are separated from each other, and from the transmission-side device 250 to the reception-side device 350, for example, the Internet It is a system that transmits FTV signals using, for example.
[0095] 図 30に示されるように、送信側の装置 250は、複数台のカメラ(図 30には、符号 10 2〜102の 5台を示すが、実際にはより多くのカメラが用いられる。)と、複数台の力[0095] As shown in FIG. 30, the transmission-side apparatus 250 includes a plurality of cameras (in FIG. Although five of 2 to 102 are shown, more cameras are actually used. ) And the power of multiple units
1 5 1 5
メラによって取得された映像情報を圧縮符号ィ匕する、上記実施の形態 1〜6において 説明された構成及び機能を有する画像情報符号化装置 200とを備えて ヽる。画像情 報符号ィ匕装置 200で圧縮符号化された画像情報は、図示しない通信装置によって 受信側の装置 350に送られる。  An image information encoding device 200 having the configuration and functions described in the first to sixth embodiments, which compresses video information acquired by a camera, is provided. The image information compressed and encoded by the image information encoding device 200 is sent to the receiving device 350 by a communication device (not shown).
[0096] また、受信側の装置 350は、図示しな 、受信装置と、上記実施の形態 1にお!、て説 明された画像情報復号装置 300と、画像情報復号装置 300からの出力信号に基づ いて光線空間 103を形成し、ユーザーインターフェース 104から入力された視点位 置に応じて光線空間 103から断面を抽出して表示する。  In addition, receiving-side apparatus 350 includes, as shown, a receiving apparatus, image information decoding apparatus 300 described in Embodiment 1 above, and an output signal from image information decoding apparatus 300. Then, a light ray space 103 is formed on the basis of the information, and a cross section is extracted from the light ray space 103 according to the viewpoint position input from the user interface 104 and displayed.
[0097] 図 3 (a) , (b)及び図 4 (a)〜(c)に示されるように、例えば、光線空間法を用いること により、光線空間 103から任意の面を切り取ることによって、実空間における水平方 向の任意の視点から見た画像を生成することが可能である。例えば、図 4 (a)に示さ れる光線空間 103から断面 103aを切り出すと、図 4 (b)に示されるような画像が生成 され、図 4 (a)に示される光線空間 103から断面 103bを切り出すと、図 4 (c)に示され るような画像が生成される。  [0097] As shown in FIGS. 3 (a), (b) and FIGS. 4 (a) to (c), for example, by using the ray space method, by cutting an arbitrary surface from the ray space 103, It is possible to generate an image viewed from an arbitrary viewpoint in the horizontal direction in real space. For example, when the cross section 103a is cut out from the ray space 103 shown in FIG. 4 (a), an image as shown in FIG. 4 (b) is generated, and the cross section 103b is drawn from the ray space 103 shown in FIG. When cut out, the image shown in Fig. 4 (c) is generated.
[0098] 以上説明したように、第 7の実施形態の FTVシステムにおいては、上記第 1〜第 6 の実施形態で説明された画像情報圧縮方法を用いて ヽるので、 FTVシステムにお ける FTV信号の符号ィ匕圧縮効率を向上させることができる。  [0098] As described above, in the FTV system of the seventh embodiment, since the image information compression method described in the first to sixth embodiments can be used, the FTV in the FTV system can be used. The sign key compression efficiency of the signal can be improved.

Claims

請求の範囲 The scope of the claims
[1] 3台以上のカメラの中力も選択された 2台以上のカメラによって取得された動画像の 時間軸方向に並ぶフレームの画像情報を、フレーム内符号化及びフレーム間の時 間的相関を利用したフレーム間予測符号ィ匕を用いて符号ィ匕処理するステップと、 前記選択されたカメラによって取得された画像情報に基づ 、て、前記選択された力 メラ以外のカメラによって取得された動画像の時間軸方向に並ぶフレームに対応す る第 1の視点補間画像を生成するステップと、  [1] Three or more cameras' medium power was also selected. Image information of frames arranged in the time axis direction of moving images obtained by two or more cameras was encoded with intra-frame coding and temporal correlation between frames. A video obtained by a camera other than the selected camera based on the step of performing the code computation using the inter-frame prediction code used, and the image information obtained by the selected camera; Generating a first viewpoint interpolated image corresponding to frames aligned in the time axis direction of the image;
前記選択されたカメラ以外のカメラによって取得された動画像の時間軸方向に並ぶ フレームの画像情報を符号ィ匕処理するステップと  Encoding the image information of frames arranged in the time axis direction of a moving image acquired by a camera other than the selected camera; and
を有し、  Have
前記選択されたカメラ以外のカメラによって取得された動画像の時間軸方向に並ぶ フレームの画像情報を符号ィ匕処理する前記ステップが、前記選択されたカメラ以外 のカメラによって取得された画像情報であって符号ィ匕対象のフレームと異なる時刻の フレームの画像情報を参照して符号化処理する場合と、前記符号化対象のフレーム に対応する前記第 1の視点補間画像を参照して符号化処理する場合の中で、最も符 号化圧縮効率が高くなる場合の符号化処理結果を選択的に出力するステップを含 む  The step of encoding and processing image information of frames arranged in a time axis direction of a moving image acquired by a camera other than the selected camera is image information acquired by a camera other than the selected camera. Encoding processing with reference to image information of a frame at a time different from the encoding target frame, and encoding processing with reference to the first viewpoint interpolated image corresponding to the encoding target frame In some cases, the method includes a step of selectively outputting an encoding processing result when the encoding compression efficiency is highest.
ことを特徴とする画像情報圧縮方法。  A method of compressing image information.
[2] 前記第 1の視点補間画像を生成する前記ステップにおいて、前記第 1の視点補間 画像が、 1つのフレームに対して異なる補間方法を用いて複数種類生成され、 前記選択されたカメラ以外のカメラによって取得された動画像の時間軸方向に並ぶ フレームの画像情報を符号ィ匕処理する前記ステップが、前記選択されたカメラ以外 のカメラによって取得された画像情報であって符号ィ匕対象のフレームと異なる時刻の フレームの画像情報を参照して符号化処理する場合と、前記符号化対象のフレーム に対応する複数種類の前記第 1の視点補間画像のいずれかを参照して符号化処理 する場合の中で、最も符号化圧縮効率が高くなる場合の符号化処理結果を選択的 に出力するステップを含む [2] In the step of generating the first viewpoint interpolation image, a plurality of types of the first viewpoint interpolation images are generated by using different interpolation methods for one frame, and other than the selected camera. The step of encoding the image information of frames arranged in the time axis direction of the moving image acquired by the camera is the image information acquired by a camera other than the selected camera, When encoding processing is performed with reference to image information of frames at different times, and when encoding processing is performed with reference to one of a plurality of types of first viewpoint interpolated images corresponding to the encoding target frame Including a step of selectively outputting an encoding process result when the encoding compression efficiency is highest
ことを特徴とする請求項 1に記載の画像情報圧縮方法。 The image information compression method according to claim 1, wherein:
[3] 前記選択されたカメラ以外のカメラによって取得された動画像の時間軸方向に並ぶ フレームの画像情報を符号ィ匕処理する前記ステップが、前記選択されたカメラ以外 のカメラによって取得された画像情報であって符号ィ匕対象のフレームと異なる時刻の フレームの画像情報を参照して符号化処理する場合と、前記符号化対象のフレーム に対応する前記第 1の視点補間画像を参照して符号化処理する場合と、前記選択さ れたカメラによって取得された画像情報であって符号ィ匕対象のフレームと同時刻のフ レームの画像情報を参照して符号ィ匕処理する場合の中で、最も符号化圧縮効率が 高くなる場合の符号化処理結果を選択的に出力するステップを含む [3] The step of encoding and processing image information of frames arranged in a time axis direction of a moving image acquired by a camera other than the selected camera is an image acquired by a camera other than the selected camera. Information and encoding processing with reference to image information of a frame at a time different from that of the encoding target frame, and encoding with reference to the first viewpoint interpolation image corresponding to the encoding target frame. In the case of performing the encoding process with reference to the image information of the image information acquired by the selected camera at the same time as the frame to be encoded, Including a step of selectively outputting an encoding process result when the encoding compression efficiency is highest.
ことを特徴とする請求項 1に記載の画像情報圧縮方法。  The image information compression method according to claim 1, wherein:
[4] 前記カメラによって取得された動画像のフレームであって、前記カメラの配列順に 並ぶ同時刻のフレームの画像情報を、前記時間的相関を利用したフレーム間予測 符号ィ匕と同じアルゴリズムによる同時刻のフレーム間の相関を利用したフレーム間予 測符号化によって符号化処理するステップをさらに有する [4] Image information of frames of a moving image acquired by the camera and arranged at the same time in the order of arrangement of the cameras is the same by the same algorithm as the inter-frame prediction using the temporal correlation. The method further includes a step of performing encoding processing by inter-frame predictive encoding using correlation between frames of time.
ことを特徴とする請求項 1に記載の画像情報圧縮方法。  The image information compression method according to claim 1, wherein:
[5] 前記時間軸方向に並ぶフレームの画像情報を、フレーム内符号化及びフレーム間 の時間的相関を利用したフレーム間予測符号ィ匕によって符号ィ匕処理する前記ステツ プにおいて、 [5] In the step of processing the image information of the frames arranged in the time axis direction by the intra-frame encoding and the inter-frame prediction code using the temporal correlation between the frames.
前記時間軸方向に並ぶ所定数のフレームによって構成される画像グループ内の時 間的に最初のフレームの前記符号ィ匕処理力 フレーム内符号ィ匕によって行われ、 前記画像グループ内の前記最初のフレーム以外のフレームの前記符号ィヒ処理力 時間的相関を利用したフレーム間予測符号ィ匕によって行われる  The first frame in the image group is processed by the code power of the first frame in the image group constituted by a predetermined number of frames arranged in the time axis direction. The processing power of the frame other than the frame is performed by the inter-frame prediction code using temporal correlation.
ことを特徴とする請求項 4に記載の画像情報圧縮方法。  5. The image information compression method according to claim 4, wherein:
[6] 前記カメラの配列順に並ぶ同時刻のフレームの画像情報を、前記同時刻のフレー ム間の相関を利用したフレーム間予測符号ィ匕によって符号ィ匕処理する前記ステップ において、 [6] In the step, the image information of the frames at the same time arranged in the order of arrangement of the cameras is subjected to code processing by an inter-frame prediction code using the correlation between the frames at the same time.
前記同時刻のフレーム間の相関を利用したフレーム間予測符号ィ匕によって符号ィ匕 されるフレーム力 前記カメラの配列順に並ぶ複数の前記最初のフレームである ことを特徴とする請求項 4に記載の画像情報圧縮方法。 5. The frame force encoded by an inter-frame prediction code using a correlation between the frames at the same time is a plurality of the first frames arranged in the arrangement order of the cameras. Image information compression method.
[7] 前記カメラの配列順に並ぶ同時刻のフレームの画像情報を、前記同時刻のフレー ム間の相関を利用したフレーム間予測符号ィ匕によって符号ィ匕処理する前記ステップ が、 [7] The step of encoding the image information of the frames at the same time arranged in the arrangement order of the cameras with an inter-frame prediction code using the correlation between the frames at the same time,
前記カメラの配列順に並ぶ前記同時刻のフレームの中から 2つ以上の基準フレー ムを選択するステップと、  Selecting two or more reference frames from the frames at the same time arranged in the order of arrangement of the cameras;
前記基準フレーム又は前記基準フレームに基づ 、て生成されたフレームに基づ ヽ て、前記カメラの配列順に並ぶ同時刻のフレームの中のいずれかに対応する第 2の 視点補間画像を生成するステップと、  Generating a second viewpoint-interpolated image corresponding to any of the reference frames or frames of the same time arranged in the order of arrangement of the cameras based on the reference frames or the frames generated based on the reference frames When,
前記カメラの配列順に並ぶ同時刻のフレームの中の符号ィ匕対象のフレームと異な るフレームの画像情報を参照して符号化処理する場合と、前記符号化対象のフレー ムに対応する前記第 2の視点補間画像を参照して符号ィ匕処理する場合の中で、最も 符号化圧縮効率が高くなる場合の符号化処理結果を選択的に出力するステップとを 含む  When encoding processing is performed with reference to image information of a frame different from the encoding target frame in the frames at the same time arranged in the camera arrangement order, and the second corresponding to the encoding target frame. A step of selectively outputting an encoding process result when the encoding compression efficiency is the highest in the case where the encoding process is performed with reference to the viewpoint interpolation image.
ことを特徴とする請求項 6に記載の画像情報圧縮方法。  The image information compression method according to claim 6.
[8] 前記第 2の視点補間画像を生成する前記ステップにお 、て、前記第 2の視点補間 画像が、 1つのフレームに対して異なる補間方法を用いて複数種類生成され、 前記カメラの配列順に並ぶ同時刻のフレームの中の前記基準フレーム以外のフレ ームの画像情報を符号ィ匕処理する前記ステップが、前記カメラの配列順に並ぶ同時 刻のフレームの中の符号ィ匕対象のフレームと異なるフレームの画像情報を参照して 符号化処理する場合と、前記符号化対象のフレームに対応する前記複数種類の第 2 の視点補間画像のいずれかを参照して符号化処理する場合の中で、最も符号化圧 縮効率が高くなる場合の符号ィ匕処理結果を選択的に出力するステップを含む ことを特徴とする請求項 7に記載の画像情報圧縮方法。 [8] In the step of generating the second viewpoint interpolation image, a plurality of types of the second viewpoint interpolation images are generated using different interpolation methods for one frame, and the camera array The step of encoding the image information of frames other than the reference frame in the frames at the same time arranged in sequence is performed with the encoding target frame in the simultaneous frames arranged in the camera arrangement order. When encoding is performed with reference to image information of different frames, and when encoding is performed with reference to any of the plurality of types of second viewpoint interpolated images corresponding to the frame to be encoded. The image information compression method according to claim 7, further comprising a step of selectively outputting a result of encoding processing when the encoding compression efficiency is highest.
[9] 前記複数台のカメラが互いに平行に 1列に直線配置されており、 [9] The plurality of cameras are arranged in a straight line in parallel with each other,
前記複数台のカメラによって取得された動画像の同時刻のフレームを、前記複数 台のカメラの配列順に互いに平行に立てて並べることによって光線空間を構成し、 前記カメラの配列順に並ぶ同時刻のフレームの画像情報を、前記同時刻のフレー ム間の相関を利用したフレーム間予測符号ィ匕によって符号ィ匕処理する前記ステップ 力 前記フレームの一部によって構成されるブロックの動きベクトルを用いる動き補償 予測符号ィ匕によって実行され、 Frames of the same time of moving images acquired by the plurality of cameras are arranged in parallel with each other in the arrangement order of the plurality of cameras to form a light space, and frames of the same time arranged in the arrangement order of the cameras The image information of the image is subjected to code processing by inter-frame prediction code using the correlation between the frames at the same time. Force motion compensation using a motion vector of a block constituted by a part of the frame is performed by a prediction code 匕,
前記動きベクトルを、前記光線空間を水平方向に切断したときの水平断面画像に 現れる直線に基づ ヽて求める  The motion vector is obtained based on a straight line appearing in a horizontal sectional image when the light space is cut in the horizontal direction.
ことを特徴とする請求項 4に記載の画像情報圧縮方法。  5. The image information compression method according to claim 4, wherein:
[10] 複数台のカメラによって取得された動画像の時間軸方向に並ぶフレームの画像情 報を、フレーム内符号ィ匕及びフレーム間の時間的相関を利用したフレーム間予測符 号化によって符号化処理するステップと、 [10] Image information of frames arranged in the time axis direction of moving images obtained by multiple cameras is encoded by interframe prediction encoding using intraframe code and temporal correlation between frames. Processing steps;
前記複数台のカメラによって取得された動画像のフレームであって、前記カメラの 配列順に並ぶ同時刻のフレームの画像情報を、前記時間的相関を利用したフレー ム間予測符号ィ匕と同じアルゴリズムによる同時刻のフレーム間の相関を利用したフレ ーム間予測符号ィ匕によって符号ィ匕処理するステップと  Image information of frames of moving images acquired by the plurality of cameras at the same time arranged in the order of the arrangement of the cameras is obtained by the same algorithm as the inter-frame prediction code 利用 using the temporal correlation. A step of performing a code process using an inter-frame prediction code using a correlation between frames at the same time;
を有することを特徴とする画像情報圧縮方法。  An image information compression method characterized by comprising:
[11] 前記時間軸方向に並ぶフレームの画像情報を、フレーム内符号化及びフレーム間 の時間的相関を利用したフレーム間予測符号ィ匕によって符号ィ匕処理する前記ステツ プにおいて、 [11] In the step of processing the image information of the frames arranged in the time axis direction by the intra-frame encoding and the inter-frame prediction code using the temporal correlation between the frames.
時間軸方向に並ぶ所定数のフレームによって構成される画像グループ内の時間的 に最初のフレームの前記符号ィ匕処理力 フレーム内符号ィ匕によって行われ、 前記画像グループ内の前記最初のフレーム以外のフレームの前記符号ィヒ処理力 時間的相関を利用したフレーム間予測符号ィ匕によって行われる  In the image group composed of a predetermined number of frames arranged in the time axis direction, the first frame in time is processed by the code processing power of the first frame, and other than the first frame in the image group. The code processing power of the frame is performed by inter-frame prediction code using temporal correlation.
ことを特徴とする請求項 10に記載の画像情報圧縮方法。  The image information compression method according to claim 10, wherein:
[12] 前記カメラの配列順に並ぶ同時刻のフレームの画像情報を、前記同時刻のフレー ム間の相関を利用したフレーム間予測符号ィ匕によって符号ィ匕処理する前記ステップ において、 [12] In the step, the image information of the frames at the same time arranged in the order of arrangement of the cameras is code-processed by an inter-frame prediction code using a correlation between the frames at the same time.
前記同時刻のフレーム間の相関を利用したフレーム間予測符号ィ匕によって符号ィ匕 処理されるフレーム力 前記カメラの配列順に並ぶ複数の前記最初のフレームである ことを特徴とする請求項 10に記載の画像情報圧縮方法。  11. The plurality of first frames arranged in order of arrangement of the cameras according to claim 10, wherein the frame force is processed by an inter-frame prediction code using the correlation between the frames at the same time. Image information compression method.
[13] 前記カメラの配列順に並ぶ同時刻のフレームの画像情報を、前記同時刻のフレー ム間の相関を利用したフレーム間予測符号ィ匕によって符号ィ匕処理する前記ステップ が、 [13] Image information of frames at the same time arranged in the order of arrangement of the cameras is converted into the frame information at the same time. The above-mentioned step of performing the code processing by the inter-frame prediction code using the correlation between the frames,
前記カメラの配列順に並ぶ前記同時刻のフレームの中から 2つ以上の基準フレー ムを選択するステップと、  Selecting two or more reference frames from the frames at the same time arranged in the order of arrangement of the cameras;
前記基準フレーム又は前記基準フレームに基づ 、て生成されたフレームに基づ ヽ て、前記カメラの配列順に並ぶ同時刻のフレームの中のいずれかに対応する視点補 間画像を生成するステップと、  Generating a viewpoint complement image corresponding to any of the reference frames or frames of the same time arranged in the order of arrangement of the cameras based on the reference frames or the frames generated based on the reference frames;
前記カメラの配列順に並ぶ同時刻のフレームの中の符号ィ匕対象のフレームと異な るフレームの画像情報を参照して符号化処理する場合と、前記符号化対象のフレー ムに対応する前記視点補間画像を参照して符号化処理する場合の中で、最も符号 化圧縮効率が高くなる場合の符号化処理結果を選択的に出力するステップとを含む ことを特徴とする請求項 12に記載の画像情報圧縮方法。  When encoding processing is performed with reference to image information of a frame different from the target frame in the same time frames arranged in the camera arrangement order, and the viewpoint interpolation corresponding to the target frame is encoded 13. The image according to claim 12, further comprising a step of selectively outputting a result of the encoding process when the encoding compression efficiency is highest among the cases where the encoding process is performed with reference to the image. Information compression method.
[14] 前記視点補間画像を生成する前記ステップにお 、て、前記視点補間画像が、 1つ のフレームに対して異なる補間方法を用いて複数種類生成され、 [14] In the step of generating the viewpoint interpolation image, a plurality of types of the viewpoint interpolation images are generated using different interpolation methods for one frame,
前記カメラの配列順に並ぶ同時刻のフレームの中の前記基準フレーム以外のフレ ームの画像情報を符号ィ匕処理する前記ステップが、前記カメラの配列順に並ぶ同時 刻のフレームの中の符号ィ匕対象のフレームと異なるフレームの画像情報を参照して 符号化処理する場合と、前記符号化対象のフレームに対応する前記複数種類の視 点補間画像の ヽずれかを参照して符号化処理する場合の中で、最も符号化圧縮効 率が高くなる場合の符号ィ匕処理結果を選択的に出力するステップを含む  The step of encoding the image information of frames other than the reference frame in the frames at the same time arranged in the camera arrangement order is performed in the same frame in the frames arranged in the camera arrangement order. When encoding processing is performed with reference to image information of a frame different from the target frame, and when encoding processing is performed with reference to whether the plurality of types of viewpoint-interpolated images corresponding to the encoding target frame are shifted. Including a step of selectively outputting a code processing result when the coding compression efficiency is highest
ことを特徴とする請求項 13に記載の画像情報圧縮方法。  The image information compression method according to claim 13.
[15] 前記複数台のカメラが互いに平行に 1列に直線配置されており、 [15] The plurality of cameras are arranged in a straight line in parallel with each other,
前記複数台のカメラによって取得された動画像の同時刻のフレームを、前記複数 台のカメラの配列順に互いに平行に立てて並べることによって光線空間を構成し、 前記カメラの配列順に並ぶ同時刻のフレームの画像情報を、前記同時刻のフレー ム間の相関を利用したフレーム間予測符号ィ匕によって符号ィ匕処理する前記ステップ 力 前記フレームの一部によって構成されるブロックの動きベクトルを用いる動き補償 予測符号ィ匕によって実行され、 前記動きベクトルを、前記光線空間を水平方向に切断したときの水平断面画像に 現れる直線に基づ ヽて求める Frames of the same time of moving images acquired by the plurality of cameras are arranged in parallel with each other in the arrangement order of the plurality of cameras to form a light space, and frames of the same time arranged in the arrangement order of the cameras The step of processing the image information by the interframe prediction code using the correlation between the frames at the same time The motion compensation prediction using the motion vector of the block constituted by a part of the frame Executed by the sign The motion vector is obtained based on a straight line appearing in a horizontal sectional image when the light space is cut in the horizontal direction.
ことを特徴とする請求項 10に記載の画像情報圧縮方法。  The image information compression method according to claim 10, wherein:
[16] 請求項 1に記載の画像情報圧縮方法を実行する画像情報符号化装置と、 [16] An image information encoding device that executes the image information compression method according to claim 1,
前記画像情報符号化装置に映像信号を供給する複数台のカメラと、  A plurality of cameras for supplying video signals to the image information encoding device;
前記画像情報符号化装置から出力された符号化情報を復号する画像情報復号装 置と、  An image information decoding device for decoding the encoded information output from the image information encoding device;
見る者の視点位置を入力するユーザーインターフェースと、  A user interface for inputting the viewpoint position of the viewer;
前記複数台のカメラによって撮影された同時刻の画像から、前記ユーザーインター フェースによって入力された視点力 見た画像を抽出する画像情報抽出部と を有することを特徴とする自由視点テレビシステム。  A free viewpoint television system, comprising: an image information extracting unit that extracts an image of viewpoint power input by the user interface from images of the same time taken by the plurality of cameras.
[17] 前記画像情報抽出部が、前記カメラによって撮影された同時刻の画像であって、前 記画像情報復号装置によって復号された画像情報に基づく画像を、前記カメラの配 列順に立てて互いに平行に並べて構成された光線空間を、前記ユーザーインターフ エースによって入力された視点位置に基づいた面で切断することによって前記視点 位置から見た画像情報を抽出することを特徴とする請求項 16に記載の自由視点テレ ビシステム。 [17] The image information extraction unit sets the images based on the image information decoded by the image information decoding device, which are images of the same time taken by the camera, in the arrangement order of the cameras. 17. The image information viewed from the viewpoint position is extracted by cutting light spaces configured in parallel by a plane based on the viewpoint position input by the user interface. Free viewpoint television system.
[18] 前記カメラが、直線上に互いに平行な方向を向けて並ぶ直線配置、円周上に円周 の内側を向けて並ぶ円周配置、平面上に互いに平行な方向を向けて並ぶ平面配置 、球面上に球面の内側を向けて並ぶ球面配置、及び円筒上に円筒の内側を向けて 並ぶ円筒配置のいずれかの配置で設置されていることを特徴とする請求項 16に記 載の自由視点テレビシステム。  [18] A linear arrangement in which the cameras are arranged in a direction parallel to each other on a straight line, a circumferential arrangement in which the inside of the circumference is arranged on the circumference, and a planar arrangement in which the directions parallel to each other are arranged on a plane The freedom according to claim 16, characterized in that it is installed in any one of a spherical arrangement on the spherical surface facing the inside of the spherical surface and a cylindrical arrangement on the cylinder facing the inner side of the cylinder. Perspective TV system.
[19] 前記カメラ力 直線上に互いに平行な方向を向けて並ぶ直線配置で設置されてお り、  [19] The camera force is installed in a linear arrangement with the directions parallel to each other on a straight line,
前記光線空間を切断する前記面が、前記光線空間内の垂直平面である ことを特徴とする請求項 17に記載の自由視点テレビシステム。  The free viewpoint television system according to claim 17, wherein the plane that cuts the light space is a vertical plane in the light space.
[20] 前記カメラが、円周上に円周の内側を向けて並ぶ円周配置で設置されており、 前記光線空間を切断する前記面が、前記光線空間内の水平平面で正弦波曲線と なる面である [20] The camera is installed in a circumferential arrangement on the circumference facing the inside of the circumference, and the surface for cutting the light space is a sine wave curve on a horizontal plane in the light space. Is the face
ことを特徴とする請求項 17に記載の自由視点テレビシステム。  The free viewpoint television system according to claim 17, wherein:
PCT/JP2006/300257 2005-07-26 2006-01-12 Image information compression method and free viewpoint television system WO2007013194A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007526814A JP4825983B2 (en) 2005-07-26 2006-01-12 Image information compression method and free viewpoint television system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005215928 2005-07-26
JP2005-215928 2005-07-26

Publications (1)

Publication Number Publication Date
WO2007013194A1 true WO2007013194A1 (en) 2007-02-01

Family

ID=37683102

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/300257 WO2007013194A1 (en) 2005-07-26 2006-01-12 Image information compression method and free viewpoint television system

Country Status (2)

Country Link
JP (1) JP4825983B2 (en)
WO (1) WO2007013194A1 (en)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009518877A (en) * 2006-04-04 2009-05-07 ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド Method and system for acquiring and displaying a three-dimensional light field
JP2011015227A (en) * 2009-07-02 2011-01-20 Nippon Hoso Kyokai <Nhk> Stereoscopic image generating device and program
WO2011046085A1 (en) * 2009-10-16 2011-04-21 ソニー株式会社 Image processing device and image processing method
WO2013038679A1 (en) * 2011-09-13 2013-03-21 パナソニック株式会社 Encoding device, decoding device, playback device, encoding method, and decoding method
WO2014168121A1 (en) * 2013-04-11 2014-10-16 日本電信電話株式会社 Image encoding method, image decoding method, image encoding device, image decoding device, image encoding program, and image decoding program
JP2015530788A (en) * 2012-07-30 2015-10-15 バーソロミュー ジー ユキック System and method for generating three-dimensional image media
US9392248B2 (en) 2013-06-11 2016-07-12 Google Inc. Dynamic POV composite 3D video system
EP3145191A1 (en) * 2015-09-17 2017-03-22 Thomson Licensing Method for encoding a light field content
WO2017046272A1 (en) * 2015-09-17 2017-03-23 Thomson Licensing Method for encoding a light field content
JP2018530963A (en) * 2015-09-14 2018-10-18 トムソン ライセンシングThomson Licensing Method and apparatus for encoding and decoding light field based images and corresponding computer program product

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0698312A (en) * 1992-09-16 1994-04-08 Fujitsu Ltd High efficiency picture coding system
JPH07143494A (en) * 1993-11-19 1995-06-02 Sanyo Electric Co Ltd Coding method for moving image
JPH07154799A (en) * 1993-11-26 1995-06-16 Sanyo Electric Co Ltd Moving picture encoding method
JPH09245195A (en) * 1996-03-08 1997-09-19 Canon Inc Image processing method and its device
JPH09261653A (en) * 1996-03-18 1997-10-03 Sharp Corp Multi-view-point picture encoder
JPH10224795A (en) * 1997-01-31 1998-08-21 Nippon Telegr & Teleph Corp <Ntt> Moving image coding method, decoding method, coder and decoder
JP2002016945A (en) * 2000-06-29 2002-01-18 Toppan Printing Co Ltd Three-dimensional image representing system using image lightening method

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3477023B2 (en) * 1996-04-05 2003-12-10 松下電器産業株式会社 Multi-view image transmission method and multi-view image display method

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0698312A (en) * 1992-09-16 1994-04-08 Fujitsu Ltd High efficiency picture coding system
JPH07143494A (en) * 1993-11-19 1995-06-02 Sanyo Electric Co Ltd Coding method for moving image
JPH07154799A (en) * 1993-11-26 1995-06-16 Sanyo Electric Co Ltd Moving picture encoding method
JPH09245195A (en) * 1996-03-08 1997-09-19 Canon Inc Image processing method and its device
JPH09261653A (en) * 1996-03-18 1997-10-03 Sharp Corp Multi-view-point picture encoder
JPH10224795A (en) * 1997-01-31 1998-08-21 Nippon Telegr & Teleph Corp <Ntt> Moving image coding method, decoding method, coder and decoder
JP2002016945A (en) * 2000-06-29 2002-01-18 Toppan Printing Co Ltd Three-dimensional image representing system using image lightening method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KIMATA H. ET AL: "System Design of Free Viewpoint Video Communication", THE FOURTH INTERNATIONAL CONFERENCE ON COMPUTER AND INFORMATION TECHNOLOGY 2004 CIT '04), 14 September 2004 (2004-09-14), pages 52 - 59, XP003015599 *
OKA S. ET AL.: "Jiyu Shiten Terebi no Tameno Kosen Kukan Joho Asshuku", INFORMATION PROCESSING SOCIETY OF JAPAN KENKYU HOKOKU, vol. 2003, no. 125, 19 December 2003 (2003-12-19), pages 97 - 102 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009518877A (en) * 2006-04-04 2009-05-07 ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド Method and system for acquiring and displaying a three-dimensional light field
JP2011015227A (en) * 2009-07-02 2011-01-20 Nippon Hoso Kyokai <Nhk> Stereoscopic image generating device and program
WO2011046085A1 (en) * 2009-10-16 2011-04-21 ソニー株式会社 Image processing device and image processing method
JP2011087194A (en) * 2009-10-16 2011-04-28 Sony Corp Image processor and image processing method
CN102577402A (en) * 2009-10-16 2012-07-11 索尼公司 Image processing device and image processing method
JPWO2013038679A1 (en) * 2011-09-13 2015-03-23 パナソニックIpマネジメント株式会社 Encoding device, decoding device, playback device, encoding method, and decoding method
EP2757783A4 (en) * 2011-09-13 2015-03-18 Panasonic Corp Encoding device, decoding device, playback device, encoding method, and decoding method
WO2013038679A1 (en) * 2011-09-13 2013-03-21 パナソニック株式会社 Encoding device, decoding device, playback device, encoding method, and decoding method
JP2016220236A (en) * 2011-09-13 2016-12-22 パナソニックIpマネジメント株式会社 Encoding device, decoding device, reproducing device, encoding method and decoding method
US9661320B2 (en) 2011-09-13 2017-05-23 Panasonic Intellectual Property Management Co., Ltd. Encoding device, decoding device, playback device, encoding method, and decoding method
JP2015530788A (en) * 2012-07-30 2015-10-15 バーソロミュー ジー ユキック System and method for generating three-dimensional image media
WO2014168121A1 (en) * 2013-04-11 2014-10-16 日本電信電話株式会社 Image encoding method, image decoding method, image encoding device, image decoding device, image encoding program, and image decoding program
JP5926451B2 (en) * 2013-04-11 2016-05-25 日本電信電話株式会社 Image encoding method, image decoding method, image encoding device, image decoding device, image encoding program, and image decoding program
US9392248B2 (en) 2013-06-11 2016-07-12 Google Inc. Dynamic POV composite 3D video system
JP2018530963A (en) * 2015-09-14 2018-10-18 トムソン ライセンシングThomson Licensing Method and apparatus for encoding and decoding light field based images and corresponding computer program product
EP3145191A1 (en) * 2015-09-17 2017-03-22 Thomson Licensing Method for encoding a light field content
WO2017046272A1 (en) * 2015-09-17 2017-03-23 Thomson Licensing Method for encoding a light field content
US10880576B2 (en) 2015-09-17 2020-12-29 Interdigital Vc Holdings, Inc. Method for encoding a light field content

Also Published As

Publication number Publication date
JP4825983B2 (en) 2011-11-30
JPWO2007013194A1 (en) 2009-02-05

Similar Documents

Publication Publication Date Title
Merkle et al. Efficient compression of multi-view video exploiting inter-view dependencies based on H. 264/MPEG4-AVC
KR100667830B1 (en) Method and apparatus for encoding multiview video
WO2007013194A1 (en) Image information compression method and free viewpoint television system
CN100512431C (en) Method and apparatus for encoding and decoding stereoscopic video
JP4611386B2 (en) Multi-view video scalable encoding and decoding method and apparatus
KR100481732B1 (en) Apparatus for encoding of multi view moving picture
KR100636785B1 (en) Multi-view image system and method for compressing and decompressing applied to the same
KR100823287B1 (en) Method and apparatus for encoding and decoding multi-view image based on global disparity vector
KR100728009B1 (en) Method and apparatus for encoding multiview video
EP2538675A1 (en) Apparatus for universal coding for multi-view video
US20130114699A1 (en) Apparatus of predictive coding/decoding using view-temporal reference picture buffers and method using the same
JP2007180981A (en) Device, method, and program for encoding image
US20070064800A1 (en) Method of estimating disparity vector, and method and apparatus for encoding and decoding multi-view moving picture using the disparity vector estimation method
US20090190662A1 (en) Method and apparatus for encoding and decoding multiview video
KR100738867B1 (en) Method for Coding and Inter-view Balanced Disparity Estimation in Multiview Animation Coding/Decoding System
KR20110057162A (en) Refined depth map
US20120114036A1 (en) Method and Apparatus for Multiview Video Coding
Lim et al. A multiview sequence CODEC with view scalability
JPWO2009001791A1 (en) VIDEO ENCODING METHOD AND DECODING METHOD, DEVICE THEREOF, THEIR PROGRAM, AND RECORDING MEDIUM CONTAINING THE PROGRAM
US20110268193A1 (en) Encoding and decoding method for single-view video or multi-view video and apparatus thereof
CN111800653B (en) Video decoding method, system, device and computer readable storage medium
JP6571646B2 (en) Multi-view video decoding method and apparatus
WO2007026440A1 (en) Image information compression method, image information compression device, and free viewpoint television system
JP2007180982A (en) Device, method, and program for decoding image
CN101990103A (en) Method and device for multi-view video coding

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
DPE2 Request for preliminary examination filed before expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 2007526814

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 06711580

Country of ref document: EP

Kind code of ref document: A1