WO2015083742A1 - 映像符号化装置及び方法、映像復号装置及び方法、及び、それらのプログラム - Google Patents

映像符号化装置及び方法、映像復号装置及び方法、及び、それらのプログラム Download PDF

Info

Publication number
WO2015083742A1
WO2015083742A1 PCT/JP2014/081986 JP2014081986W WO2015083742A1 WO 2015083742 A1 WO2015083742 A1 WO 2015083742A1 JP 2014081986 W JP2014081986 W JP 2014081986W WO 2015083742 A1 WO2015083742 A1 WO 2015083742A1
Authority
WO
WIPO (PCT)
Prior art keywords
depth
motion information
setting
video
representative
Prior art date
Application number
PCT/JP2014/081986
Other languages
English (en)
French (fr)
Inventor
信哉 志水
志織 杉本
明 小島
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to KR1020167014366A priority Critical patent/KR20160079068A/ko
Priority to US15/038,611 priority patent/US20160295241A1/en
Priority to CN201480065693.0A priority patent/CN105934949A/zh
Priority to JP2015551543A priority patent/JP6232075B2/ja
Publication of WO2015083742A1 publication Critical patent/WO2015083742A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/573Motion compensation with multiple frame prediction using two or more reference frames in a given prediction direction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Definitions

  • the present invention relates to a video encoding device, a video decoding device, a video encoding method, a video decoding method, a video encoding program, and a video decoding program.
  • a free viewpoint video is a video that allows the user to freely specify the position and orientation (hereinafter referred to as the viewpoint) of the camera in the shooting space.
  • the viewpoint video the user designates an arbitrary viewpoint, but it is impossible to hold videos for all possible viewpoints. For this reason, the free viewpoint video is composed of a group of information necessary to generate a video of the designated viewpoint.
  • the free viewpoint video may also be referred to as a free viewpoint television, an arbitrary viewpoint video, an arbitrary viewpoint television, or the like.
  • a free viewpoint video is expressed using various data formats.
  • a most general format there is a method using a video and a depth map (distance image) for each frame of the video (for example, see Non-Patent Document 1).
  • the depth map is a representation of the depth (distance) from the camera to the subject for each pixel, and represents the three-dimensional position of the subject.
  • the depth is proportional to the reciprocal of the parallax between the two cameras, and is sometimes called a disparity map (parallax image).
  • the depth is information stored in the Z buffer, so it is sometimes called a Z image or a Z map.
  • a coordinate value with respect to the Z axis of the three-dimensional coordinate system stretched on the expression target space may be used as the depth.
  • the Z axis coincides with the direction of the camera, but when a common coordinate system is used for a plurality of cameras, etc. In some cases, the Z-axis does not match the camera orientation.
  • the distance and the Z value are referred to as depth without distinction, and an image representing the depth as a pixel value is referred to as a depth map.
  • the depth When expressing the depth as a pixel value, the value corresponding to the physical quantity is directly used as the pixel value, the method using a value obtained by quantizing the value between the minimum value and the maximum value into a certain number, and the difference from the minimum value. There is a method of using a value obtained by quantizing with a step width. When the range to be expressed is limited, the depth can be expressed with higher accuracy by using additional information such as a minimum value. In addition, when quantizing at equal intervals, there are a method of quantizing a physical quantity as it is and a method of quantizing an inverse of a physical quantity.
  • the depth map can be regarded as a grayscale image because each pixel is expressed as an image having one value.
  • the subject since the subject exists continuously in the real space and cannot move to a position distant from the moment, it can be said that the subject has a spatial correlation and a temporal correlation like the image signal. Therefore, depending on the image coding method and video coding method used to encode normal image signals and video signals, images composed of depth maps and continuous depth maps can be spatially and temporally redundant. It is possible to efficiently encode while removing.
  • video comprised by it are called a depth map, without distinguishing.
  • each frame of the video is divided into processing unit blocks called macroblocks,
  • the video signal is predicted spatially or temporally for each macroblock, and prediction information indicating the prediction method and a prediction residual are encoded.
  • prediction information indicating the prediction method and a prediction residual are encoded.
  • Spatial prediction is intraframe prediction, so it is called intraframe prediction (intrascreen prediction, intra prediction).
  • Temporal prediction is interframe prediction, so interframe prediction This is called (inter-screen prediction, inter prediction).
  • temporal prediction is also referred to as motion compensation prediction because video signals are predicted by compensating for temporal changes of video, that is, motion.
  • motion compensation prediction when encoding a multi-view video consisting of videos shot from the same scene from multiple positions and orientations, the video signal is predicted by compensating for changes between video viewpoints, that is, parallax. Disparity compensation prediction is used.
  • each can be encoded using a normal video coding method.
  • MPEG-C Part. 3 when a multi-view video and a depth map for the multi-view video are expressed, each is encoded using an existing video encoding method.
  • Non-Patent Document 2 for a region to be processed, a disparity vector is used to determine a region of a video image of another viewpoint that has already been processed, and the motion information used when the region is encoded, It is used as motion information of a region to be processed or a predicted value thereof. At this time, in order to realize efficient encoding, it is necessary to acquire a highly accurate disparity vector for the region to be processed.
  • Non-Patent Document 2 as the simplest method, a method is used in which a disparity vector given to a region that is temporally or spatially adjacent to a region to be processed is a disparity vector of the region to be processed. Furthermore, in order to obtain a more accurate disparity vector, a method is also used in which a depth for a region to be processed is estimated or obtained, and the depth is converted to obtain a disparity vector.
  • Non-Patent Document 2 it is possible to realize highly efficient predictive coding by converting the value of the depth map and acquiring a highly accurate disparity vector.
  • Non-Patent Document 2 assumes that the parallax is proportional to the reciprocal of the depth (the distance from the camera to the subject) when the depth is converted into the parallax vector. More specifically, the parallax is obtained by the product of the three of the reciprocal of the depth, the focal length of the camera, and the distance between the viewpoints. Such a conversion gives correct results if the two viewpoints have the same focal length and the viewpoint orientation (camera optical axis) is three-dimensionally parallel, but in other situations it is incorrect. Will give.
  • Non-Patent Document 1 In order to perform accurate conversion, as described in Non-Patent Document 1, after obtaining a three-dimensional point by back projecting a point on an image to a three-dimensional space according to depth, the three-dimensional point is converted into a three-dimensional point. It is necessary to calculate a point on the image for another viewpoint by reprojecting to another viewpoint.
  • the present invention has been made in view of such circumstances, and in encoding free-viewpoint video data having video and depth maps as components in a plurality of viewpoints, even if the viewpoint directions are not parallel, the motion vector Video encoding apparatus, video decoding apparatus, video encoding method, video decoding method, video encoding program, and video capable of realizing efficient video encoding by improving the accuracy of inter-view prediction
  • An object is to provide a decryption program.
  • the present invention is different for each encoding target region, which is a region obtained by dividing the encoding target image, when encoding the encoding target image that is one frame of a multi-view video composed of a plurality of different viewpoint videos.
  • a video encoding device that performs encoding while predicting between viewpoints, Representative depth setting means for setting a representative depth from a depth map for a subject in the multi-viewpoint video; Transformation matrix setting means for setting a transformation matrix for converting a position on the encoding target image to a position on a reference viewpoint image for a reference viewpoint different from the encoding target image, based on the representative depth; Representative position setting means for setting a representative position from a position in the encoding target area; Corresponding position setting means for setting a corresponding position on the reference viewpoint image with respect to the representative position using the representative position and the transformation matrix; Based on the corresponding position, motion information generating means for generating combined motion information in the encoding target region from reference viewpoint motion information that is motion information of the
  • the representative depth setting means sets a representative depth from the depth map for the depth region.
  • a depth reference disparity vector setting unit that sets a depth reference disparity vector that is a disparity vector with respect to the depth map for the encoding target region
  • the depth area setting means may set an area indicated by the depth reference disparity vector as the depth area.
  • the depth reference disparity vector setting means may set the depth reference disparity vector using a disparity vector used when encoding an area adjacent to the encoding target area.
  • the representative depth setting means sets the depth indicating the closest to the camera among the depths in the depth area corresponding to the pixels at the four vertices of the encoding target area having a rectangular shape as the representative depth.
  • the apparatus further comprises a combined motion information converting means for converting the combined motion information using the conversion matrix,
  • the predicted image generation means uses the converted combined motion information.
  • a past depth setting means for setting a past depth from the depth map based on the corresponding position and the combined motion information
  • An inverse transformation matrix setting means for setting an inverse transformation matrix for transforming a position on the reference viewpoint image into a position on the encoding target image based on the past depth
  • combined motion information converting means for converting the combined motion information using the inverse transform matrix
  • the predicted image generation means uses the converted combined motion information.
  • a video decoding device that performs decoding while predicting at Representative depth setting means for setting a representative depth from a depth map for a subject in the multi-viewpoint video; Transformation matrix setting means for setting a transformation matrix for transforming a position on the decoding target image into a position on a reference image for a reference viewpoint different from the decoding target image based on the representative depth; Representative position setting means for setting a representative position from a position in the decoding target area; Corresponding position setting means for setting a corresponding position on the reference viewpoint image with respect to the representative position using the representative position and the transformation matrix; Motion information generating means for generating combined motion information in the decoding target area from reference viewpoint motion information that is motion information of the reference viewpoint image based on the corresponding position; There is also provided a video decoding device having predicted image generation means for generating a predicted image for the decoding target region using the synthesized motion information.
  • the representative depth setting means sets a representative depth from the depth map for the depth region.
  • the image processing apparatus further includes depth reference disparity vector setting means for setting a depth reference disparity vector that is a disparity vector for the depth map for the decoding target region,
  • the depth area setting means may set an area indicated by the depth reference disparity vector as the depth area.
  • the depth reference disparity vector setting means may set the depth reference disparity vector using a disparity vector used when decoding an area adjacent to the decoding target area.
  • the representative depth setting means sets a depth indicating the closest to the camera among the depths in the depth area corresponding to the pixels at the four vertices of the decoding target area having a quadrangular shape as the representative depth. May be.
  • the apparatus further comprises a combined motion information converting means for converting the combined motion information using the conversion matrix,
  • the predicted image generation means uses the converted combined motion information.
  • a past depth setting means for setting a past depth from the depth map based on the corresponding position and the combined motion information
  • An inverse transformation matrix setting means for setting an inverse transformation matrix for transforming a position on the reference viewpoint image into a position on the decoding target image based on the past depth
  • combined motion information converting means for converting the combined motion information using the inverse transform matrix
  • the predicted image generation means uses the converted combined motion information.
  • the present invention also encodes an encoding target image that is one frame of a multi-view video composed of videos of a plurality of different viewpoints, for each encoding target region that is a region obtained by dividing the encoding target image.
  • a video encoding method that performs encoding while predicting between different viewpoints, A representative depth setting step for setting a representative depth from a depth map for a subject in the multi-viewpoint video;
  • a transformation matrix setting step for setting a transformation matrix for transforming a position on the encoding target image into a position on a reference viewpoint image for a reference viewpoint different from the encoding target image based on the representative depth;
  • a corresponding position setting step for setting a corresponding position on the reference viewpoint image with respect to the representative position using the representative position and the transformation matrix;
  • a motion information generation step of generating combined motion information in the encoding target region from reference viewpoint motion information that is motion information of
  • a video decoding method that performs decoding while predicting with A representative depth setting step for setting a representative depth from a depth map for a subject in the multi-viewpoint video;
  • a transformation matrix setting step for setting a transformation matrix for transforming a position on the decoding target image to a position on a reference image with respect to a reference view different from the decoding target image, based on the representative depth;
  • a representative position setting step of setting a representative position from a position in the decoding target area;
  • a corresponding position setting step for setting a corresponding position on the reference viewpoint image with respect to the representative position using the representative position and the transformation matrix;
  • a motion information generation step of generating combined motion information in the decoding target region from reference viewpoint motion information that is motion information of the reference viewpoint image based on the corresponding position;
  • There is also provided a video decoding method including a predicted image generation step of generating a predicted image for the decoding target area using the synthesized motion information.
  • the present invention also provides a video encoding program for causing a computer to execute the video encoding method.
  • the present invention also provides a video decoding program for causing a computer to execute the video decoding method.
  • a correspondence relationship of pixels between viewpoints is obtained using a single matrix defined for depth values.
  • FIG. 3 is a flowchart showing an operation of the video encoding device 100 shown in FIG. 1. It is a flowchart which shows the processing operation of the operation
  • step S104 the processing operation of the operation
  • step S104 the processing operation of the operation
  • 5 is a flowchart showing the structure of the video decoding apparatus by one Embodiment of this invention.
  • 5 is a flowchart showing the operation of the video decoding apparatus 200 shown in FIG.
  • FIG. 2 is a block diagram showing a hardware configuration when the video encoding apparatus 100 shown in FIG. 1 is configured by a computer and a software program.
  • FIG. 5 is a block diagram showing a hardware configuration when the video decoding
  • a video encoding device and a video decoding device will be described with reference to the drawings.
  • a multi-view video shot by two cameras a first camera (referred to as camera A) and a second camera (referred to as camera B), is encoded.
  • camera A a first camera
  • camera B a second camera
  • information necessary for obtaining the parallax from the depth is given separately.
  • it is an external parameter that represents the positional relationship between camera A and camera B, or an internal parameter that represents the projection information of the camera onto the image plane. Information may be given.
  • information that can specify a position (such as a coordinate value or an index that can be associated with a coordinate value) is added to an image, a video frame, or a depth map (for example, an encoding target region index blk described later).
  • a position such as a coordinate value or an index that can be associated with a coordinate value
  • a depth map for example, an encoding target region index blk described later.
  • FIG. 1 is a block diagram showing a configuration of a video encoding apparatus according to the present embodiment.
  • the video encoding apparatus 100 includes an encoding target image input unit 101, an encoding target image memory 102, a reference viewpoint motion information input unit 103, a depth map input unit 104, a motion information generation unit 105, an image An encoding unit 106, an image decoding unit 107, and a reference image memory 108 are provided.
  • the encoding target image input unit 101 inputs one frame of video to be encoded to the video encoding device 100.
  • the video to be encoded and the frame to be input and encoded are referred to as an encoding target video and an encoding target image, respectively.
  • the video of camera B is input frame by frame.
  • the viewpoint (here, the viewpoint of the camera B) that captured the encoding target video is referred to as an encoding target viewpoint.
  • the encoding target image memory 102 stores the input encoding target image.
  • the reference viewpoint motion information input unit 103 inputs motion information (such as a motion vector) with respect to the video of the reference viewpoint to the video encoding device 100.
  • the motion information input here is referred to as reference viewpoint motion information.
  • the movement information of the camera A is input.
  • the depth map input unit 104 inputs a depth map, which is referred to when obtaining a correspondence relationship between pixels between viewpoints or generating motion information, to the video encoding device 100.
  • a depth map for an encoding target image is input, but a depth map for another viewpoint such as a reference viewpoint may be used.
  • the depth map represents a three-dimensional position of a subject shown in each pixel of a corresponding image. For example, a distance from the camera to the subject, a coordinate value with respect to an axis that is not parallel to the image plane, and a parallax amount with respect to another camera (for example, camera A) can be used.
  • the depth map is provided in the form of an image, but the image may not be in the form of an image as long as similar information can be obtained.
  • the motion information generation unit 105 generates motion information for the encoding target image using the reference viewpoint motion information and the depth map.
  • the image encoding unit 106 predictively encodes the encoding target image while using the generated motion information.
  • the image decoding unit 107 decodes the bit stream of the encoding target image.
  • the reference image memory 108 stores an image obtained when the bit stream of the encoding target image is decoded.
  • FIG. 2 is a flowchart showing the operation of the video encoding device 100 shown in FIG.
  • the encoding target image input unit 101 receives the encoding target image Org and stores it in the encoding target image memory 102 (step S101).
  • the reference viewpoint motion information input unit 103 inputs the reference viewpoint motion information to the video encoding device 100
  • the depth map input unit 104 inputs the depth map to the video encoding device 100, respectively, to the motion information generation unit 105. Is output (step S102).
  • the reference viewpoint motion information and the depth map input in step S102 are the same as those obtained on the decoding side, such as those obtained by decoding already encoded ones. This is to suppress the occurrence of coding noise such as drift by using exactly the same information obtained by the decoding device. However, when the generation of such coding noise is allowed, the one that can be obtained only on the coding side, such as the one before coding, may be input.
  • the depth map in addition to the one already decoded, the depth map estimated by applying stereo matching or the like to the multi-view video decoded for a plurality of cameras, or decoded
  • a depth map or the like estimated using a disparity vector, a motion vector, or the like can also be used as the same can be obtained on the decoding side.
  • the reference viewpoint motion information may be the motion information used when encoding the video for the reference viewpoint, or may be separately encoded for the reference viewpoint. It is also possible to use motion information obtained by decoding a video for the reference viewpoint and estimating the video.
  • Step S103 to S108 When the input of the encoding target image, the reference viewpoint motion information, and the depth map is finished, the encoding target image is divided into regions of a predetermined size, and the video signal of the encoding target image is encoded for each of the divided regions.
  • Step S103 to S108 That is, assuming that the encoding target area index is blk and the total number of encoding target areas in one frame is represented by numBlks, blk is initialized to 0 (step S103), and then 1 is added to blk (step S107). ), The following processing (steps S104 to S106) is repeated until blk becomes numBlks (step S108).
  • processing unit blocks In general coding, it is divided into processing unit blocks called macroblocks of 16 pixels ⁇ 16 pixels, but may be divided into blocks of other sizes as long as they are the same as those on the decoding side. Further, the entire image may not be divided into the same size, but may be divided into blocks having different sizes for each region.
  • the motion information generation unit 105 In the process repeated for each encoding target area, first, the motion information generation unit 105 generates motion information in the encoding target area blk (step S104). This process will be described later in detail.
  • the image encoding unit 106 performs motion compensation prediction using the motion information and the image stored in the reference image memory 108, while performing the motion compensation prediction in the encoding target region blk.
  • the video signal (pixel value) of the encoding target image is encoded (step 105).
  • the bit stream obtained as a result of encoding is the output of the video encoding device 100. Note that any method may be used for encoding.
  • MPEG-2 and H.264 In general encoding such as H.264 / AVC, encoding is performed by sequentially performing frequency conversion such as DCT, quantization, binarization, and entropy encoding on a difference signal between a video signal of a block blk and a predicted image. Do.
  • the image decoding unit 107 decodes the video signal for the block blk from the bit stream, and stores the decoded image Dec [blk] as a decoding result in the reference image memory 109 (step S106).
  • a method corresponding to the method used at the time of encoding is used.
  • MPEG-2 and H.264 In general encoding such as H.264 / AVC, the code data is subjected to frequency inverse transform such as entropy decoding, inverse binarization, inverse quantization, and IDCT in order, and the obtained two-dimensional signal Then, the predicted image is added, and finally the video signal is decoded by performing clipping in the pixel value range. Note that the data immediately before the process on the encoding side becomes lossless and the predicted image may be received, and the decoding process may be performed by a simplified decoding process.
  • the value obtained after applying the quantization process at the time of encoding and the motion compensated prediction image are received, and the quantized value is obtained by performing inverse quantization and frequency inverse transform in order.
  • the motion compensated prediction image may be added to the two-dimensional signal, and the video signal may be decoded by performing clipping in the pixel value range.
  • FIG. 3 is a flowchart showing the processing operation of the motion information generation unit 105 shown in FIG. 2 for generating motion information (step S104).
  • the motion information generation unit 105 sets a depth map for the encoding target region blk (step S1401).
  • the depth map for the encoding target image is input, the depth map at the same position as the encoding target region blk is set.
  • a scaled area is set according to the resolution ratio.
  • one of the viewpoints different from the encoding target viewpoint is a depth viewpoint
  • a parallax DV between the encoding target viewpoint and the depth viewpoint in the encoding target region blk is obtained, and the depth map in blk + DV Set.
  • the position and size are scaled according to the resolution ratio.
  • the parallax DV between the encoding target viewpoint and the depth viewpoint in the encoding target region blk may be calculated using any method as long as it is the same method as that on the decoding side.
  • the disparity vector used when encoding the peripheral region of the encoding target region blk, the global disparity vector set for the entire encoding target image or the partial image including the encoding target region, the encoding target It is possible to use a disparity vector or the like that is separately set and encoded for a region.
  • disparity vectors used in different regions or previously encoded images may be stored and used.
  • a disparity vector obtained by converting a depth map at the same position as the encoding target area of the depth map encoded in the past with respect to the encoding target viewpoint may be used.
  • the motion information generation unit 105 determines a representative pixel position pos and a representative depth rep (as the “representative position” of the present invention) from the set depth map (step S1402).
  • a representative method for setting the representative pixel position pos a method of setting a predetermined position such as the center or upper left in the encoding target region as the representative pixel position, or after obtaining the representative depth, There is a method for setting the position of a pixel in an encoding target area having the same depth.
  • a typical method for setting the representative depth rep there is a method using an average value, median value, maximum value, minimum value, or the like of the depth map for the encoding target region blk.
  • an average value, a median value, a maximum value, a minimum value, or the like of depth values for some pixels may be used instead of all the pixels in the encoding target region.
  • four vertices or four vertices and the center may be used.
  • the motion information generation unit 105 next obtains a transformation matrix H rep (step S1403).
  • the transformation matrix is called a homography matrix, and gives a correspondence relationship between points on the image plane between viewpoints when it is assumed that a subject exists on a plane represented by a representative depth.
  • the transformation matrix H rep may be obtained in any way. For example, it can be obtained using the following mathematical formula.
  • R and t represent a 3 ⁇ 3 rotation matrix and a translation vector between the encoding target viewpoint and the reference viewpoint
  • D rep corresponds to the representative depth
  • n (D rep ) corresponds to the representative depth D rep at the encoding target viewpoint.
  • D (D rep ) indicates a distance between the three-dimensional plane and the viewpoint center of the encoding target viewpoint and the reference viewpoint.
  • T on the right shoulder represents transposition of the vector.
  • the reference viewpoint A corresponding point q i on the image is obtained.
  • P t and P r indicate 3 ⁇ 4 camera matrices at the encoding target viewpoint and the reference viewpoint, respectively.
  • the camera matrix here is A for the camera internal parameters, R for the rotation matrix from the world coordinate system (any common coordinate system independent of the camera) to the camera coordinate system, and translation from the world coordinate system to the camera coordinate system.
  • a column vector representing T is given by A [R
  • the inverse matrix P ⁇ 1 of the camera matrix P is a matrix corresponding to the inverse transformation of the transformation by the camera matrix P, and is represented by R ⁇ 1 [A ⁇ 1
  • d t (p i ) indicates the distance on the optical axis from the encoding target viewpoint to the subject at the point p i when the depth at the point p i on the encoding target image is the representative depth.
  • s is an arbitrary real number, but when there is no error in the camera parameter, s is a distance d r (q i ) on the optical axis from the reference viewpoint at the point q i on the reference viewpoint image to the subject at the point q i .
  • a transformation matrix H rep is obtained by solving a homogeneous equation obtained according to the following equation.
  • the (3, 3) component of the transformation matrix H rep is obtained by setting an arbitrary real number (for example, 1).
  • the transformation matrix H rep depends on the reference viewpoint and the depth, it may be obtained every time the representative depth is obtained. Before starting the processing for each area, the transformation matrix H rep is obtained for each combination of the reference viewpoint and the depth, At the stage of obtaining the transformation matrix H rep , one transformation matrix may be selected and set from the transformation matrix group already calculated based on the reference viewpoint and the representative depth.
  • the motion information generation unit 105 obtains a corresponding position on the reference viewpoint based on the following mathematical formula (step S1404).
  • k represents an arbitrary real number
  • the position given by (u, v) is the position on the reference viewpoint to be obtained.
  • the motion information generation unit 105 uses the reference viewpoint motion information input and stored for the area including the position as the motion information for the encoding target area blk. Setting is performed (step S1405). If the reference viewpoint motion information is not stored for the region including the corresponding position (u, v), information without motion information may be set, or default motion information such as a zero vector may be set. The region storing the motion information closest to the corresponding position (u, v) may be identified, and the reference viewpoint motion information stored in the region may be set. However, motion information is set according to the same rules as those on the decoding side.
  • the reference viewpoint motion information is set as the motion information as it is, but the time interval is set in advance, the motion information is scaled according to the predetermined time interval and the time interval in the reference viewpoint motion information, and the reference viewpoint The motion information obtained by replacing the time interval in the motion information with the predetermined time interval may be set.
  • all the motion information generated for different regions has the same time interval, and it is possible to unify the reference images when performing motion compensation prediction and to limit the memory space to be accessed. It becomes possible. Note that, by limiting the memory space to be accessed, the hit rate of the cache memory can be improved and the processing speed can be improved.
  • s represents an arbitrary real number.
  • d r ⁇ t (prdep) is a function for converting the depth prdep expressed with respect to the reference viewpoint into the expression depth with respect to the encoding target viewpoint.
  • this conversion returns the depth given by the argument as it is.
  • the inverse transformation matrix H ⁇ 1 of the transformation matrix H that transforms the position with respect to the encoding target viewpoint to the position with respect to the reference viewpoint may be obtained by calculating an inverse matrix from the transformation matrix,
  • the inverse transformation matrix may be obtained directly.
  • dr, prdep (q ′ i ) is the subject from the viewpoint r to the point q ′ i when the depth defined for the viewpoint r at the point q ′ i on the image of the viewpoint r is prdep.
  • the distance on the optical axis is shown.
  • an inverse transformation matrix H ′ is obtained by solving a homogeneous equation obtained according to the following equation.
  • the (3, 3) component of the transformation matrix H ′ is obtained by setting an arbitrary real number (for example, 1).
  • the converted motion information mv ′ depth is obtained by the following equation. It doesn't matter.
  • represents a norm
  • the L1 norm may be used or the L2 norm may be used.
  • the conversion and scaling described above may be performed simultaneously. In this case, the conversion may be performed after scaling or may be performed after the conversion.
  • the motion information used in the above description is expressed as indicating the corresponding position in the time direction by adding to the position of the encoding target viewpoint. If the corresponding position is represented by subtraction, it is necessary to reverse the direction of the vector in the motion information in the mathematical formula used in the above description.
  • FIG. 4 is a block diagram showing the configuration of the video decoding apparatus according to the present embodiment.
  • the video decoding apparatus 200 includes a bit stream input unit 201, a bit stream memory 202, a reference viewpoint motion information input unit 203, a depth map input unit 204, a motion information generation unit 205, an image decoding unit 206, and a reference.
  • An image memory 207 is provided.
  • the bit stream input unit 201 inputs a video bit stream to be decoded to the video decoding device 200.
  • a decoding target image one frame of the video to be decoded
  • the viewpoint here, camera B
  • the bit stream memory 202 stores a bit stream for the input decoding target image.
  • the reference viewpoint motion information input unit 203 inputs motion information (such as a motion vector) for the video of the reference viewpoint to the video decoding device 200.
  • the motion information input here is referred to as reference viewpoint motion information.
  • reference viewpoint motion information it is assumed that motion information of the camera A is input.
  • the depth map input unit 204 inputs a depth map, which is referred to when obtaining a correspondence relationship between pixels between viewpoints or generating motion information for a decoding target image, to the video decoding device 200.
  • a depth map for a decoding target image is input, but a depth map for another viewpoint such as a reference viewpoint may be used.
  • the depth map represents a three-dimensional position of a subject shown in each pixel of a corresponding image. For example, a distance from the camera to the subject, a coordinate value with respect to an axis that is not parallel to the image plane, and a parallax amount with respect to another camera (for example, camera A) can be used.
  • the depth map is provided in the form of an image, but the image may not be in the form of an image as long as similar information can be obtained.
  • the motion information generation unit 205 uses the reference viewpoint motion information and the depth map to generate motion information for the decoding target image.
  • the image decoding unit 206 decodes and outputs the decoding target image from the bitstream using the generated motion information.
  • the reference image memory 207 stores the obtained decoding target image for subsequent decoding.
  • FIG. 5 is a flowchart showing the operation of the video decoding apparatus 200 shown in FIG.
  • the bit stream input unit 201 inputs a bit stream obtained by encoding a decoding target image to the video decoding device 200 and stores it in the bit stream memory 202 (step S201).
  • the reference viewpoint motion information input unit 203 inputs reference viewpoint placement information to the video decoding device 200
  • the depth map input unit 204 inputs the depth map to the video decoding device 200, and outputs them to the motion information generation unit 205, respectively. (Step S202).
  • the reference viewpoint motion information and the depth map input in step S202 are the same as those used on the encoding side. This is to suppress the occurrence of encoding noise such as drift by using exactly the same information as that used at the time of encoding. However, if such encoding noise is allowed to occur, a different one from that used at the time of encoding may be input.
  • depth maps in addition to those separately decoded, depth maps estimated by applying stereo matching etc. to multi-view video decoded for multiple cameras, decoded parallax vectors, motion vectors, etc. A depth map estimated by using may be used.
  • the reference viewpoint motion information may be the motion information used when decoding the video for the reference viewpoint, or may be separately encoded for the reference viewpoint. It is also possible to use motion information obtained by decoding a video for the reference viewpoint and estimating the video.
  • Step S203 to S207 the decoding target image is divided into regions of a predetermined size, and the video signal of the decoding target image is decoded from the bit stream for each divided region.
  • processing unit blocks called macroblocks of 16 pixels ⁇ 16 pixels, but may be divided into blocks of other sizes as long as they are the same as those on the encoding side. Further, the entire image may not be divided into the same size, but may be divided into blocks having different sizes for each region.
  • the motion information generation unit 205 In the process repeated for each decoding target area, first, the motion information generation unit 205 generates motion information in the decoding target area blk (step S204).
  • the processing here is the same as the processing in step S104 described above, except that the encoding target region becomes the decoding target region.
  • the image decoding unit 206 performs motion compensation prediction using the motion information and the image stored in the reference image memory 207 while performing the motion compensation prediction in the decoding target region blk.
  • the video signal (pixel value) is decoded from the bit stream (step S205).
  • the obtained decoding target image is stored in the reference image memory 207 and is output from the video decoding device 200.
  • a method corresponding to the method used at the time of encoding is used for decoding the video signal.
  • MPEG-2 and H.264 When general encoding such as H.264 / AVC is used, the obtained bit stream is subjected to frequency inverse transform such as entropy decoding, inverse binarization, inverse quantization, and IDCT in order for the bitstream. The predicted image is added to the dimension signal, and finally, the video signal is decoded by performing clipping in the pixel value range.
  • the motion information is generated for each region obtained by dividing the encoding target image or the decoding target image.
  • the motion information is generated and stored in advance for all the regions in advance. You may make it refer to the stored motion information.
  • a flag indicating the process may be encoded / decoded, or may be designated by some other means.
  • whether or not to apply processing may be expressed as one of modes indicating a method for generating a predicted image for each region.
  • the transformation matrix is always generated. However, the transformation matrix does not change unless the positional relationship between the encoding target viewpoint or the decoding target viewpoint and the reference viewpoint or the definition of the depth (that is, the three-dimensional plane corresponding to each depth) changes.
  • a set may be obtained, and in this case, it is not necessary to recalculate the transformation matrix for each frame or each region. That is, each time the encoding target image or the decoding target image changes, it is expressed by the positional relationship between the encoding target viewpoint or the decoding target viewpoint and the reference viewpoint represented by a separately provided camera parameter, and the camera parameter in the immediately preceding frame. If the positional relationship does not change or is small, the set of transform matrices used in the immediately preceding frame is used as is.
  • the decoding side may determine whether to recalculate the transformation matrix based on the transmitted information. Only one piece of information indicating whether or not recalculation is necessary may be set for the entire frame, may be set for each reference viewpoint, or may be set for each depth.
  • a transformation matrix is generated for each depth value of the representative depth.
  • one depth value is set as a quantization depth for each range of depth values determined separately, and the quantization depth value is set.
  • a conversion matrix may be set for each. Since the representative depth can take any depth value in the range of depth, a transformation matrix for all depth values may be required. By doing so, the depth value that requires the transformation matrix is quantized. It can be limited to the same depth value as the depth.
  • a quantization depth is obtained from a section of depth values including the representative depth, and a transformation matrix is obtained using the quantization depth. In particular, when one quantization depth is set for the entire range of depth, the transformation matrix is unique for the reference view.
  • the depth value range for setting the quantization depth and the depth value for the quantization depth in each range may be set in any way. For example, it may be determined according to the depth distribution in the depth map. At this time, the motion of the video corresponding to the depth map may be examined, and the depth value distribution may be examined only for the depth with respect to an area where a certain amount of motion exists. By doing so, it becomes possible to share motion information between viewpoints when the motion is large, and it is possible to reduce a larger amount of code.
  • the encoding side determines the determined quantization method (the range of depth values corresponding to each quantization depth, the depth value of the quantization depth, etc.)
  • the decoding method may be obtained by decoding the quantization method from the encoded bit stream. Note that, in particular, when one quantization depth is set for the entire image, the quantization depth value may be encoded or decoded instead of the quantization method.
  • the transformation matrix is also generated on the decoding side using camera parameters or the like.
  • the transformation matrix obtained by calculation on the encoding side may be encoded and transmitted.
  • the decoding side does not generate the transformation matrix from the camera parameters or the like, but acquires it by decoding from the encoded bit stream.
  • the conversion matrix is always used.
  • the camera parameters are checked, and if the viewpoints are parallel, a lookup table (for conversion between input and output) is generated, and the lookup table is generated.
  • the depth and the parallax vector may be converted according to the above, and the method of the present invention may be used if the viewpoints are not parallel. Further, it is possible to check only on the encoding side and encode information indicating which method is used. In that case, the decoding side decodes the information and decides which method to use.
  • the homography matrix is used as the transformation matrix.
  • another matrix is used. May be used.
  • a simplified matrix may be used instead of a strict homography matrix.
  • an affine transformation matrix, a projection matrix, a matrix generated by combining a plurality of transformation matrices, or the like may be used.
  • another conversion matrix it is possible to appropriately control the conversion accuracy and calculation amount, the update frequency of the conversion matrix, the code amount when transmitting the conversion matrix, and the like.
  • the same transformation matrix is used for encoding and decoding.
  • FIG. 6 is a block diagram showing a hardware configuration when the video encoding apparatus 100 shown in FIG. 1 is configured by a computer and a software program.
  • the system shown in FIG. CPU 50 that executes the program
  • a memory 51 such as a RAM in which programs and data accessed by the CPU 50 are stored
  • An encoding target image input unit 52 that inputs a video signal to be encoded from a camera or the like into the video encoding device (may be a storage unit that stores a video signal by a disk device or the like)
  • Reference viewpoint motion information input unit 53 that inputs reference viewpoint motion information from a memory or the like into the video encoding device (may be a storage unit that stores motion information by a disk device or the like)
  • Depth map input unit 54 for inputting a depth map for a viewpoint where an encoding target image from a depth camera or the like (for obtaining depth information) is captured into the video encoding device (stores the depth map by the disk device or the like) (It may be
  • a bit stream output unit 56 that outputs a bit stream generated by the CPU 50 executing the video encoding program 551 loaded in the memory 51, for example, via a network (a storage for storing a bit stream by a disk device or the like) May be part) Are connected by a bus.
  • FIG. 7 is a block diagram showing a hardware configuration when the video decoding apparatus 200 shown in FIG. 4 is configured by a computer and a software program.
  • the system shown in FIG. CPU 60 for executing the program A memory 61 such as a RAM in which programs and data accessed by the CPU 60 are stored
  • a bit stream input unit 62 that inputs a bit stream encoded by the video encoding device according to the present method into the video decoding device (may be a storage unit that stores a bit stream by a disk device or the like)
  • Reference viewpoint motion information input unit 63 that inputs motion information of a reference viewpoint from a memory or the like into the video decoding device (may be a storage unit that stores motion information by a disk device or the like)
  • Depth map input unit 64 for inputting a depth map for a viewpoint from which a decoding target is captured from a depth camera or the like into the video decoding device may be a storage unit for storing depth information by a disk device or the like
  • a program storage device 65 that
  • a decoding target image output unit 66 (by a disk device or the like) that outputs a decoding target image obtained by decoding the bitstream to the playback device by the CPU 60 executing the video decoding program 651 loaded in the memory 61 Or a storage unit for storing video signals) Are connected by a bus.
  • the video encoding device 100 and the video decoding device 200 in the above-described embodiment may be realized by a computer.
  • a program for realizing this function may be recorded on a computer-readable recording medium, and the program recorded on this recording medium may be read into a computer system and executed.
  • the “computer system” includes an OS and hardware such as peripheral devices.
  • the “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM or a CD-ROM, and a hard disk incorporated in a computer system.
  • the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line.
  • a volatile memory inside a computer system serving as a server or a client in that case may be included and a program held for a certain period of time.
  • the program may be for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in the computer system. It may be realized using hardware such as PLD (Programmable Logic Device) or FPGA (Field Programmable Gate Array).
  • DESCRIPTION OF SYMBOLS 100 Video coding apparatus 101 ... Encoding object image input part 102 ... Encoding object image memory 103 ... Reference viewpoint motion information input part 104 ... Depth map input part 105 ... Motion Information generation unit 106 ... image encoding unit 107 ... image decoding unit 108 ... reference image memory 200 ... video decoding device 201 ... bit stream input unit 202 ... bit stream memory 203 ... Reference viewpoint motion information input unit 204 ... depth map input unit 205 ... motion information generation unit 206 ... image decoding unit 207 ... reference image memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

 多視点映像中の被写体に対するデプスマップから設定される代表デプスに基づいて、当該多視点映像の1フレームである符号化対象画像上の位置を、符号化対象画像とは異なる視点に対する参照視点画像上の位置へと変換する変換行列を設定する。前記符号化対象画像を分割した符号化対象領域内に代表位置を設定し、該代表位置と前記変換行列を用いて、前記代表位置に対する前記参照視点画像上での対応位置を設定する。その対応位置に基づいて、前記参照視点画像の動き情報から前記符号化対象領域における合成動き情報を生成し、これを用いて前記符号化対象領域に対する予測画像を生成する。

Description

映像符号化装置及び方法、映像復号装置及び方法、及び、それらのプログラム
 本発明は、映像符号化装置、映像復号装置、映像符号化方法、映像復号方法、映像符号化プログラム、及び、映像復号プログラムに関する。
 自由視点映像とは、撮影空間内でのカメラの位置や向き(以下、視点と称する)をユーザが自由に指定できる映像のことである。自由視点映像では、ユーザが任意の視点を指定するが、可能な全ての視点に対する映像を保持することは不可能である。そのため、自由視点映像は、指定された視点の映像を生成するのに必要な情報群によって構成される。
 なお、自由視点映像は、自由視点テレビ、任意視点映像、任意視点テレビなどと呼ばれることもある。
 自由視点映像は様々なデータ形式を用いて表現されるが、最も一般的な形式として映像とその映像の各フレームに対するデプスマップ(距離画像)を用いる方式がある(例えば、非特許文献1参照)。
 ここで、デプスマップとは、カメラから被写体までのデプス(距離)を画素ごとに表現したものであり、被写体の三次元的な位置を表現している。ある条件を満たす場合、デプスは二つのカメラ間の視差の逆数に比例しているため、ディスパリティマップ(視差画像)と呼ばれることもある。
 コンピュータグラフィックスの分野では、デプスはZバッファに記憶された情報となるため、Z画像やZマップと呼ばれることもある。
 なお、カメラから被写体までの距離の他に、表現対象空間上に張られた三次元座標系のZ軸に対する座標値をデプスとして用いることもある。一般に、撮影された画像に対して水平方向をX軸、垂直方向をY軸とするため、Z軸はカメラの向きと一致するが、複数のカメラに対して共通の座標系を用いる場合など、Z軸がカメラの向きと一致しない場合もある。
 以下では、距離・Z値を区別せずにデプスと呼び、デプスを画素値として表した画像をデプスマップと呼ぶ。ただし、厳密にはディスパリティマップでは基準となるカメラ対を設定する必要がある。
 デプスを画素値として表す際に、物理量に対応する値をそのまま画素値とする方法と、最小値と最大値の間をある数に量子化して得られる値を用いる方法と、最小値からの差をあるステップ幅で量子化して得られる値を用いる方法がある。表現したい範囲が限られている場合には、最小値などの付加情報を用いるほうがデプスを高精度に表現することができる。
 また、等間隔に量子化する際に、物理量をそのまま量子化する方法と物理量の逆数を量子化する方法とがある。距離の逆数は視差に比例した値となるため、距離を高精度に表現する必要がある場合には、前者が使用され、視差を高精度に表現する必要がある場合には、後者が使用されることが多い。
 以下では、デプスの画素値化の方法や量子化の方法に関係なく、デプスが画像として表現されたものを全てデプスマップと呼ぶ。
 デプスマップは、各画素が一つの値を持つ画像として表現されるため、グレースケール画像とみなすことができる。また、被写体が実空間上で連続的に存在し、瞬間的に離れた位置へ移動することができないため、画像信号と同様に空間的相関および時間的相関を持つと言える。したがって、通常の画像信号や映像信号を符号化するために用いられる画像符号化方式や映像符号化方式によって、デプスマップや連続するデプスマップで構成される映像を空間的冗長性や時間的冗長性を取り除きながら効率的に符号化することが可能である。
 以下では、デプスマップとそれにより構成される映像を区別せずにデプスマップと呼ぶ。
 ここで、一般的な映像符号化について説明する。
 映像符号化では、被写体が空間的および時間的に連続しているという特徴を利用して効率的な符号化を実現するために、映像の各フレームをマクロブロックと呼ばれる処理単位ブロックに分割し、マクロブロックごとにその映像信号を空間的または時間的に予測し、その予測方法を示す予測情報と予測残差とを符号化する。
 映像信号を空間的に予測する場合は、例えば空間的な予測の方向を示す情報が予測情報となり、時間的に予測する場合は、例えば参照するフレームを示す情報とそのフレーム中の位置を示す情報とが予測情報となる。
 空間的に行う予測は、フレーム内の予測であることから、フレーム内予測(画面内予測、イントラ予測)と呼ばれ、時間的に行う予測は、フレーム間の予測であることから、フレーム間予測(画面間予測、インター予測)と呼ばれる。
 また、時間的に行う予測では、映像の時間的変化、すなわち動きを補償して映像信号の予測を行うことになるため、動き補償予測とも呼ばれる。
 さらに、同じシーンを複数の位置や向きから撮影した映像からなる多視点映像を符号化する際には、映像の視点間の変化、すなわち視差を補償して映像信号の予測を行うことになるため、視差補償予測が用いられる。
 複数の視点に対する映像とデプスマップとで構成される自由視点映像の符号化においては、どちらも空間相関と時間相関を持つことから、通常の映像符号化方式を用いてそれぞれを符号化することで、データ量を削減できる。
 例えば、MPEG-C Part.3を用いて、多視点映像とそれに対するデプスマップを表現する場合は、それぞれを既存の映像符号化方式を用いて符号化する。
 また、複数の視点に対する映像とデプスマップとを一緒に符号化する場合、動き情報について視点間で存在する相関を利用して、効率的な符号化を実現する方法がある。
 非特許文献2では、処理対象の領域に対して、視差ベクトルを用いて、既に処理済みの別の視点の映像の領域を決定し、その領域を符号化する際に使用された動き情報を、処理対象の領域の動き情報またはその予測値として用いている。このとき効率的な符号化を実現するためには、処理対象の領域に対して精度の高い視差ベクトルを獲得する必要がある。
 非特許文献2では、最も単純な方法として、処理対象の領域と時間または空間的に隣接する領域に対して与えられた視差ベクトルを、処理対象領域の視差ベクトルとする方法が用いられている。更に、より正確な視差ベクトルを求めるために、処理対象の領域に対するデプスを推定または取得し、そのデプスを変換して視差ベクトルを獲得する方法も用いられている。
Y. Mori, N. Fukusima, T. Fujii, and M. Tanimoto,"View Generation with 3D Warping Using Depth Information for FTV ",In Proceedings of 3DTV-CON2008, pp. 229-232, May 2008. G. Tech, K. Wegner, Y. Chen, and S. Yea, "3D-HEVC Draft Text 1", JCT-3V Doc., JCT3V-E1001 (version 3), September, 2013.
 非特許文献2に記載の方法によれば、デプスマップの値を変換し高精度な視差ベクトルを獲得することで、高効率な予測符号化を実現することが可能である。
 しかしながら、非特許文献2に記載の方法では、デプスを視差ベクトルへ変換する際に、視差がデプス(カメラから被写体までの距離)の逆数に比例していると仮定している。より具体的には、デプスの逆数、カメラの焦点距離、視点間の距離の、三者の積によって視差を求めている。このような変換は、2つの視点が同じ焦点距離を持ち、視点の向き(カメラの光軸)が3次元的に平行である場合には正しい結果を与えるが、それ以外の状況では誤った結果を与えることになる。
 正確な変換を行うためには、非特許文献1に記載されているように、画像上の点をデプスに従って三次元空間へ逆投影することで三次元点を得た後、その三次元点を別の視点へ再投影することで別の視点に対する画像上での点を計算する必要がある。
 しかしながら、このような変換では複雑な演算が必要となり、演算量が増加してしまうという問題がある。また、視点の向きが異なる場合、2つの視点に対する映像上での動きベクトルが同じになることは極めて少ない。そのため、視差ベクトルが正しく得られたとしても、非特許文献2に記載の方法に従って、別の視点における動き情報を処理対象の領域に対する動き情報として用いた場合、誤った動き情報を与えてしまい、効率的な符号化を実現することができないという問題がある。
 本発明は、このような事情に鑑みてなされたもので、複数の視点に対する映像とデプスマップとを構成要素に持つ自由視点映像データの符号化において、視点の向きが平行でない場合でも、動きベクトルの視点間予測の精度を向上させることで、効率的な映像符号化を実現することができる映像符号化装置、映像復号装置、映像符号化方法、映像復号方法、映像符号化プログラム、及び、映像復号プログラムを提供することを目的とする。
 本発明は、複数の異なる視点の映像からなる多視点映像の1フレームである符号化対象画像を符号化する際に、前記符号化対象画像を分割した領域である符号化対象領域ごとに、異なる視点間で予測しながら符号化を行う映像符号化装置であって、
 前記多視点映像中の被写体に対するデプスマップから代表デプスを設定する代表デプス設定手段と、
 前記代表デプスに基づいて、前記符号化対象画像上の位置を、該符号化対象画像とは異なる参照視点に対する参照視点画像上の位置へと変換する変換行列を設定する変換行列設定手段と、
 前記符号化対象領域内の位置から代表位置を設定する代表位置設定手段と、
 前記代表位置と前記変換行列を用いて、前記代表位置に対する前記参照視点画像上での対応位置を設定する対応位置設定手段と、
 前記対応位置に基づいて、前記参照視点画像の動き情報である参照視点動き情報から前記符号化対象領域における合成動き情報を生成する動き情報生成手段と、
 前記合成動き情報を用いて、前記符号化対象領域に対する予測画像を生成する予測画像生成手段と
 を有する映像符号化装置を提供する。
 典型例として、前記符号化対象領域に対して、前記デプスマップ上での対応領域であるデプス領域を設定するデプス領域設定手段をさらに有し、
 前記代表デプス設定手段は、前記デプス領域に対する前記デプスマップから代表デプスを設定する。
 この場合、前記符号化対象領域に対して、前記デプスマップに対する視差ベクトルであるデプス参照視差ベクトルを設定するデプス参照視差ベクトル設定手段をさらに有し、
 前記デプス領域設定手段は、前記デプス参照視差ベクトルによって示される領域を前記デプス領域として設定するようにしても良い。
 更に、前記デプス参照視差ベクトル設定手段は、前記符号化対象領域に隣接する領域を符号化する際に使用した視差ベクトルを用いて、前記デプス参照視差ベクトルを設定するようにしても良い。
 また、前記代表デプス設定手段は、四角形状を有する前記符号化対象領域の4頂点の画素に対応する前記デプス領域内のデプスのうち、最もカメラに近いことを示すデプスを代表デプスとして設定するようにしても良い。
 好適例として、前記変換行列を用いて、前記合成動き情報を変換する合成動き情報変換手段をさらに有し、
 前記予測画像生成手段は、前記変換された合成動き情報を用いる。
 別の好適例として、前記対応位置と前記合成動き情報とに基づいて、前記デプスマップから過去デプスを設定する過去デプス設定手段と、
 前記過去デプスに基づいて、前記参照視点画像上の位置を前記符号化対象画像上の位置へと変換する逆変換行列を設定する逆変換行列設定手段と、
 前記逆変換行列を用いて、前記合成動き情報を変換する合成動き情報変換手段とをさらに有し、
 前記予測画像生成手段は、前記変換された合成動き情報を用いる。
 本発明はまた、複数の異なる視点の映像からなる多視点動画像の符号データから、復号対象画像を復号する際に、前記復号対象画像を分割した領域である復号対象領域ごとに、異なる視点間で予測しながら復号を行う映像復号装置であって、
 前記多視点映像中の被写体に対するデプスマップから代表デプスを設定する代表デプス設定手段と、
 前記代表デプスに基づいて、前記復号対象画像上の位置を、該復号対象画像とは異なる参照視点に対する参照画像上の位置へと変換する変換行列を設定する変換行列設定手段と、
 前記復号対象領域内の位置から代表位置を設定する代表位置設定手段と、
 前記代表位置と前記変換行列を用いて、前記代表位置に対する前記参照視点画像上での対応位置を設定する対応位置設定手段と、
 前記対応位置に基づいて、前記参照視点画像の動き情報である参照視点動き情報から前記復号対象領域における合成動き情報を生成する動き情報生成手段と、
 前記合成動き情報を用いて、前記復号対象領域に対する予測画像を生成する予測画像生成手段と
 を有する映像復号装置も提供する。
 典型例として、前記復号対象領域に対して、前記デプスマップ上での対応領域であるデプス領域を設定するデプス領域設定手段をさらに有し、
 前記代表デプス設定手段は、前記デプス領域に対する前記デプスマップから代表デプスを設定する。
 この場合、前記復号対象領域に対して、前記デプスマップに対する視差ベクトルであるデプス参照視差ベクトルを設定するデプス参照視差ベクトル設定手段をさらに有し、
 前記デプス領域設定手段は、前記デプス参照視差ベクトルによって示される領域を前記デプス領域として設定するようにしても良い。
 更に、前記デプス参照視差ベクトル設定手段は、前記復号対象領域に隣接する領域を復号する際に使用した視差ベクトルを用いて、前記デプス参照視差ベクトルを設定するようにしても良い。
 また、前記代表デプス設定手段は、四角形状を有する前記復号対象領域の4頂点の画素に対応する前記デプス領域内のデプスのうち、最もカメラに近いことを示すデプスを代表デプスとして設定するようにしても良い。
 好適例として、前記変換行列を用いて、前記合成動き情報を変換する合成動き情報変換手段をさらに有し、
 前記予測画像生成手段は、前記変換された合成動き情報を用いる。
 別の好適例として、前記対応位置と前記合成動き情報とに基づいて、前記デプスマップから過去デプスを設定する過去デプス設定手段と、
 前記過去デプスに基づいて、前記参照視点画像上の位置を前記復号対象画像上の位置へと変換する逆変換行列を設定する逆変換行列設定手段と、
 前記逆変換行列を用いて、前記合成動き情報を変換する合成動き情報変換手段とをさらに有し、
 前記予測画像生成手段は、前記変換された合成動き情報を用いる。
 本発明はまた、複数の異なる視点の映像からなる多視点映像の1フレームである符号化対象画像を符号化する際に、前記符号化対象画像を分割した領域である符号化対象領域ごとに、異なる視点間で予測しながら符号化を行う映像符号化方法であって、
 前記多視点映像中の被写体に対するデプスマップから代表デプスを設定する代表デプス設定ステップと、
 前記代表デプスに基づいて、前記符号化対象画像上の位置を、該符号化対象画像とは異なる参照視点に対する参照視点画像上の位置へと変換する変換行列を設定する変換行列設定ステップと、
 前記符号化対象領域内の位置から代表位置を設定する代表位置設定ステップと、
 前記代表位置と前記変換行列を用いて、前記代表位置に対する前記参照視点画像上での対応位置を設定する対応位置設定ステップと、
 前記対応位置に基づいて、前記参照視点画像の動き情報である参照視点動き情報から前記符号化対象領域における合成動き情報を生成する動き情報生成ステップと、
 前記合成動き情報を用いて、前記符号化対象領域に対する予測画像を生成する予測画像生成ステップと
 を有する映像符号化方法も提供する。
 本発明はまた、複数の異なる視点の映像からなる多視点動画像の符号データから、復号対象画像を復号する際に、前記復号対象画像を分割した領域である復号対象領域ごとに、異なる視点間で予測しながら復号を行う映像復号方法であって、
 前記多視点映像中の被写体に対するデプスマップから代表デプスを設定する代表デプス設定ステップと、
 前記代表デプスに基づいて、前記復号対象画像上の位置を、該復号対象画像とは異なる参照視点に対する参照画像上の位置へと変換する変換行列を設定する変換行列設定ステップと、
 前記復号対象領域内の位置から代表位置を設定する代表位置設定ステップと、
 前記代表位置と前記変換行列を用いて、前記代表位置に対する前記参照視点画像上での対応位置を設定する対応位置設定ステップと、
 前記対応位置に基づいて、前記参照視点画像の動き情報である参照視点動き情報から前記復号対象領域における合成動き情報を生成する動き情報生成ステップと、
 前記合成動き情報を用いて、前記復号対象領域に対する予測画像を生成する予測画像生成ステップと
 を有する映像復号方法も提供する。
 本発明はまた、コンピュータに、前記映像符号化方法を実行させるための映像符号化プログラムも提供する。
 本発明はまた、コンピュータに、前記映像復号方法を実行させるための映像復号プログラムも提供する。
 本発明によれば、複数の視点に対する映像がその映像に対するデプスマップと共に符号化または復号される場合に、視点間の画素の対応関係をデプス値に対して定義される1つの行列を用いて求めることで、視点の向きが平行でない場合でも、複雑な演算を行うことなく、動きベクトルの視点間予測の精度を向上させることが可能となり、少ない符号量で映像を符号化することができるという効果が得られる。
本発明の一実施形態による映像符号化装置の構成を示すブロック図である。 図1に示す映像符号化装置100の動作を示すフローチャートである。 図2に示す動き情報生成部105における動き情報を生成する動作(ステップS104)の処理動作を示すフローチャートである。 本発明の一実施形態による映像復号装置の構成を示すブロック図である。 図4に示す映像復号装置200の動作を示すフローチャートである。 図1に示す映像符号化装置100をコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア構成を示すブロック図である。 図4に示す映像復号装置200をコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア構成を示すブロック図である。
 以下、図面を参照して、本発明の実施形態による映像符号化装置及び映像復号装置を説明する。
 以下の説明においては、第1のカメラ(カメラAという)、第2のカメラ(カメラBという)の2つのカメラで撮影された多視点映像を符号化する場合を想定し、カメラAを参照視点としてカメラBの映像の1フレームを符号化または復号するものとして説明する。
 なお、デプスから視差を得るために必要となる情報は、別途与えられているものとする。具体的には、カメラAとカメラBの位置関係を表す外部パラメータや、カメラによる画像平面への投影情報を表す内部パラメータである、これらと同じ意味をもつものであれば、別の形式で必要な情報が与えられていてもよい。
 これらのカメラパラメータに関する詳しい説明は、例えば、文献「Oliver Faugeras, "Three-Dimension Computer Vision", MIT Press; BCTC/UFF-006.37 F259 1993, ISBN:0-262-06158-9.」に記載されている。この文献には、複数のカメラの位置関係を示すパラメータや、カメラによる画像平面への投影情報を表すパラメータに関する説明が記載されている。
 以下の説明では、画像や映像フレーム、デプスマップに対して、位置を特定可能な情報(座標値もしくは座標値に対応付け可能なインデックスなど)を付加する(例えば後述の符号化対象領域インデックスblk)ことで、その位置(範囲)の画素によってサンプリングされた画像信号や、それに対するデプスを示すものとする。
 また、座標値やブロックに対応付け可能なインデックス値とベクトルとの加算によって、その座標やブロックをベクトルの分だけずらした位置の座標値やブロックを表すものとする。
 図1は本実施形態による映像符号化装置の構成を示すブロック図である。
 映像符号化装置100は、図1に示すように、符号化対象画像入力部101、符号化対象画像メモリ102、参照視点動き情報入力部103、デプスマップ入力部104、動き情報生成部105、画像符号化部106、画像復号部107及び参照画像メモリ108を備えている。
 符号化対象画像入力部101は、符号化対象となる映像の1フレームを映像符号化装置100に入力する。以下では、この符号化対象となる映像および入力され符号化されるフレームを、それぞれ、符号化対象映像および符号化対象画像と称する。ここではカメラBの映像を1フレームずつ入力するものとする。また、符号化対象映像を撮影した視点(ここではカメラBの視点)を符号化対象視点と称する。
 符号化対象画像メモリ102は、入力した符号化対象画像を記憶する。
 参照視点動き情報入力部103は、参照視点の映像に対する動き情報(動きベクトルなど)を映像符号化装置100に入力する。以下では、ここで入力された動き情報を、参照視点動き情報と呼ぶ。ここではカメラAの動き情報を入力するものとする。
 デプスマップ入力部104は、視点間の画素の対応関係を求めたり、動き情報を生成したりする際に参照するデプスマップを映像符号化装置100に入力する。ここでは、符号化対象画像に対するデプスマップを入力するものとするが、参照視点など別の視点に対するデプスマップでも構わない。
 なお、デプスマップとは、対応する画像の各画素に写っている被写体の3次元位置を表すものである。例えば、カメラから被写体までの距離や、画像平面とは平行ではない軸に対する座標値、別のカメラ(例えばカメラA)に対する視差量を用いることができる。
 なお、ここではデプスマップとして画像の形態で提供されるものとしているが、同様の情報が得られるのであれば、画像の形態でなくても構わない。
 動き情報生成部105は、参照視点動き情報とデプスマップとを用いて、符号化対象画像に対する動き情報を生成する。
 画像符号化部106は、生成された動き情報を用いながら、符号化対象画像を予測符号化する。
 画像復号部107は、符号化対象画像のビットストリームを復号する。
 参照画像メモリ108は、符号化対象画像のビットストリームを復号した際に得られる画像を記憶する。
 次に、図2を参照して、図1に示す映像符号化装置100の動作を説明する。図2は、図1に示す映像符号化装置100の動作を示すフローチャートである。
 まず、符号化対象画像入力部101は、符号化対象画像Orgを入力し、符号化対象画像メモリ102に記憶する(ステップS101)。
 次に、参照視点動き情報入力部103は参照視点動き情報を映像符号化装置100に入力し、デプスマップ入力部104はデプスマップを映像符号化装置100に入力し、それぞれ動き情報生成部105へ出力される(ステップS102)。
 なお、ステップS102で入力される参照視点動き情報とデプスマップは、既に符号化済みのものを復号したものなど、復号側で得られるものと同じものとする。これは復号装置で得られるものと全く同じ情報を用いることで、ドリフト等の符号化ノイズの発生を抑えるためである。ただし、そのような符号化ノイズの発生を許容する場合には、符号化前のものなど、符号化側でしか得られないものが入力されてもよい。
 デプスマップに関しては、既に符号化済みのものを復号したもの以外に、複数のカメラに対して復号された多視点映像に対してステレオマッチング等を適用することで推定したデプスマップや、復号された視差ベクトルや動きベクトルなどを用いて推定されるデプスマップなども、復号側で同じものが得られるものとして用いることができる。
 参照視点動き情報は、参照視点に対する映像を符号化する際に使用された動き情報を用いても構わないし、参照視点に対して別途符号化されたものでも構わない。また、参照視点に対する映像を復号し、そこから推定して得られた動き情報を用いることも可能である。
 符号化対象画像、参照視点動き情報、デプスマップの入力が終了したら、符号化対象画像を予め定められた大きさの領域に分割し、分割した領域ごとに、符号化対象画像の映像信号を符号化する(ステップS103~S108)。
 すなわち、符号化対象領域インデックスをblk、1フレーム中の総符号化対象領域数をnumBlksで表すとすると、blkを0で初期化し(ステップS103)、その後、blkに1を加算しながら(ステップS107)、blkがnumBlksになるまで(ステップS108)、以下の処理(ステップS104~S106)を繰り返す。
 一般的な符号化では16画素×16画素のマクロブロックと呼ばれる処理単位ブロックへ分割するが、復号側と同じであればその他の大きさのブロックに分割しても構わない。また、画像全体を同じサイズで分割せず、領域ごとに異なるサイズのブロックに分割しても構わない。
 符号化対象領域ごとに繰り返される処理では、まず、動き情報生成部105は、符号化対象領域blkにおける動き情報を生成する(ステップS104)。ここでの処理は後で詳しく説明する。
 符号化対象領域blkに対する動き情報が得られたら、画像符号化部106は、その動き情報と参照画像メモリ108に記憶された画像とを用いて動き補償予測を行いながら、符号化対象領域blkにおける符号化対象画像の映像信号(画素値)を符号化する(ステップ105)。符号化の結果得られるビットストリームが映像符号化装置100の出力となる。なお、符号化する方法には、どのような方法を用いても構わない。
 MPEG-2やH.264/AVCなどの一般的な符号化では、ブロックblkの映像信号と予測画像との差分信号に対して、DCTなどの周波数変換、量子化、2値化、エントロピー符号化を順に施すことで符号化を行う。
 次に、画像復号部107は、ビットストリームからブロックblkに対する映像信号を復号し、復号結果であるところの復号画像Dec[blk]を参照画像メモリ109に記憶する(ステップS106)。
 ここでは、符号化時に用いた手法に対応する手法を用いる。例えば、MPEG-2やH.264/AVCなどの一般的な符号化であれば、符号データに対して、エントロピー復号、逆2値化、逆量子化、IDCTなどの周波数逆変換を順に施し、得られた2次元信号に対して予測画像を加え、最後に画素値の値域でクリッピングを行うことで映像信号を復号する。
 なお、符号化側での処理がロスレスになる直前のデータと予測画像を受け取り、簡略化した復号処理によって復号処理を行っても構わない。
 すなわち、前述の例であれば、符号化時に量子化処理を加えた後の値と動き補償予測画像とを受け取り、その量子化後の値に逆量子化、周波数逆変換を順に施して得られた2次元信号に対して動き補償予測画像を加え、画素値の値域でクリッピングを行うことで映像信号を復号しても構わない。
 次に、図3を参照して、動き情報生成部105が行う符号化対象領域blkにおける動き情報を生成する処理(ステップS104)について詳細に説明する。図3は、図2に示す動き情報生成部105における動き情報を生成する動作(ステップS104)の処理動作を示すフローチャートである。
 動き情報を生成する処理において、まず、動き情報生成部105は、符号化対象領域blkに対するデプスマップを設定する(ステップS1401)。ここでは、符号化対象画像に対するデプスマップが入力されているため、符号化対象領域blkと同じ位置のデプスマップを設定することとなる。
 なお、符号化対象画像とデプスマップの解像度が異なる場合は、解像度比に応じてスケーリングした領域を設定する。符号化対象視点と異なる視点の1つをデプス視点とするとき、デプス視点に対するデプスマップを用いる場合は、符号化対象領域blkにおける符号化対象視点とデプス視点の視差DVを求め、blk+DVにおけるデプスマップを設定する。符号化対象画像とデプスマップの解像度が異なる場合は、上述のように、解像度比に応じて位置および大きさのスケーリングを行う。
 符号化対象領域blkにおける符号化対象視点とデプス視点の視差DVは、復号側と同じ方法であればどのような方法を用いて算出しても構わない。
 例えば、符号化対象領域blkの周辺領域を符号化する際に使用された視差ベクトルや、符号化対象画像全体や符号化対象領域を含む部分画像に対して設定されたグローバル視差ベクトル、符号化対象領域に対して別途設定し符号化される視差ベクトルなどを用いることが可能である。また、異なる領域や過去に符号化された画像で使用した視差ベクトルを記憶しておき、用いても構わない。
 更に、符号化対象視点に対して過去に符号化されたデプスマップの符号化対象領域と同位置のデプスマップを変換して得られる視差ベクトルを用いても構わない。
 次に、動き情報生成部105は、設定されたデプスマップから、(本発明の「代表位置」としての)代表画素位置posと代表デプスrepを決定する(ステップS1402)。どのような方法を用いて代表画素位置と代表デプスを決定しても構わないが、復号側と同じ方法を用いる必要がある。
 代表画素位置posを設定する代表的な方法としては、代表画素位置として符号化対象領域内の中央や左上など予め定められた位置を設定する方法や、代表デプスを求めた後に、その代表デプスと同じデプスを持つ符号化対象領域内の画素の位置を設定する方法がある。
 また、別の方法として、予め定められた位置の画素に対するデプスを比較して、予め定められた条件を満たすデプスを持つ画素の位置を設定する方法がある。
 具体的には、符号化対象領域内の中央に位置する4つの画素や、(四角形状の符号化対象領域の)4頂点に位置する画素、4頂点と中央に位置する画素を対象とし、最大のデプスや、最小のデプス、中央値のデプスなどを与える画素を選択する方法である。
 代表デプスrepを設定する代表的な方法としては、符号化対象領域blkに対するデプスマップの平均値や中央値、最大値、最小値などを用いる方法がある。
 また、符号化対象領域内の全ての画素ではなく、一部の画素に対するデプス値の平均値や中央値、最大値、最小値などを用いても構わない。一部の画素としては、4頂点や4頂点と中央などを用いても構わない。更に、符号化対象領域に対して、左上や中央など予め定められた位置に対するデプス値を用いる方法もある。
 動き情報生成部105は、代表画素位置posおよび代表デプスが得られたら、次に変換行列Hrepを求める(ステップS1403)。
 ここで、変換行列はホモグラフィ行列と呼ばれ、代表デプスで表現される平面に被写体が存在すると仮定したときに、視点間での画像平面上の点の対応関係を与えるものである。なお、変換行列Hrepはどのように求めても構わない。例えば、次の数式を用いて求めることが可能である。
Figure JPOXMLDOC01-appb-M000001
 なお、Rとtは、符号化対象視点と参照視点との間の3x3回転行列と並進ベクトルをそれぞれ表し、Drepは代表デプス、n(Drep)は符号対象視点における代表デプスDrepに対応する三次元平面の法線ベクトルを示し、d(Drep)はその三次元平面と、符号化対象視点と参照視点の視点中心との間の距離を示す。また、右肩のTはベクトルの転置を表す。
 変換行列Hrepの別の求め方としては、まず、符号化対象画像中の異なる4点p(i=1,2,3,4)に対して、次の式に基づいて、参照視点の画像上の対応点qを求める。
Figure JPOXMLDOC01-appb-M000002
 ここで、PおよびPは、それぞれ符号化対象視点および参照視点における3×4カメラ行列を示す。ここでのカメラ行列は、カメラの内部パラメータをA、世界座標系(カメラに依存しない任意の共通な座標系)からカメラ座標系への回転行列をR、世界座標系からカメラ座標系への並進を表す列ベクトルをtで表すと、A[R|t]で与えられる([R|t]はRとtを並べて作られる3x4行列であり、カメラの外部パラメータと呼ばれる)。なお、ここでのカメラ行列Pの逆行列P-1は、カメラ行列Pによる変換の逆変換に対応する行列であるとし、R-1[A-1|-t]で表される。
 d(p)は、符号化対象画像上の点pにおけるデプスが代表デプスであるとしたときの、符号化対象視点から点pにおける被写体までの光軸上の距離を示す。
 sは任意の実数であるが、カメラパラメータの誤差がない場合、sは参照視点の画像上の点qにおける参照視点から点qにおける被写体までの光軸上の距離d(q)と等しい。
 また、上記定義に従い式2を計算すると、次の数式となる。なお、内部パラメータA、回転行列R、並進ベクトルtの添え字tとrは各カメラを表し、それぞれ符号化対象視点と参照視点を示す。
Figure JPOXMLDOC01-appb-M000003
 4つの対応点が求まったら、次の式に従って得られる同次方程式を解くことで変換行列Hrepを得る。ただし、変換行列Hrepの(3,3)成分は任意の実数(例えば1)を設定して求める。
Figure JPOXMLDOC01-appb-M000004
 変換行列Hrepは参照視点とデプスに依存することから、代表デプスを求める度に毎回求めても構わないし、領域ごとの処理を開始する前に、参照視点とデプスの組み合わせ毎に求めておき、変換行列Hrepを求める段階で、既に計算してある変換行列群の中から、参照視点及び代表デプスをもとに、1つの変換行列を選択・設定しても構わない。
 代表デプスに対する変換行列が得られたら、動き情報生成部105は、次の数式に基づいて参照視点上の対応位置を求める(ステップS1404)。
Figure JPOXMLDOC01-appb-M000005
 ここで、kは任意の実数を表し、(u,v)で与えられる位置が、求める参照視点上の位置である。
 次に、参照視点における対応位置が得られたら、動き情報生成部105は、その位置を含む領域に対して入力されて記憶されている参照視点動き情報を、符号化対象領域blkに対する動き情報として設定する(ステップS1405)。
 なお、対応位置(u,v)を含む領域に対して参照視点動き情報が記憶されていない場合は、動き情報なしの情報を設定しても、ゼロベクトルなどデフォルトの動き情報を設定しても、対応位置(u,v)に最も近い動き情報を記憶している領域を同定して、その領域において記憶されている参照視点動き情報を設定しても構わない。ただし、復号側と同じ規則で動き情報を設定する。
 前述した説明では、参照視点動き情報をそのまま動き情報として設定したが、時間間隔を予め設定し、動き情報を、その予め定められた時間間隔と参照視点動き情報における時間間隔に従ってスケーリングし、参照視点動き情報における時間間隔をその予め定められた時間間隔に置き換えて得られる動き情報を設定しても構わない。
 このようにすることで、異なる領域に対して生成される動き情報が全て同じ時間間隔を持つことになり、動き補償予測を行う際の参照画像を統一し、アクセスするメモリ空間を限定することが可能となる。なお、アクセスするメモリ空間が限定されることによって、キャッシュメモリのヒット率を向上させ、処理速度を向上することが可能となる。
 また、前述した説明では、参照視点動き情報をそのまま動き情報として設定したが、変換行列Hrepを用いて変換したものを設定しても構わない。
 すなわち、ステップS1405において設定された動き情報をmv=(mv,mvとすると、変換した動き情報mv’は次の数式で表される。
Figure JPOXMLDOC01-appb-M000006
 ここで、sは任意の実数を表す。
 さらに、ステップS1405において設定された動き情報の示す時間間隔に対応する参照視点におけるデプスマップを参照でき、位置(u+mv,v+mv)におけるデプスをprdepであるとすると、次の式に基づいて求めたp’を用いてmv’を求めても構わない。
Figure JPOXMLDOC01-appb-M000007
 ここでdr→t(prdep)は、参照視点に対して表現されたデプスprdepを符号化対象視点に対する表現のデプスへと変換する関数である。
 符号化対象視点と参照視点とで共通する軸を用いてデプスを表現している場合、この変換は、引数で与えられたデプスをそのまま返す。
 なお、ここでは符号化対象視点に対する位置から参照視点に対する位置へと変換する変換行列Hの逆変換行列H-1を用いているが、変換行列から逆行列を計算して得ても構わないし、逆変換行列を直接求めても構わない。
 直接計算する場合、まず、参照視点に対する画像中の異なる4点q’(i=1,2,3,4)に対して、次の式に基づいて、符号化対象視点の画像上の対応点p’を求める。
Figure JPOXMLDOC01-appb-M000008
 ここで、dr,prdep(q’)は、視点rの画像上の点q’における視点rに対して定義されたデプスをprdepとしたときの、視点rから点q’における被写体までの光軸上の距離を示す。
 4つの対応点が求まったら、次の数式に従って得られる同次方程式を解くことで、逆変換行列H’を得る。ただし、変換行列H’の(3,3)成分は任意の実数(例えば1)を設定して求める。
Figure JPOXMLDOC01-appb-M000009
 また、ステップS1405において設定された動き情報の示す時間間隔に対応する、符号化視点におけるデプスマップDt,Ref(blk)を参照できる場合、次の数式で変換後の動き情報mv’depthを求めても構わない。
Figure JPOXMLDOC01-appb-M000010
 ここで∥∥はノルムを示し、L1ノルムを用いても構わないし、L2ノルムを用いても構わない。
 上記説明した変換とスケーリングを、同時に施しても構わない。その場合、スケーリングした後に変換しても、変換したあとにスケーリングしても構わない。
 前述した説明で用いた動き情報は、符号化対象視点の位置に対して加算することで、時間方向の対応位置を示すものとして表現している。もし減算することで対応位置を表す場合、上記説明で用いた数式における動き情報では、ベクトルの向きを逆転させる必要がある。
 次に、本実施形態による映像復号装置について説明する。
 図4は本実施形態による映像復号装置の構成を示すブロック図である。映像復号装置200は、図4に示すように、ビットストリーム入力部201、ビットストリームメモリ202、参照視点動き情報入力部203、デプスマップ入力部204、動き情報生成部205、画像復号部206及び参照画像メモリ207を備えている。
 ビットストリーム入力部201は、復号対象となる映像のビットストリームを映像復号装置200に入力する。以下では、この復号対象となる映像の1フレームを復号対象画像と呼ぶ。ここではカメラBの映像の1フレームを指す。また、以下では、復号対象画像を撮影した視点(ここではカメラB)を復号対象視点と呼ぶ。
 ビットストリームメモリ202は、入力した復号対象画像に対するビットストリームを記憶する。
 参照視点動き情報入力部203は、参照視点の映像に対する動き情報(動きベクトルなど)を映像復号装置200に入力する。以下では、ここで入力された動き情報を、参照視点動き情報と呼ぶ。ここではカメラAの動き情報が入力されるものとする。
 デプスマップ入力部204は、視点間の画素の対応関係を求めたり、復号対象画像に対する動き情報を生成したりする際に参照するデプスマップを映像復号装置200に入力する。ここでは、復号対象画像に対するデプスマップを入力するものとするが、参照視点など別の視点に対するデプスマップでも構わない。
 なお、デプスマップとは、対応する画像の各画素に写っている被写体の3次元位置を表すものである。例えば、カメラから被写体までの距離や、画像平面とは平行ではない軸に対する座標値、別のカメラ(例えばカメラA)に対する視差量を用いることができる。
 なお、ここではデプスマップとして画像の形態で提供されるものとしているが、同様の情報が得られるのであれば、画像の形態でなくても構わない。
 動き情報生成部205は、参照視点動き情報とデプスマップとを用いて、復号対象画像に対する動き情報を生成する。
 画像復号部206は、生成された動き情報を用いながら、上記ビットストリームから復号対象画像を復号して出力する。
 参照画像メモリ207は、得られた復号対象画像を、以降の復号のために記憶する。
 次に、図5を参照して、図4に示す映像復号装置200の動作を説明する。図5は、図4に示す映像復号装置200の動作を示すフローチャートである。
 まず、ビットストリーム入力部201は、復号対象画像を符号化したビットストリームを映像復号装置200に入力し、ビットストリームメモリ202に記憶する(ステップS201)。
 次に、参照視点動き情報入力部203は参照視点具置き情報を映像復号装置200に入力し、デプスマップ入力部204はデプスマップを映像復号装置200に入力し、それぞれ動き情報生成部205へ出力される(ステップS202)。
 なお、ステップS202で入力される参照視点動き情報とデプスマップは、符号化側で使用されたものと同じものとする。これは符号化時に用いたものと全く同じ情報を用いることで、ドリフト等の符号化ノイズの発生を抑えるためである。ただし、そのような符号化ノイズの発生を許容する場合には、符号化時に使用されたものと異なるものが入力されてもよい。
 デプスマップに関しては、別途復号したもの以外に、複数のカメラに対して復号された多視点映像に対してステレオマッチング等を適用することで推定したデプスマップや、復号された視差ベクトルや動きベクトルなどを用いて推定されるデプスマップなどを用いることもある。
 参照視点動き情報は、参照視点に対する映像を復号する際に使用された動き情報を用いても構わないし、参照視点に対して別途符号化されたものでも構わない。また、参照視点に対する映像を復号し、そこから推定して得られた動き情報を用いることも可能である。
 ビットストリーム、参照視点動き情報、デプスマップの入力が終了したら、復号対象画像を予め定められた大きさの領域に分割し、分割した領域ごとに、復号対象画像の映像信号をビットストリームから復号する(ステップS203~S207)。
 すなわち、復号対象領域インデックスをblk、1フレーム中の総復号対象領域数をnumBlksで表すとすると、blkを0で初期化し(ステップS203)、その後、blkに1を加算しながら(ステップS206)、blkがnumBlksになるまで(ステップS207)、以下の処理(ステップS204~S205)を繰り返す。
 一般的な復号では16画素×16画素のマクロブロックと呼ばれる処理単位ブロックへ分割するが、符号化側と同じであればその他の大きさのブロックに分割しても構わない。また、画像全体を同じサイズで分割せず、領域ごとに異なるサイズのブロックに分割しても構わない。
 復号対象領域ごとに繰り返される処理では、まず、動き情報生成部205は、復号対象領域blkにおける動き情報を生成する(ステップS204)。ここでの処理は、符号化対象領域が復号対象領域となるだけで、前述したステップS104の処理と同じである。
 次に、復号対象領域blkに対する動き情報が得られたら、画像復号部206は、その動き情報と参照画像メモリ207に記憶された画像とを用いて動き補償予測を行いながら、復号対象領域blkにおける映像信号(画素値)をビットストリームから復号する(ステップS205)。得られた復号対象画像は参照画像メモリ207に記憶されると共に、映像復号装置200の出力となる。
 映像信号の復号には符号化時に用いられた方法に対応する方法を用いる。
 例えば、MPEG-2やH.264/AVCなどの一般的な符号化が用いられている場合は、ビットストリームに対して、エントロピー復号、逆2値化、逆量子化、IDCTなどの周波数逆変換を順に施し、得られた2次元信号に対して予測画像を加え、最後に画素値の値域でクリッピングを行うことで映像信号を復号する。
 前述した説明では、符号化対象画像または復号対象画像を分割した領域ごとに動き情報の生成を行ったが、事前に全ての領域に対してそれぞれ動き情報を生成し記憶しておき、領域ごとに記憶された動き情報を参照するようにしても構わない。
 また、画像全体を符号化/復号する処理として書かれているが、画像の一部分のみに適用することも可能である。
 この場合、処理を適用するか否かを判断して、それを示すフラグを符号化/復号しても構わないし、なんらかの別の手段でそれを指定しても構わない。例えば、領域ごとの予測画像を生成する手法を示すモードの1つとして、処理を適用するか否かを表現するようにしても構わない。
 また前述した説明では、変換行列を常に生成している。しかしながら、符号化対象視点または復号対象視点と参照視点との位置関係やデプスの定義(すなわち、各デプスに対応する三次元平面)が変化しない限りは、変換行列は変化しないため、予め変換行列の集合を求めておくようにしても良く、この場合において、フレーム毎や領域ごとに変換行列を計算し直す必要はない。
 すなわち、符号化対象画像または復号対象画像が変わるごとに、別途与えられるカメラパラメータによって表される符号化対象視点または復号対象視点と参照視点との位置関係と、直前のフレームにおけるカメラパラメータによって表される符号化対象視点または復号対象視点と参照視点との位置関係とを比較し、位置関係の変化がない又は小さいときには、直前のフレームで使用した変換行列の集合をそのまま用い、それ以外の場合にのみ変換行列の集合を求めるようにしても構わない。
 なお、変換行列の集合を求める際に、全ての変換行列を求め直すのではなく、直前のフレームと位置関係の異なる参照視点に対するものと、定義の変化したデプスに対するものを同定し、それらに対してだけ求め直しても構わない。
 なお、符号化側でのみ変換行列の再計算が必要か否かをチェックし、その結果を符号化して伝送するようにしても構わない。この場合、復号側では伝送されてきた情報をもとに変換行列を再計算するか否かを決定するようにしても構わない。
 再計算が必要か否かを示す情報は、フレーム全体に対して1つだけ設定しても構わないし、参照視点ごとに設定しても構わないし、デプスごとに設定しても構わない。
 さらに、前述した説明では、代表デプスのデプス値ごとに変換行列を生成しているが、別途定められたデプス値の範囲ごとに1つのデプス値を量子化デプスとして設定し、その量子化デプス値ごとに変換行列を設定しても構わない。代表デプスはデプスの値域の任意のデプス値を取りえるため、全てのデプス値に対する変換行列が必要となることがあるが、このようにすることで、変換行列が必要となるデプス値は量子化デプスと同じデプス値だけに制限することができる。なお、代表デプスを求めた後に変換行列を求める際には、その代表デプスが含まれるデプス値の区分から量子化デプスを求め、その量子化デプスを用いて変換行列を求める。特に、デプスの値域全体に対して1つの量子化デプスを設定する場合、変換行列は参照視点に対して唯一となる。
 なお、復号側と同じ方法であれば、量子化デプスを設定するデプス値の範囲や各範囲における量子化デプスに対するデプス値はどのように設定しても構わない。例えば、デプスマップにおけるデプスの分布に従って決定しても構わない。このとき、デプスマップに対応する映像の動きを調べ、一定以上の動きが存在する領域に対するデプスのみを対象としてデプス値の分布を調べる対象としても構わない。このようにすることで動きが大きな場合に視点間で動き情報を共有できるようになり、より多くの符号量を削減することが可能となる。
 また、復号側で設定できない方法で量子化デプスを決定する場合は、符号化側では、決定した量子化方法(各量子化デプスに対応するデプス値の範囲と量子化デプスのデプス値などを決定するための方法)を符号化して伝送し、復号側では符号化されたビットストリームから量子化方法を復号して得るようにしても構わない。なお、特に全体に対して1つの量子化デプスを設定する場合などは、量子化方法の代わりに量子化デプスの値を符号化または復号するようにしても構わない。
 また、前述した説明では、カメラパラメータ等を用いて復号側でも変換行列を生成しているが、符号化側で計算して得られた変換行列を符号化して伝送するようにしても構わない。その場合、復号側では変換行列をカメラパラメータ等から生成せず、符号化ビットストリームから復号することで獲得する。
 さらに、前述した説明では、常に変換行列を用いるものとしているが、カメラパラメータをチェックし、視点間が平行であれば(入出力間の変換用の)ルックアップテーブルを生成し、そのルックアップテーブルに従ってデプスと視差ベクトルの変換を行い、視点間が平行でなければ本願発明の手法を用いるようにしても構わない。
 また、符号化側のみでチェックを行い、どちらの手法を用いるかを示す情報を符号化しても構わない。その場合、復号側ではその情報を復号し、どちらの手法を用いるかを決定する。
 また、前述した説明では変換行列としてホモグラフィ行列を用いたが、符号化対象画像または復号対象画像の画素位置を、参照視点における対応画素位置へ変換することができるものであれば、別の行列を用いても構わない。例えば、厳密なホモグラフィ行列ではなく、簡略化させた行列を用いても構わない。また、アフィン変換行列や射影行列、複数の変換行列を組み合わせて生成される行列などを用いても構わない。
 別の変換行列を用いることで、変換の精度や演算量、変換行列の更新頻度、変換行列を伝送する場合の符号量などを適宜制御することが可能である。なお、符号化ノイズの発生を防ぐためには、符号化時と復号時とで同じ変換行列を使用するようにする。
 図6は、図1に示す映像符号化装置100をコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア構成を示すブロック図である。
 図6に示すシステムは:
・プログラムを実行するCPU50
・CPU50がアクセスするプログラムやデータが格納されるRAM等のメモリ51
・カメラ等からの符号化対象の映像信号を映像符号化装置内に入力する符号化対象画像入力部52(ディスク装置等による、映像信号を記憶する記憶部でもよい)
・メモリ等から参照視点の動き情報を映像符号化装置内に入力する参照視点動き情報入力部53(ディスク装置等による、動き情報を記憶する記憶部でもよい)
・(デプス情報を取得するための)デプスカメラ等からの符号化対象画像を撮影した視点に対するデプスマップを映像符号化装置内に入力するデプスマップ入力部54(ディスク装置等による、デプスマップを記憶する記憶部でもよい)
・映像像符号化処理をCPU50に実行させるソフトウェアプログラムである映像符号化プログラム551が格納されたプログラム記憶装置55
・CPU50がメモリ51にロードされた映像符号化プログラム551を実行することにより生成されたビットストリームを、例えばネットワークを介して出力するビットストリーム出力部56(ディスク装置等による、ビットストリームを記憶する記憶部でもよい)
 とが、バスで接続された構成になっている。
 図7は、図4に示す映像復号装置200をコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア構成を示すブロック図である。
 図7に示すシステムは:
・プログラムを実行するCPU60
・CPU60がアクセスするプログラムやデータが格納されるRAM等のメモリ61
・映像符号化装置が本手法により符号化したビットストリームを映像復号装置内に入力するビットストリーム入力部62(ディスク装置等による、ビットストリームを記憶する記憶部でもよい)
・メモリ等からの参照視点の動き情報を映像復号装置内に入力する参照視点動き情報入力部63(ディスク装置等による、動き情報を記憶する記憶部でもよい)
・デプスカメラ等からの復号対象を撮影した視点に対するデプスマップを映像復号装置内に入力するデプスマップ入力部64(ディスク装置等による、デプス情報を記憶する記憶部でもよい)
・映像復号処理をCPU60に実行させるソフトウェアプログラムである映像復号プログラム651が格納されたプログラム記憶装置65
・CPU60がメモリ61にロードされた映像復号プログラム651を実行することにより、ビットストリームを復号して得られた復号対象画像を、再生装置などに出力する復号対象画像出力部66(ディスク装置等による、映像信号を記憶する記憶部でもよい)
 とが、バスで接続された構成になっている。
 前述した実施形態における映像符号化装置100及び映像復号装置200を、コンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。
 なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
 また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
 さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。
 また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、PLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されるものであってもよい。
 以上、図面を参照して本発明の実施の形態を説明してきたが、上記実施の形態は本発明の例示に過ぎず、本発明が上記実施の形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行っても良い。
 複数の視点に対する映像とその映像に対するデプスマップとを用いて表現される自由視点映像データを符号化または復号する際に、各視点の向きが平行でない場合でも、演算量を押さえたままで、高精度な視点間の動き情報予測を実現することで、高い符号化効率を達成することが必要不可欠な用途に適用できる。
100・・・映像符号化装置
101・・・符号化対象画像入力部
102・・・符号化対象画像メモリ
103・・・参照視点動き情報入力部
104・・・デプスマップ入力部
105・・・動き情報生成部
106・・・画像符号化部
107・・・画像復号部
108・・・参照画像メモリ
200・・・映像復号装置
201・・・ビットストリーム入力部
202・・・ビットストリームメモリ
203・・・参照視点動き情報入力部
204・・・デプスマップ入力部
205・・・動き情報生成部
206・・・画像復号部
207・・・参照画像メモリ

Claims (18)

  1.  複数の異なる視点の映像からなる多視点映像の1フレームである符号化対象画像を符号化する際に、前記符号化対象画像を分割した領域である符号化対象領域ごとに、異なる視点間で予測しながら符号化を行う映像符号化装置であって、
     前記多視点映像中の被写体に対するデプスマップから代表デプスを設定する代表デプス設定手段と、
     前記代表デプスに基づいて、前記符号化対象画像上の位置を、該符号化対象画像とは異なる参照視点に対する参照視点画像上の位置へと変換する変換行列を設定する変換行列設定手段と、
     前記符号化対象領域内の位置から代表位置を設定する代表位置設定手段と、
     前記代表位置と前記変換行列を用いて、前記代表位置に対する前記参照視点画像上での対応位置を設定する対応位置設定手段と、
     前記対応位置に基づいて、前記参照視点画像の動き情報である参照視点動き情報から前記符号化対象領域における合成動き情報を生成する動き情報生成手段と、
     前記合成動き情報を用いて、前記符号化対象領域に対する予測画像を生成する予測画像生成手段と
     を有することを特徴とする映像符号化装置。
  2.  前記符号化対象領域に対して、前記デプスマップ上での対応領域であるデプス領域を設定するデプス領域設定手段をさらに有し、
     前記代表デプス設定手段は、前記デプス領域に対する前記デプスマップから代表デプスを設定することを特徴とする請求項1に記載の映像符号化装置。
  3.  前記符号化対象領域に対して、前記デプスマップに対する視差ベクトルであるデプス参照視差ベクトルを設定するデプス参照視差ベクトル設定手段をさらに有し、
     前記デプス領域設定手段は、前記デプス参照視差ベクトルによって示される領域を前記デプス領域として設定することを特徴とする請求項2に記載の映像符号化装置。
  4.  前記デプス参照視差ベクトル設定手段は、前記符号化対象領域に隣接する領域を符号化する際に使用した視差ベクトルを用いて、前記デプス参照視差ベクトルを設定することを特徴とする請求項3に記載の映像符号化装置。
  5.  前記代表デプス設定手段は、四角形状を有する前記符号化対象領域の4頂点の画素に対応する前記デプス領域内のデプスのうち、最もカメラに近いことを示すデプスを代表デプスとして設定することを特徴とする請求項2に記載の映像符号化装置。
  6.  前記変換行列を用いて、前記合成動き情報を変換する合成動き情報変換手段をさらに有し、
     前記予測画像生成手段は、前記変換された合成動き情報を用いることを特徴とする請求項1に記載の映像符号化装置。
  7.  前記対応位置と前記合成動き情報とに基づいて、前記デプスマップから過去デプスを設定する過去デプス設定手段と、
     前記過去デプスに基づいて、前記参照視点画像上の位置を前記符号化対象画像上の位置へと変換する逆変換行列を設定する逆変換行列設定手段と、
     前記逆変換行列を用いて、前記合成動き情報を変換する合成動き情報変換手段とをさらに有し、
     前記予測画像生成手段は、前記変換された合成動き情報を用いることを特徴とする請求項1に記載の映像符号化装置。
  8.  複数の異なる視点の映像からなる多視点動画像の符号データから、復号対象画像を復号する際に、前記復号対象画像を分割した領域である復号対象領域ごとに、異なる視点間で予測しながら復号を行う映像復号装置であって、
     前記多視点映像中の被写体に対するデプスマップから代表デプスを設定する代表デプス設定手段と、
     前記代表デプスに基づいて、前記復号対象画像上の位置を、該復号対象画像とは異なる参照視点に対する参照画像上の位置へと変換する変換行列を設定する変換行列設定手段と、
     前記復号対象領域内の位置から代表位置を設定する代表位置設定手段と、
     前記代表位置と前記変換行列を用いて、前記代表位置に対する前記参照視点画像上での対応位置を設定する対応位置設定手段と、
     前記対応位置に基づいて、前記参照視点画像の動き情報である参照視点動き情報から前記復号対象領域における合成動き情報を生成する動き情報生成手段と、
     前記合成動き情報を用いて、前記復号対象領域に対する予測画像を生成する予測画像生成手段と
     を有することを特徴とする映像復号装置。
  9.  前記復号対象領域に対して、前記デプスマップ上での対応領域であるデプス領域を設定するデプス領域設定手段をさらに有し、
     前記代表デプス設定手段は、前記デプス領域に対する前記デプスマップから代表デプスを設定することを特徴とする請求項8に記載の映像復号装置。
  10.  前記復号対象領域に対して、前記デプスマップに対する視差ベクトルであるデプス参照視差ベクトルを設定するデプス参照視差ベクトル設定手段をさらに有し、
     前記デプス領域設定手段は、前記デプス参照視差ベクトルによって示される領域を前記デプス領域として設定することを特徴とする請求項9に記載の映像復号装置。
  11.  前記デプス参照視差ベクトル設定手段は、前記復号対象領域に隣接する領域を復号する際に使用した視差ベクトルを用いて、前記デプス参照視差ベクトルを設定することを特徴とする請求項10に記載の映像復号装置。
  12.  前記代表デプス設定手段は、四角形状を有する前記復号対象領域の4頂点の画素に対応する前記デプス領域内のデプスのうち、最もカメラに近いことを示すデプスを代表デプスとして設定することを特徴とする請求項9に記載の映像復号装置。
  13.  前記変換行列を用いて、前記合成動き情報を変換する合成動き情報変換手段をさらに有し、
     前記予測画像生成手段は、前記変換された合成動き情報を用いることを特徴とする請求項8に記載の映像復号装置。
  14.  前記対応位置と前記合成動き情報とに基づいて、前記デプスマップから過去デプスを設定する過去デプス設定手段と、
     前記過去デプスに基づいて、前記参照視点画像上の位置を前記復号対象画像上の位置へと変換する逆変換行列を設定する逆変換行列設定手段と、
     前記逆変換行列を用いて、前記合成動き情報を変換する合成動き情報変換手段とをさらに有し、
     前記予測画像生成手段は、前記変換された合成動き情報を用いることを特徴とする請求項8に記載の映像復号装置。
  15.  複数の異なる視点の映像からなる多視点映像の1フレームである符号化対象画像を符号化する際に、前記符号化対象画像を分割した領域である符号化対象領域ごとに、異なる視点間で予測しながら符号化を行う映像符号化方法であって、
     前記多視点映像中の被写体に対するデプスマップから代表デプスを設定する代表デプス設定ステップと、
     前記代表デプスに基づいて、前記符号化対象画像上の位置を、該符号化対象画像とは異なる参照視点に対する参照視点画像上の位置へと変換する変換行列を設定する変換行列設定ステップと、
     前記符号化対象領域内の位置から代表位置を設定する代表位置設定ステップと、
     前記代表位置と前記変換行列を用いて、前記代表位置に対する前記参照視点画像上での対応位置を設定する対応位置設定ステップと、
     前記対応位置に基づいて、前記参照視点画像の動き情報である参照視点動き情報から前記符号化対象領域における合成動き情報を生成する動き情報生成ステップと、
     前記合成動き情報を用いて、前記符号化対象領域に対する予測画像を生成する予測画像生成ステップと
     を有することを特徴とする映像符号化方法。
  16.  複数の異なる視点の映像からなる多視点動画像の符号データから、復号対象画像を復号する際に、前記復号対象画像を分割した領域である復号対象領域ごとに、異なる視点間で予測しながら復号を行う映像復号方法であって、
     前記多視点映像中の被写体に対するデプスマップから代表デプスを設定する代表デプス設定ステップと、
     前記代表デプスに基づいて、前記復号対象画像上の位置を、該復号対象画像とは異なる参照視点に対する参照画像上の位置へと変換する変換行列を設定する変換行列設定ステップと、
     前記復号対象領域内の位置から代表位置を設定する代表位置設定ステップと、
     前記代表位置と前記変換行列を用いて、前記代表位置に対する前記参照視点画像上での対応位置を設定する対応位置設定ステップと、
     前記対応位置に基づいて、前記参照視点画像の動き情報である参照視点動き情報から前記復号対象領域における合成動き情報を生成する動き情報生成ステップと、
     前記合成動き情報を用いて、前記復号対象領域に対する予測画像を生成する予測画像生成ステップと
     を有することを特徴とする映像復号方法。
  17.  コンピュータに、請求項1に記載の映像符号化方法を実行させるための映像符号化プログラム。
  18.  コンピュータに、請求項8に記載の映像復号方法を実行させるための映像復号プログラム。
PCT/JP2014/081986 2013-12-03 2014-12-03 映像符号化装置及び方法、映像復号装置及び方法、及び、それらのプログラム WO2015083742A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020167014366A KR20160079068A (ko) 2013-12-03 2014-12-03 영상 부호화 장치 및 방법, 영상 복호 장치 및 방법, 및 그 프로그램
US15/038,611 US20160295241A1 (en) 2013-12-03 2014-12-03 Video encoding apparatus and method, video decoding apparatus and method, and programs therefor
CN201480065693.0A CN105934949A (zh) 2013-12-03 2014-12-03 视频编码装置和方法、视频解码装置和方法、以及它们的程序
JP2015551543A JP6232075B2 (ja) 2013-12-03 2014-12-03 映像符号化装置及び方法、映像復号装置及び方法、及び、それらのプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013250429 2013-12-03
JP2013-250429 2013-12-03

Publications (1)

Publication Number Publication Date
WO2015083742A1 true WO2015083742A1 (ja) 2015-06-11

Family

ID=53273503

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/081986 WO2015083742A1 (ja) 2013-12-03 2014-12-03 映像符号化装置及び方法、映像復号装置及び方法、及び、それらのプログラム

Country Status (5)

Country Link
US (1) US20160295241A1 (ja)
JP (1) JP6232075B2 (ja)
KR (1) KR20160079068A (ja)
CN (1) CN105934949A (ja)
WO (1) WO2015083742A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112672150A (zh) * 2020-12-22 2021-04-16 福州大学 基于视频预测的视频编码方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3518534B1 (en) * 2016-09-26 2023-05-17 Sony Group Corporation Encoding device, encoding method, decoding device, decoding method, transmission device, and reception device
US10389994B2 (en) * 2016-11-28 2019-08-20 Sony Corporation Decoder-centric UV codec for free-viewpoint video streaming
FR3075540A1 (fr) * 2017-12-15 2019-06-21 Orange Procedes et dispositifs de codage et de decodage d'une sequence video multi-vues representative d'une video omnidirectionnelle.
CN109974707B (zh) * 2019-03-19 2022-09-23 重庆邮电大学 一种基于改进点云匹配算法的室内移动机器人视觉导航方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11252586A (ja) * 1998-03-03 1999-09-17 Kdd Corp ステレオ動画像用符号化装置
JP2007036800A (ja) * 2005-07-28 2007-02-08 Nippon Telegr & Teleph Corp <Ntt> 映像符号化方法、映像復号方法、映像符号化プログラム、映像復号プログラム及びそれらのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2009116532A (ja) * 2007-11-05 2009-05-28 Nippon Telegr & Teleph Corp <Ntt> 仮想視点画像生成方法および仮想視点画像生成装置
JP2013030898A (ja) * 2011-07-27 2013-02-07 Nippon Telegr & Teleph Corp <Ntt> 画像伝送方法、画像伝送装置、画像送信装置、画像受信装置、画像送信プログラム及び画像受信プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2439444T3 (es) * 2006-10-30 2014-01-23 Nippon Telegraph And Telephone Corporation Método de codificación y método de descodificación de vídeo, aparatos para los mismos, programas para los mismos y medios de almacenamiento que almacenan los programas
WO2013001813A1 (ja) * 2011-06-29 2013-01-03 パナソニック株式会社 画像符号化方法、画像復号方法、画像符号化装置および画像復号装置
US8898178B2 (en) * 2011-12-15 2014-11-25 Microsoft Corporation Solution monitoring system
JP2013229674A (ja) * 2012-04-24 2013-11-07 Sharp Corp 画像符号化装置、画像復号装置、画像符号化方法、画像復号方法、画像符号化プログラム、及び画像復号プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11252586A (ja) * 1998-03-03 1999-09-17 Kdd Corp ステレオ動画像用符号化装置
JP2007036800A (ja) * 2005-07-28 2007-02-08 Nippon Telegr & Teleph Corp <Ntt> 映像符号化方法、映像復号方法、映像符号化プログラム、映像復号プログラム及びそれらのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2009116532A (ja) * 2007-11-05 2009-05-28 Nippon Telegr & Teleph Corp <Ntt> 仮想視点画像生成方法および仮想視点画像生成装置
JP2013030898A (ja) * 2011-07-27 2013-02-07 Nippon Telegr & Teleph Corp <Ntt> 画像伝送方法、画像伝送装置、画像送信装置、画像受信装置、画像送信プログラム及び画像受信プログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GERHARD TECH ET AL.: "3D-HEVC Test Model 1", JOINT COLLABORATIVE TEAM ON 3D VIDEO CODING EXTENSION DEVELOPMENT OF ITU-T SG 16 WP3 AND ISO/IEC JTC1/SC29/WG11 JCT3V-A1005_D0, ITU-T, 20 September 2012 (2012-09-20), pages 12 - 21 *
JIAN-LIANG LIN ET AL.: "3D-CE5.h related: Simplification on disparity vector derivation for HEVC-based 3D video coding", JOINT COLLABORATIVE TEAM ON 3D VIDEO CODING EXTENSION DEVELOPMENT OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11 JCT2-A0047, ITU-T, 20 July 2012 (2012-07-20), pages 1 - 3 *
SHIN'YA SHIMIZU ET AL.: "Efficient Multi-view Video Coding using Multi-view Depth Map", THE JOURNAL OF THE INSTITUTE OF IMAGE INFORMATION AND TELEVISION ENGINEERS, THE INSTITUTE OF IMAGE INFORMATION AND TELEVISION ENGINEERS, vol. 63, no. 4, 1 April 2009 (2009-04-01), pages 524 - 532 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112672150A (zh) * 2020-12-22 2021-04-16 福州大学 基于视频预测的视频编码方法

Also Published As

Publication number Publication date
KR20160079068A (ko) 2016-07-05
US20160295241A1 (en) 2016-10-06
CN105934949A (zh) 2016-09-07
JP6232075B2 (ja) 2017-11-22
JPWO2015083742A1 (ja) 2017-03-16

Similar Documents

Publication Publication Date Title
JP6232076B2 (ja) 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム及び映像復号プログラム
JP6307152B2 (ja) 画像符号化装置及び方法、画像復号装置及び方法、及び、それらのプログラム
JP6027143B2 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、および画像復号プログラム
JP6053200B2 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム及び画像復号プログラム
JP4838275B2 (ja) 距離情報符号化方法,復号方法,符号化装置,復号装置,符号化プログラム,復号プログラムおよびコンピュータ読み取り可能な記録媒体
US20150249839A1 (en) Picture encoding method, picture decoding method, picture encoding apparatus, picture decoding apparatus, picture encoding program, picture decoding program, and recording media
JP6232075B2 (ja) 映像符号化装置及び方法、映像復号装置及び方法、及び、それらのプログラム
JP5926451B2 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、および画像復号プログラム
KR101750421B1 (ko) 동화상 부호화 방법, 동화상 복호 방법, 동화상 부호화 장치, 동화상 복호 장치, 동화상 부호화 프로그램, 및 동화상 복호 프로그램
JP4944046B2 (ja) 映像符号化方法,復号方法,符号化装置,復号装置,それらのプログラムおよびコンピュータ読み取り可能な記録媒体
US20160286212A1 (en) Video encoding apparatus and method, and video decoding apparatus and method
JP4937161B2 (ja) 距離情報符号化方法,復号方法,符号化装置,復号装置,符号化プログラム,復号プログラムおよびコンピュータ読み取り可能な記録媒体
WO2015141549A1 (ja) 動画像符号化装置及び方法、及び、動画像復号装置及び方法
WO2015098827A1 (ja) 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム及び映像復号プログラム
JP5759357B2 (ja) 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム及び映像復号プログラム
JP2012135019A (ja) 距離情報符号化方法,復号方法,符号化装置,復号装置,符号化プログラムおよび復号プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14866874

Country of ref document: EP

Kind code of ref document: A1

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
ENP Entry into the national phase

Ref document number: 2015551543

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15038611

Country of ref document: US

ENP Entry into the national phase

Ref document number: 20167014366

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14866874

Country of ref document: EP

Kind code of ref document: A1