WO2015083742A1 - 映像符号化装置及び方法、映像復号装置及び方法、及び、それらのプログラム - Google Patents
映像符号化装置及び方法、映像復号装置及び方法、及び、それらのプログラム Download PDFInfo
- Publication number
- WO2015083742A1 WO2015083742A1 PCT/JP2014/081986 JP2014081986W WO2015083742A1 WO 2015083742 A1 WO2015083742 A1 WO 2015083742A1 JP 2014081986 W JP2014081986 W JP 2014081986W WO 2015083742 A1 WO2015083742 A1 WO 2015083742A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- depth
- motion information
- setting
- video
- representative
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/161—Encoding, multiplexing or demultiplexing different image signal components
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/271—Image signal generators wherein the generated image signals comprise depth maps or disparity maps
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/573—Motion compensation with multiple frame prediction using two or more reference frames in a given prediction direction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
Definitions
- the present invention relates to a video encoding device, a video decoding device, a video encoding method, a video decoding method, a video encoding program, and a video decoding program.
- a free viewpoint video is a video that allows the user to freely specify the position and orientation (hereinafter referred to as the viewpoint) of the camera in the shooting space.
- the viewpoint video the user designates an arbitrary viewpoint, but it is impossible to hold videos for all possible viewpoints. For this reason, the free viewpoint video is composed of a group of information necessary to generate a video of the designated viewpoint.
- the free viewpoint video may also be referred to as a free viewpoint television, an arbitrary viewpoint video, an arbitrary viewpoint television, or the like.
- a free viewpoint video is expressed using various data formats.
- a most general format there is a method using a video and a depth map (distance image) for each frame of the video (for example, see Non-Patent Document 1).
- the depth map is a representation of the depth (distance) from the camera to the subject for each pixel, and represents the three-dimensional position of the subject.
- the depth is proportional to the reciprocal of the parallax between the two cameras, and is sometimes called a disparity map (parallax image).
- the depth is information stored in the Z buffer, so it is sometimes called a Z image or a Z map.
- a coordinate value with respect to the Z axis of the three-dimensional coordinate system stretched on the expression target space may be used as the depth.
- the Z axis coincides with the direction of the camera, but when a common coordinate system is used for a plurality of cameras, etc. In some cases, the Z-axis does not match the camera orientation.
- the distance and the Z value are referred to as depth without distinction, and an image representing the depth as a pixel value is referred to as a depth map.
- the depth When expressing the depth as a pixel value, the value corresponding to the physical quantity is directly used as the pixel value, the method using a value obtained by quantizing the value between the minimum value and the maximum value into a certain number, and the difference from the minimum value. There is a method of using a value obtained by quantizing with a step width. When the range to be expressed is limited, the depth can be expressed with higher accuracy by using additional information such as a minimum value. In addition, when quantizing at equal intervals, there are a method of quantizing a physical quantity as it is and a method of quantizing an inverse of a physical quantity.
- the depth map can be regarded as a grayscale image because each pixel is expressed as an image having one value.
- the subject since the subject exists continuously in the real space and cannot move to a position distant from the moment, it can be said that the subject has a spatial correlation and a temporal correlation like the image signal. Therefore, depending on the image coding method and video coding method used to encode normal image signals and video signals, images composed of depth maps and continuous depth maps can be spatially and temporally redundant. It is possible to efficiently encode while removing.
- video comprised by it are called a depth map, without distinguishing.
- each frame of the video is divided into processing unit blocks called macroblocks,
- the video signal is predicted spatially or temporally for each macroblock, and prediction information indicating the prediction method and a prediction residual are encoded.
- prediction information indicating the prediction method and a prediction residual are encoded.
- Spatial prediction is intraframe prediction, so it is called intraframe prediction (intrascreen prediction, intra prediction).
- Temporal prediction is interframe prediction, so interframe prediction This is called (inter-screen prediction, inter prediction).
- temporal prediction is also referred to as motion compensation prediction because video signals are predicted by compensating for temporal changes of video, that is, motion.
- motion compensation prediction when encoding a multi-view video consisting of videos shot from the same scene from multiple positions and orientations, the video signal is predicted by compensating for changes between video viewpoints, that is, parallax. Disparity compensation prediction is used.
- each can be encoded using a normal video coding method.
- MPEG-C Part. 3 when a multi-view video and a depth map for the multi-view video are expressed, each is encoded using an existing video encoding method.
- Non-Patent Document 2 for a region to be processed, a disparity vector is used to determine a region of a video image of another viewpoint that has already been processed, and the motion information used when the region is encoded, It is used as motion information of a region to be processed or a predicted value thereof. At this time, in order to realize efficient encoding, it is necessary to acquire a highly accurate disparity vector for the region to be processed.
- Non-Patent Document 2 as the simplest method, a method is used in which a disparity vector given to a region that is temporally or spatially adjacent to a region to be processed is a disparity vector of the region to be processed. Furthermore, in order to obtain a more accurate disparity vector, a method is also used in which a depth for a region to be processed is estimated or obtained, and the depth is converted to obtain a disparity vector.
- Non-Patent Document 2 it is possible to realize highly efficient predictive coding by converting the value of the depth map and acquiring a highly accurate disparity vector.
- Non-Patent Document 2 assumes that the parallax is proportional to the reciprocal of the depth (the distance from the camera to the subject) when the depth is converted into the parallax vector. More specifically, the parallax is obtained by the product of the three of the reciprocal of the depth, the focal length of the camera, and the distance between the viewpoints. Such a conversion gives correct results if the two viewpoints have the same focal length and the viewpoint orientation (camera optical axis) is three-dimensionally parallel, but in other situations it is incorrect. Will give.
- Non-Patent Document 1 In order to perform accurate conversion, as described in Non-Patent Document 1, after obtaining a three-dimensional point by back projecting a point on an image to a three-dimensional space according to depth, the three-dimensional point is converted into a three-dimensional point. It is necessary to calculate a point on the image for another viewpoint by reprojecting to another viewpoint.
- the present invention has been made in view of such circumstances, and in encoding free-viewpoint video data having video and depth maps as components in a plurality of viewpoints, even if the viewpoint directions are not parallel, the motion vector Video encoding apparatus, video decoding apparatus, video encoding method, video decoding method, video encoding program, and video capable of realizing efficient video encoding by improving the accuracy of inter-view prediction
- An object is to provide a decryption program.
- the present invention is different for each encoding target region, which is a region obtained by dividing the encoding target image, when encoding the encoding target image that is one frame of a multi-view video composed of a plurality of different viewpoint videos.
- a video encoding device that performs encoding while predicting between viewpoints, Representative depth setting means for setting a representative depth from a depth map for a subject in the multi-viewpoint video; Transformation matrix setting means for setting a transformation matrix for converting a position on the encoding target image to a position on a reference viewpoint image for a reference viewpoint different from the encoding target image, based on the representative depth; Representative position setting means for setting a representative position from a position in the encoding target area; Corresponding position setting means for setting a corresponding position on the reference viewpoint image with respect to the representative position using the representative position and the transformation matrix; Based on the corresponding position, motion information generating means for generating combined motion information in the encoding target region from reference viewpoint motion information that is motion information of the
- the representative depth setting means sets a representative depth from the depth map for the depth region.
- a depth reference disparity vector setting unit that sets a depth reference disparity vector that is a disparity vector with respect to the depth map for the encoding target region
- the depth area setting means may set an area indicated by the depth reference disparity vector as the depth area.
- the depth reference disparity vector setting means may set the depth reference disparity vector using a disparity vector used when encoding an area adjacent to the encoding target area.
- the representative depth setting means sets the depth indicating the closest to the camera among the depths in the depth area corresponding to the pixels at the four vertices of the encoding target area having a rectangular shape as the representative depth.
- the apparatus further comprises a combined motion information converting means for converting the combined motion information using the conversion matrix,
- the predicted image generation means uses the converted combined motion information.
- a past depth setting means for setting a past depth from the depth map based on the corresponding position and the combined motion information
- An inverse transformation matrix setting means for setting an inverse transformation matrix for transforming a position on the reference viewpoint image into a position on the encoding target image based on the past depth
- combined motion information converting means for converting the combined motion information using the inverse transform matrix
- the predicted image generation means uses the converted combined motion information.
- a video decoding device that performs decoding while predicting at Representative depth setting means for setting a representative depth from a depth map for a subject in the multi-viewpoint video; Transformation matrix setting means for setting a transformation matrix for transforming a position on the decoding target image into a position on a reference image for a reference viewpoint different from the decoding target image based on the representative depth; Representative position setting means for setting a representative position from a position in the decoding target area; Corresponding position setting means for setting a corresponding position on the reference viewpoint image with respect to the representative position using the representative position and the transformation matrix; Motion information generating means for generating combined motion information in the decoding target area from reference viewpoint motion information that is motion information of the reference viewpoint image based on the corresponding position; There is also provided a video decoding device having predicted image generation means for generating a predicted image for the decoding target region using the synthesized motion information.
- the representative depth setting means sets a representative depth from the depth map for the depth region.
- the image processing apparatus further includes depth reference disparity vector setting means for setting a depth reference disparity vector that is a disparity vector for the depth map for the decoding target region,
- the depth area setting means may set an area indicated by the depth reference disparity vector as the depth area.
- the depth reference disparity vector setting means may set the depth reference disparity vector using a disparity vector used when decoding an area adjacent to the decoding target area.
- the representative depth setting means sets a depth indicating the closest to the camera among the depths in the depth area corresponding to the pixels at the four vertices of the decoding target area having a quadrangular shape as the representative depth. May be.
- the apparatus further comprises a combined motion information converting means for converting the combined motion information using the conversion matrix,
- the predicted image generation means uses the converted combined motion information.
- a past depth setting means for setting a past depth from the depth map based on the corresponding position and the combined motion information
- An inverse transformation matrix setting means for setting an inverse transformation matrix for transforming a position on the reference viewpoint image into a position on the decoding target image based on the past depth
- combined motion information converting means for converting the combined motion information using the inverse transform matrix
- the predicted image generation means uses the converted combined motion information.
- the present invention also encodes an encoding target image that is one frame of a multi-view video composed of videos of a plurality of different viewpoints, for each encoding target region that is a region obtained by dividing the encoding target image.
- a video encoding method that performs encoding while predicting between different viewpoints, A representative depth setting step for setting a representative depth from a depth map for a subject in the multi-viewpoint video;
- a transformation matrix setting step for setting a transformation matrix for transforming a position on the encoding target image into a position on a reference viewpoint image for a reference viewpoint different from the encoding target image based on the representative depth;
- a corresponding position setting step for setting a corresponding position on the reference viewpoint image with respect to the representative position using the representative position and the transformation matrix;
- a motion information generation step of generating combined motion information in the encoding target region from reference viewpoint motion information that is motion information of
- a video decoding method that performs decoding while predicting with A representative depth setting step for setting a representative depth from a depth map for a subject in the multi-viewpoint video;
- a transformation matrix setting step for setting a transformation matrix for transforming a position on the decoding target image to a position on a reference image with respect to a reference view different from the decoding target image, based on the representative depth;
- a representative position setting step of setting a representative position from a position in the decoding target area;
- a corresponding position setting step for setting a corresponding position on the reference viewpoint image with respect to the representative position using the representative position and the transformation matrix;
- a motion information generation step of generating combined motion information in the decoding target region from reference viewpoint motion information that is motion information of the reference viewpoint image based on the corresponding position;
- There is also provided a video decoding method including a predicted image generation step of generating a predicted image for the decoding target area using the synthesized motion information.
- the present invention also provides a video encoding program for causing a computer to execute the video encoding method.
- the present invention also provides a video decoding program for causing a computer to execute the video decoding method.
- a correspondence relationship of pixels between viewpoints is obtained using a single matrix defined for depth values.
- FIG. 3 is a flowchart showing an operation of the video encoding device 100 shown in FIG. 1. It is a flowchart which shows the processing operation of the operation
- step S104 the processing operation of the operation
- step S104 the processing operation of the operation
- 5 is a flowchart showing the structure of the video decoding apparatus by one Embodiment of this invention.
- 5 is a flowchart showing the operation of the video decoding apparatus 200 shown in FIG.
- FIG. 2 is a block diagram showing a hardware configuration when the video encoding apparatus 100 shown in FIG. 1 is configured by a computer and a software program.
- FIG. 5 is a block diagram showing a hardware configuration when the video decoding
- a video encoding device and a video decoding device will be described with reference to the drawings.
- a multi-view video shot by two cameras a first camera (referred to as camera A) and a second camera (referred to as camera B), is encoded.
- camera A a first camera
- camera B a second camera
- information necessary for obtaining the parallax from the depth is given separately.
- it is an external parameter that represents the positional relationship between camera A and camera B, or an internal parameter that represents the projection information of the camera onto the image plane. Information may be given.
- information that can specify a position (such as a coordinate value or an index that can be associated with a coordinate value) is added to an image, a video frame, or a depth map (for example, an encoding target region index blk described later).
- a position such as a coordinate value or an index that can be associated with a coordinate value
- a depth map for example, an encoding target region index blk described later.
- FIG. 1 is a block diagram showing a configuration of a video encoding apparatus according to the present embodiment.
- the video encoding apparatus 100 includes an encoding target image input unit 101, an encoding target image memory 102, a reference viewpoint motion information input unit 103, a depth map input unit 104, a motion information generation unit 105, an image An encoding unit 106, an image decoding unit 107, and a reference image memory 108 are provided.
- the encoding target image input unit 101 inputs one frame of video to be encoded to the video encoding device 100.
- the video to be encoded and the frame to be input and encoded are referred to as an encoding target video and an encoding target image, respectively.
- the video of camera B is input frame by frame.
- the viewpoint (here, the viewpoint of the camera B) that captured the encoding target video is referred to as an encoding target viewpoint.
- the encoding target image memory 102 stores the input encoding target image.
- the reference viewpoint motion information input unit 103 inputs motion information (such as a motion vector) with respect to the video of the reference viewpoint to the video encoding device 100.
- the motion information input here is referred to as reference viewpoint motion information.
- the movement information of the camera A is input.
- the depth map input unit 104 inputs a depth map, which is referred to when obtaining a correspondence relationship between pixels between viewpoints or generating motion information, to the video encoding device 100.
- a depth map for an encoding target image is input, but a depth map for another viewpoint such as a reference viewpoint may be used.
- the depth map represents a three-dimensional position of a subject shown in each pixel of a corresponding image. For example, a distance from the camera to the subject, a coordinate value with respect to an axis that is not parallel to the image plane, and a parallax amount with respect to another camera (for example, camera A) can be used.
- the depth map is provided in the form of an image, but the image may not be in the form of an image as long as similar information can be obtained.
- the motion information generation unit 105 generates motion information for the encoding target image using the reference viewpoint motion information and the depth map.
- the image encoding unit 106 predictively encodes the encoding target image while using the generated motion information.
- the image decoding unit 107 decodes the bit stream of the encoding target image.
- the reference image memory 108 stores an image obtained when the bit stream of the encoding target image is decoded.
- FIG. 2 is a flowchart showing the operation of the video encoding device 100 shown in FIG.
- the encoding target image input unit 101 receives the encoding target image Org and stores it in the encoding target image memory 102 (step S101).
- the reference viewpoint motion information input unit 103 inputs the reference viewpoint motion information to the video encoding device 100
- the depth map input unit 104 inputs the depth map to the video encoding device 100, respectively, to the motion information generation unit 105. Is output (step S102).
- the reference viewpoint motion information and the depth map input in step S102 are the same as those obtained on the decoding side, such as those obtained by decoding already encoded ones. This is to suppress the occurrence of coding noise such as drift by using exactly the same information obtained by the decoding device. However, when the generation of such coding noise is allowed, the one that can be obtained only on the coding side, such as the one before coding, may be input.
- the depth map in addition to the one already decoded, the depth map estimated by applying stereo matching or the like to the multi-view video decoded for a plurality of cameras, or decoded
- a depth map or the like estimated using a disparity vector, a motion vector, or the like can also be used as the same can be obtained on the decoding side.
- the reference viewpoint motion information may be the motion information used when encoding the video for the reference viewpoint, or may be separately encoded for the reference viewpoint. It is also possible to use motion information obtained by decoding a video for the reference viewpoint and estimating the video.
- Step S103 to S108 When the input of the encoding target image, the reference viewpoint motion information, and the depth map is finished, the encoding target image is divided into regions of a predetermined size, and the video signal of the encoding target image is encoded for each of the divided regions.
- Step S103 to S108 That is, assuming that the encoding target area index is blk and the total number of encoding target areas in one frame is represented by numBlks, blk is initialized to 0 (step S103), and then 1 is added to blk (step S107). ), The following processing (steps S104 to S106) is repeated until blk becomes numBlks (step S108).
- processing unit blocks In general coding, it is divided into processing unit blocks called macroblocks of 16 pixels ⁇ 16 pixels, but may be divided into blocks of other sizes as long as they are the same as those on the decoding side. Further, the entire image may not be divided into the same size, but may be divided into blocks having different sizes for each region.
- the motion information generation unit 105 In the process repeated for each encoding target area, first, the motion information generation unit 105 generates motion information in the encoding target area blk (step S104). This process will be described later in detail.
- the image encoding unit 106 performs motion compensation prediction using the motion information and the image stored in the reference image memory 108, while performing the motion compensation prediction in the encoding target region blk.
- the video signal (pixel value) of the encoding target image is encoded (step 105).
- the bit stream obtained as a result of encoding is the output of the video encoding device 100. Note that any method may be used for encoding.
- MPEG-2 and H.264 In general encoding such as H.264 / AVC, encoding is performed by sequentially performing frequency conversion such as DCT, quantization, binarization, and entropy encoding on a difference signal between a video signal of a block blk and a predicted image. Do.
- the image decoding unit 107 decodes the video signal for the block blk from the bit stream, and stores the decoded image Dec [blk] as a decoding result in the reference image memory 109 (step S106).
- a method corresponding to the method used at the time of encoding is used.
- MPEG-2 and H.264 In general encoding such as H.264 / AVC, the code data is subjected to frequency inverse transform such as entropy decoding, inverse binarization, inverse quantization, and IDCT in order, and the obtained two-dimensional signal Then, the predicted image is added, and finally the video signal is decoded by performing clipping in the pixel value range. Note that the data immediately before the process on the encoding side becomes lossless and the predicted image may be received, and the decoding process may be performed by a simplified decoding process.
- the value obtained after applying the quantization process at the time of encoding and the motion compensated prediction image are received, and the quantized value is obtained by performing inverse quantization and frequency inverse transform in order.
- the motion compensated prediction image may be added to the two-dimensional signal, and the video signal may be decoded by performing clipping in the pixel value range.
- FIG. 3 is a flowchart showing the processing operation of the motion information generation unit 105 shown in FIG. 2 for generating motion information (step S104).
- the motion information generation unit 105 sets a depth map for the encoding target region blk (step S1401).
- the depth map for the encoding target image is input, the depth map at the same position as the encoding target region blk is set.
- a scaled area is set according to the resolution ratio.
- one of the viewpoints different from the encoding target viewpoint is a depth viewpoint
- a parallax DV between the encoding target viewpoint and the depth viewpoint in the encoding target region blk is obtained, and the depth map in blk + DV Set.
- the position and size are scaled according to the resolution ratio.
- the parallax DV between the encoding target viewpoint and the depth viewpoint in the encoding target region blk may be calculated using any method as long as it is the same method as that on the decoding side.
- the disparity vector used when encoding the peripheral region of the encoding target region blk, the global disparity vector set for the entire encoding target image or the partial image including the encoding target region, the encoding target It is possible to use a disparity vector or the like that is separately set and encoded for a region.
- disparity vectors used in different regions or previously encoded images may be stored and used.
- a disparity vector obtained by converting a depth map at the same position as the encoding target area of the depth map encoded in the past with respect to the encoding target viewpoint may be used.
- the motion information generation unit 105 determines a representative pixel position pos and a representative depth rep (as the “representative position” of the present invention) from the set depth map (step S1402).
- a representative method for setting the representative pixel position pos a method of setting a predetermined position such as the center or upper left in the encoding target region as the representative pixel position, or after obtaining the representative depth, There is a method for setting the position of a pixel in an encoding target area having the same depth.
- a typical method for setting the representative depth rep there is a method using an average value, median value, maximum value, minimum value, or the like of the depth map for the encoding target region blk.
- an average value, a median value, a maximum value, a minimum value, or the like of depth values for some pixels may be used instead of all the pixels in the encoding target region.
- four vertices or four vertices and the center may be used.
- the motion information generation unit 105 next obtains a transformation matrix H rep (step S1403).
- the transformation matrix is called a homography matrix, and gives a correspondence relationship between points on the image plane between viewpoints when it is assumed that a subject exists on a plane represented by a representative depth.
- the transformation matrix H rep may be obtained in any way. For example, it can be obtained using the following mathematical formula.
- R and t represent a 3 ⁇ 3 rotation matrix and a translation vector between the encoding target viewpoint and the reference viewpoint
- D rep corresponds to the representative depth
- n (D rep ) corresponds to the representative depth D rep at the encoding target viewpoint.
- D (D rep ) indicates a distance between the three-dimensional plane and the viewpoint center of the encoding target viewpoint and the reference viewpoint.
- T on the right shoulder represents transposition of the vector.
- the reference viewpoint A corresponding point q i on the image is obtained.
- P t and P r indicate 3 ⁇ 4 camera matrices at the encoding target viewpoint and the reference viewpoint, respectively.
- the camera matrix here is A for the camera internal parameters, R for the rotation matrix from the world coordinate system (any common coordinate system independent of the camera) to the camera coordinate system, and translation from the world coordinate system to the camera coordinate system.
- a column vector representing T is given by A [R
- the inverse matrix P ⁇ 1 of the camera matrix P is a matrix corresponding to the inverse transformation of the transformation by the camera matrix P, and is represented by R ⁇ 1 [A ⁇ 1
- d t (p i ) indicates the distance on the optical axis from the encoding target viewpoint to the subject at the point p i when the depth at the point p i on the encoding target image is the representative depth.
- s is an arbitrary real number, but when there is no error in the camera parameter, s is a distance d r (q i ) on the optical axis from the reference viewpoint at the point q i on the reference viewpoint image to the subject at the point q i .
- a transformation matrix H rep is obtained by solving a homogeneous equation obtained according to the following equation.
- the (3, 3) component of the transformation matrix H rep is obtained by setting an arbitrary real number (for example, 1).
- the transformation matrix H rep depends on the reference viewpoint and the depth, it may be obtained every time the representative depth is obtained. Before starting the processing for each area, the transformation matrix H rep is obtained for each combination of the reference viewpoint and the depth, At the stage of obtaining the transformation matrix H rep , one transformation matrix may be selected and set from the transformation matrix group already calculated based on the reference viewpoint and the representative depth.
- the motion information generation unit 105 obtains a corresponding position on the reference viewpoint based on the following mathematical formula (step S1404).
- k represents an arbitrary real number
- the position given by (u, v) is the position on the reference viewpoint to be obtained.
- the motion information generation unit 105 uses the reference viewpoint motion information input and stored for the area including the position as the motion information for the encoding target area blk. Setting is performed (step S1405). If the reference viewpoint motion information is not stored for the region including the corresponding position (u, v), information without motion information may be set, or default motion information such as a zero vector may be set. The region storing the motion information closest to the corresponding position (u, v) may be identified, and the reference viewpoint motion information stored in the region may be set. However, motion information is set according to the same rules as those on the decoding side.
- the reference viewpoint motion information is set as the motion information as it is, but the time interval is set in advance, the motion information is scaled according to the predetermined time interval and the time interval in the reference viewpoint motion information, and the reference viewpoint The motion information obtained by replacing the time interval in the motion information with the predetermined time interval may be set.
- all the motion information generated for different regions has the same time interval, and it is possible to unify the reference images when performing motion compensation prediction and to limit the memory space to be accessed. It becomes possible. Note that, by limiting the memory space to be accessed, the hit rate of the cache memory can be improved and the processing speed can be improved.
- s represents an arbitrary real number.
- d r ⁇ t (prdep) is a function for converting the depth prdep expressed with respect to the reference viewpoint into the expression depth with respect to the encoding target viewpoint.
- this conversion returns the depth given by the argument as it is.
- the inverse transformation matrix H ⁇ 1 of the transformation matrix H that transforms the position with respect to the encoding target viewpoint to the position with respect to the reference viewpoint may be obtained by calculating an inverse matrix from the transformation matrix,
- the inverse transformation matrix may be obtained directly.
- dr, prdep (q ′ i ) is the subject from the viewpoint r to the point q ′ i when the depth defined for the viewpoint r at the point q ′ i on the image of the viewpoint r is prdep.
- the distance on the optical axis is shown.
- an inverse transformation matrix H ′ is obtained by solving a homogeneous equation obtained according to the following equation.
- the (3, 3) component of the transformation matrix H ′ is obtained by setting an arbitrary real number (for example, 1).
- the converted motion information mv ′ depth is obtained by the following equation. It doesn't matter.
- ⁇ represents a norm
- the L1 norm may be used or the L2 norm may be used.
- the conversion and scaling described above may be performed simultaneously. In this case, the conversion may be performed after scaling or may be performed after the conversion.
- the motion information used in the above description is expressed as indicating the corresponding position in the time direction by adding to the position of the encoding target viewpoint. If the corresponding position is represented by subtraction, it is necessary to reverse the direction of the vector in the motion information in the mathematical formula used in the above description.
- FIG. 4 is a block diagram showing the configuration of the video decoding apparatus according to the present embodiment.
- the video decoding apparatus 200 includes a bit stream input unit 201, a bit stream memory 202, a reference viewpoint motion information input unit 203, a depth map input unit 204, a motion information generation unit 205, an image decoding unit 206, and a reference.
- An image memory 207 is provided.
- the bit stream input unit 201 inputs a video bit stream to be decoded to the video decoding device 200.
- a decoding target image one frame of the video to be decoded
- the viewpoint here, camera B
- the bit stream memory 202 stores a bit stream for the input decoding target image.
- the reference viewpoint motion information input unit 203 inputs motion information (such as a motion vector) for the video of the reference viewpoint to the video decoding device 200.
- the motion information input here is referred to as reference viewpoint motion information.
- reference viewpoint motion information it is assumed that motion information of the camera A is input.
- the depth map input unit 204 inputs a depth map, which is referred to when obtaining a correspondence relationship between pixels between viewpoints or generating motion information for a decoding target image, to the video decoding device 200.
- a depth map for a decoding target image is input, but a depth map for another viewpoint such as a reference viewpoint may be used.
- the depth map represents a three-dimensional position of a subject shown in each pixel of a corresponding image. For example, a distance from the camera to the subject, a coordinate value with respect to an axis that is not parallel to the image plane, and a parallax amount with respect to another camera (for example, camera A) can be used.
- the depth map is provided in the form of an image, but the image may not be in the form of an image as long as similar information can be obtained.
- the motion information generation unit 205 uses the reference viewpoint motion information and the depth map to generate motion information for the decoding target image.
- the image decoding unit 206 decodes and outputs the decoding target image from the bitstream using the generated motion information.
- the reference image memory 207 stores the obtained decoding target image for subsequent decoding.
- FIG. 5 is a flowchart showing the operation of the video decoding apparatus 200 shown in FIG.
- the bit stream input unit 201 inputs a bit stream obtained by encoding a decoding target image to the video decoding device 200 and stores it in the bit stream memory 202 (step S201).
- the reference viewpoint motion information input unit 203 inputs reference viewpoint placement information to the video decoding device 200
- the depth map input unit 204 inputs the depth map to the video decoding device 200, and outputs them to the motion information generation unit 205, respectively. (Step S202).
- the reference viewpoint motion information and the depth map input in step S202 are the same as those used on the encoding side. This is to suppress the occurrence of encoding noise such as drift by using exactly the same information as that used at the time of encoding. However, if such encoding noise is allowed to occur, a different one from that used at the time of encoding may be input.
- depth maps in addition to those separately decoded, depth maps estimated by applying stereo matching etc. to multi-view video decoded for multiple cameras, decoded parallax vectors, motion vectors, etc. A depth map estimated by using may be used.
- the reference viewpoint motion information may be the motion information used when decoding the video for the reference viewpoint, or may be separately encoded for the reference viewpoint. It is also possible to use motion information obtained by decoding a video for the reference viewpoint and estimating the video.
- Step S203 to S207 the decoding target image is divided into regions of a predetermined size, and the video signal of the decoding target image is decoded from the bit stream for each divided region.
- processing unit blocks called macroblocks of 16 pixels ⁇ 16 pixels, but may be divided into blocks of other sizes as long as they are the same as those on the encoding side. Further, the entire image may not be divided into the same size, but may be divided into blocks having different sizes for each region.
- the motion information generation unit 205 In the process repeated for each decoding target area, first, the motion information generation unit 205 generates motion information in the decoding target area blk (step S204).
- the processing here is the same as the processing in step S104 described above, except that the encoding target region becomes the decoding target region.
- the image decoding unit 206 performs motion compensation prediction using the motion information and the image stored in the reference image memory 207 while performing the motion compensation prediction in the decoding target region blk.
- the video signal (pixel value) is decoded from the bit stream (step S205).
- the obtained decoding target image is stored in the reference image memory 207 and is output from the video decoding device 200.
- a method corresponding to the method used at the time of encoding is used for decoding the video signal.
- MPEG-2 and H.264 When general encoding such as H.264 / AVC is used, the obtained bit stream is subjected to frequency inverse transform such as entropy decoding, inverse binarization, inverse quantization, and IDCT in order for the bitstream. The predicted image is added to the dimension signal, and finally, the video signal is decoded by performing clipping in the pixel value range.
- the motion information is generated for each region obtained by dividing the encoding target image or the decoding target image.
- the motion information is generated and stored in advance for all the regions in advance. You may make it refer to the stored motion information.
- a flag indicating the process may be encoded / decoded, or may be designated by some other means.
- whether or not to apply processing may be expressed as one of modes indicating a method for generating a predicted image for each region.
- the transformation matrix is always generated. However, the transformation matrix does not change unless the positional relationship between the encoding target viewpoint or the decoding target viewpoint and the reference viewpoint or the definition of the depth (that is, the three-dimensional plane corresponding to each depth) changes.
- a set may be obtained, and in this case, it is not necessary to recalculate the transformation matrix for each frame or each region. That is, each time the encoding target image or the decoding target image changes, it is expressed by the positional relationship between the encoding target viewpoint or the decoding target viewpoint and the reference viewpoint represented by a separately provided camera parameter, and the camera parameter in the immediately preceding frame. If the positional relationship does not change or is small, the set of transform matrices used in the immediately preceding frame is used as is.
- the decoding side may determine whether to recalculate the transformation matrix based on the transmitted information. Only one piece of information indicating whether or not recalculation is necessary may be set for the entire frame, may be set for each reference viewpoint, or may be set for each depth.
- a transformation matrix is generated for each depth value of the representative depth.
- one depth value is set as a quantization depth for each range of depth values determined separately, and the quantization depth value is set.
- a conversion matrix may be set for each. Since the representative depth can take any depth value in the range of depth, a transformation matrix for all depth values may be required. By doing so, the depth value that requires the transformation matrix is quantized. It can be limited to the same depth value as the depth.
- a quantization depth is obtained from a section of depth values including the representative depth, and a transformation matrix is obtained using the quantization depth. In particular, when one quantization depth is set for the entire range of depth, the transformation matrix is unique for the reference view.
- the depth value range for setting the quantization depth and the depth value for the quantization depth in each range may be set in any way. For example, it may be determined according to the depth distribution in the depth map. At this time, the motion of the video corresponding to the depth map may be examined, and the depth value distribution may be examined only for the depth with respect to an area where a certain amount of motion exists. By doing so, it becomes possible to share motion information between viewpoints when the motion is large, and it is possible to reduce a larger amount of code.
- the encoding side determines the determined quantization method (the range of depth values corresponding to each quantization depth, the depth value of the quantization depth, etc.)
- the decoding method may be obtained by decoding the quantization method from the encoded bit stream. Note that, in particular, when one quantization depth is set for the entire image, the quantization depth value may be encoded or decoded instead of the quantization method.
- the transformation matrix is also generated on the decoding side using camera parameters or the like.
- the transformation matrix obtained by calculation on the encoding side may be encoded and transmitted.
- the decoding side does not generate the transformation matrix from the camera parameters or the like, but acquires it by decoding from the encoded bit stream.
- the conversion matrix is always used.
- the camera parameters are checked, and if the viewpoints are parallel, a lookup table (for conversion between input and output) is generated, and the lookup table is generated.
- the depth and the parallax vector may be converted according to the above, and the method of the present invention may be used if the viewpoints are not parallel. Further, it is possible to check only on the encoding side and encode information indicating which method is used. In that case, the decoding side decodes the information and decides which method to use.
- the homography matrix is used as the transformation matrix.
- another matrix is used. May be used.
- a simplified matrix may be used instead of a strict homography matrix.
- an affine transformation matrix, a projection matrix, a matrix generated by combining a plurality of transformation matrices, or the like may be used.
- another conversion matrix it is possible to appropriately control the conversion accuracy and calculation amount, the update frequency of the conversion matrix, the code amount when transmitting the conversion matrix, and the like.
- the same transformation matrix is used for encoding and decoding.
- FIG. 6 is a block diagram showing a hardware configuration when the video encoding apparatus 100 shown in FIG. 1 is configured by a computer and a software program.
- the system shown in FIG. CPU 50 that executes the program
- a memory 51 such as a RAM in which programs and data accessed by the CPU 50 are stored
- An encoding target image input unit 52 that inputs a video signal to be encoded from a camera or the like into the video encoding device (may be a storage unit that stores a video signal by a disk device or the like)
- Reference viewpoint motion information input unit 53 that inputs reference viewpoint motion information from a memory or the like into the video encoding device (may be a storage unit that stores motion information by a disk device or the like)
- Depth map input unit 54 for inputting a depth map for a viewpoint where an encoding target image from a depth camera or the like (for obtaining depth information) is captured into the video encoding device (stores the depth map by the disk device or the like) (It may be
- a bit stream output unit 56 that outputs a bit stream generated by the CPU 50 executing the video encoding program 551 loaded in the memory 51, for example, via a network (a storage for storing a bit stream by a disk device or the like) May be part) Are connected by a bus.
- FIG. 7 is a block diagram showing a hardware configuration when the video decoding apparatus 200 shown in FIG. 4 is configured by a computer and a software program.
- the system shown in FIG. CPU 60 for executing the program A memory 61 such as a RAM in which programs and data accessed by the CPU 60 are stored
- a bit stream input unit 62 that inputs a bit stream encoded by the video encoding device according to the present method into the video decoding device (may be a storage unit that stores a bit stream by a disk device or the like)
- Reference viewpoint motion information input unit 63 that inputs motion information of a reference viewpoint from a memory or the like into the video decoding device (may be a storage unit that stores motion information by a disk device or the like)
- Depth map input unit 64 for inputting a depth map for a viewpoint from which a decoding target is captured from a depth camera or the like into the video decoding device may be a storage unit for storing depth information by a disk device or the like
- a program storage device 65 that
- a decoding target image output unit 66 (by a disk device or the like) that outputs a decoding target image obtained by decoding the bitstream to the playback device by the CPU 60 executing the video decoding program 651 loaded in the memory 61 Or a storage unit for storing video signals) Are connected by a bus.
- the video encoding device 100 and the video decoding device 200 in the above-described embodiment may be realized by a computer.
- a program for realizing this function may be recorded on a computer-readable recording medium, and the program recorded on this recording medium may be read into a computer system and executed.
- the “computer system” includes an OS and hardware such as peripheral devices.
- the “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM or a CD-ROM, and a hard disk incorporated in a computer system.
- the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line.
- a volatile memory inside a computer system serving as a server or a client in that case may be included and a program held for a certain period of time.
- the program may be for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in the computer system. It may be realized using hardware such as PLD (Programmable Logic Device) or FPGA (Field Programmable Gate Array).
- DESCRIPTION OF SYMBOLS 100 Video coding apparatus 101 ... Encoding object image input part 102 ... Encoding object image memory 103 ... Reference viewpoint motion information input part 104 ... Depth map input part 105 ... Motion Information generation unit 106 ... image encoding unit 107 ... image decoding unit 108 ... reference image memory 200 ... video decoding device 201 ... bit stream input unit 202 ... bit stream memory 203 ... Reference viewpoint motion information input unit 204 ... depth map input unit 205 ... motion information generation unit 206 ... image decoding unit 207 ... reference image memory
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
Description
なお、自由視点映像は、自由視点テレビ、任意視点映像、任意視点テレビなどと呼ばれることもある。
ここで、デプスマップとは、カメラから被写体までのデプス(距離)を画素ごとに表現したものであり、被写体の三次元的な位置を表現している。ある条件を満たす場合、デプスは二つのカメラ間の視差の逆数に比例しているため、ディスパリティマップ(視差画像)と呼ばれることもある。
なお、カメラから被写体までの距離の他に、表現対象空間上に張られた三次元座標系のZ軸に対する座標値をデプスとして用いることもある。一般に、撮影された画像に対して水平方向をX軸、垂直方向をY軸とするため、Z軸はカメラの向きと一致するが、複数のカメラに対して共通の座標系を用いる場合など、Z軸がカメラの向きと一致しない場合もある。
以下では、距離・Z値を区別せずにデプスと呼び、デプスを画素値として表した画像をデプスマップと呼ぶ。ただし、厳密にはディスパリティマップでは基準となるカメラ対を設定する必要がある。
また、等間隔に量子化する際に、物理量をそのまま量子化する方法と物理量の逆数を量子化する方法とがある。距離の逆数は視差に比例した値となるため、距離を高精度に表現する必要がある場合には、前者が使用され、視差を高精度に表現する必要がある場合には、後者が使用されることが多い。
以下では、デプスの画素値化の方法や量子化の方法に関係なく、デプスが画像として表現されたものを全てデプスマップと呼ぶ。
以下では、デプスマップとそれにより構成される映像を区別せずにデプスマップと呼ぶ。
映像符号化では、被写体が空間的および時間的に連続しているという特徴を利用して効率的な符号化を実現するために、映像の各フレームをマクロブロックと呼ばれる処理単位ブロックに分割し、マクロブロックごとにその映像信号を空間的または時間的に予測し、その予測方法を示す予測情報と予測残差とを符号化する。
映像信号を空間的に予測する場合は、例えば空間的な予測の方向を示す情報が予測情報となり、時間的に予測する場合は、例えば参照するフレームを示す情報とそのフレーム中の位置を示す情報とが予測情報となる。
空間的に行う予測は、フレーム内の予測であることから、フレーム内予測(画面内予測、イントラ予測)と呼ばれ、時間的に行う予測は、フレーム間の予測であることから、フレーム間予測(画面間予測、インター予測)と呼ばれる。
さらに、同じシーンを複数の位置や向きから撮影した映像からなる多視点映像を符号化する際には、映像の視点間の変化、すなわち視差を補償して映像信号の予測を行うことになるため、視差補償予測が用いられる。
例えば、MPEG-C Part.3を用いて、多視点映像とそれに対するデプスマップを表現する場合は、それぞれを既存の映像符号化方式を用いて符号化する。
非特許文献2では、処理対象の領域に対して、視差ベクトルを用いて、既に処理済みの別の視点の映像の領域を決定し、その領域を符号化する際に使用された動き情報を、処理対象の領域の動き情報またはその予測値として用いている。このとき効率的な符号化を実現するためには、処理対象の領域に対して精度の高い視差ベクトルを獲得する必要がある。
非特許文献2では、最も単純な方法として、処理対象の領域と時間または空間的に隣接する領域に対して与えられた視差ベクトルを、処理対象領域の視差ベクトルとする方法が用いられている。更に、より正確な視差ベクトルを求めるために、処理対象の領域に対するデプスを推定または取得し、そのデプスを変換して視差ベクトルを獲得する方法も用いられている。
前記多視点映像中の被写体に対するデプスマップから代表デプスを設定する代表デプス設定手段と、
前記代表デプスに基づいて、前記符号化対象画像上の位置を、該符号化対象画像とは異なる参照視点に対する参照視点画像上の位置へと変換する変換行列を設定する変換行列設定手段と、
前記符号化対象領域内の位置から代表位置を設定する代表位置設定手段と、
前記代表位置と前記変換行列を用いて、前記代表位置に対する前記参照視点画像上での対応位置を設定する対応位置設定手段と、
前記対応位置に基づいて、前記参照視点画像の動き情報である参照視点動き情報から前記符号化対象領域における合成動き情報を生成する動き情報生成手段と、
前記合成動き情報を用いて、前記符号化対象領域に対する予測画像を生成する予測画像生成手段と
を有する映像符号化装置を提供する。
前記代表デプス設定手段は、前記デプス領域に対する前記デプスマップから代表デプスを設定する。
前記デプス領域設定手段は、前記デプス参照視差ベクトルによって示される領域を前記デプス領域として設定するようにしても良い。
前記予測画像生成手段は、前記変換された合成動き情報を用いる。
前記過去デプスに基づいて、前記参照視点画像上の位置を前記符号化対象画像上の位置へと変換する逆変換行列を設定する逆変換行列設定手段と、
前記逆変換行列を用いて、前記合成動き情報を変換する合成動き情報変換手段とをさらに有し、
前記予測画像生成手段は、前記変換された合成動き情報を用いる。
前記多視点映像中の被写体に対するデプスマップから代表デプスを設定する代表デプス設定手段と、
前記代表デプスに基づいて、前記復号対象画像上の位置を、該復号対象画像とは異なる参照視点に対する参照画像上の位置へと変換する変換行列を設定する変換行列設定手段と、
前記復号対象領域内の位置から代表位置を設定する代表位置設定手段と、
前記代表位置と前記変換行列を用いて、前記代表位置に対する前記参照視点画像上での対応位置を設定する対応位置設定手段と、
前記対応位置に基づいて、前記参照視点画像の動き情報である参照視点動き情報から前記復号対象領域における合成動き情報を生成する動き情報生成手段と、
前記合成動き情報を用いて、前記復号対象領域に対する予測画像を生成する予測画像生成手段と
を有する映像復号装置も提供する。
前記代表デプス設定手段は、前記デプス領域に対する前記デプスマップから代表デプスを設定する。
前記デプス領域設定手段は、前記デプス参照視差ベクトルによって示される領域を前記デプス領域として設定するようにしても良い。
前記予測画像生成手段は、前記変換された合成動き情報を用いる。
前記過去デプスに基づいて、前記参照視点画像上の位置を前記復号対象画像上の位置へと変換する逆変換行列を設定する逆変換行列設定手段と、
前記逆変換行列を用いて、前記合成動き情報を変換する合成動き情報変換手段とをさらに有し、
前記予測画像生成手段は、前記変換された合成動き情報を用いる。
前記多視点映像中の被写体に対するデプスマップから代表デプスを設定する代表デプス設定ステップと、
前記代表デプスに基づいて、前記符号化対象画像上の位置を、該符号化対象画像とは異なる参照視点に対する参照視点画像上の位置へと変換する変換行列を設定する変換行列設定ステップと、
前記符号化対象領域内の位置から代表位置を設定する代表位置設定ステップと、
前記代表位置と前記変換行列を用いて、前記代表位置に対する前記参照視点画像上での対応位置を設定する対応位置設定ステップと、
前記対応位置に基づいて、前記参照視点画像の動き情報である参照視点動き情報から前記符号化対象領域における合成動き情報を生成する動き情報生成ステップと、
前記合成動き情報を用いて、前記符号化対象領域に対する予測画像を生成する予測画像生成ステップと
を有する映像符号化方法も提供する。
前記多視点映像中の被写体に対するデプスマップから代表デプスを設定する代表デプス設定ステップと、
前記代表デプスに基づいて、前記復号対象画像上の位置を、該復号対象画像とは異なる参照視点に対する参照画像上の位置へと変換する変換行列を設定する変換行列設定ステップと、
前記復号対象領域内の位置から代表位置を設定する代表位置設定ステップと、
前記代表位置と前記変換行列を用いて、前記代表位置に対する前記参照視点画像上での対応位置を設定する対応位置設定ステップと、
前記対応位置に基づいて、前記参照視点画像の動き情報である参照視点動き情報から前記復号対象領域における合成動き情報を生成する動き情報生成ステップと、
前記合成動き情報を用いて、前記復号対象領域に対する予測画像を生成する予測画像生成ステップと
を有する映像復号方法も提供する。
以下の説明においては、第1のカメラ(カメラAという)、第2のカメラ(カメラBという)の2つのカメラで撮影された多視点映像を符号化する場合を想定し、カメラAを参照視点としてカメラBの映像の1フレームを符号化または復号するものとして説明する。
なお、デプスから視差を得るために必要となる情報は、別途与えられているものとする。具体的には、カメラAとカメラBの位置関係を表す外部パラメータや、カメラによる画像平面への投影情報を表す内部パラメータである、これらと同じ意味をもつものであれば、別の形式で必要な情報が与えられていてもよい。
これらのカメラパラメータに関する詳しい説明は、例えば、文献「Oliver Faugeras, "Three-Dimension Computer Vision", MIT Press; BCTC/UFF-006.37 F259 1993, ISBN:0-262-06158-9.」に記載されている。この文献には、複数のカメラの位置関係を示すパラメータや、カメラによる画像平面への投影情報を表すパラメータに関する説明が記載されている。
また、座標値やブロックに対応付け可能なインデックス値とベクトルとの加算によって、その座標やブロックをベクトルの分だけずらした位置の座標値やブロックを表すものとする。
映像符号化装置100は、図1に示すように、符号化対象画像入力部101、符号化対象画像メモリ102、参照視点動き情報入力部103、デプスマップ入力部104、動き情報生成部105、画像符号化部106、画像復号部107及び参照画像メモリ108を備えている。
符号化対象画像メモリ102は、入力した符号化対象画像を記憶する。
参照視点動き情報入力部103は、参照視点の映像に対する動き情報(動きベクトルなど)を映像符号化装置100に入力する。以下では、ここで入力された動き情報を、参照視点動き情報と呼ぶ。ここではカメラAの動き情報を入力するものとする。
なお、デプスマップとは、対応する画像の各画素に写っている被写体の3次元位置を表すものである。例えば、カメラから被写体までの距離や、画像平面とは平行ではない軸に対する座標値、別のカメラ(例えばカメラA)に対する視差量を用いることができる。
なお、ここではデプスマップとして画像の形態で提供されるものとしているが、同様の情報が得られるのであれば、画像の形態でなくても構わない。
画像符号化部106は、生成された動き情報を用いながら、符号化対象画像を予測符号化する。
画像復号部107は、符号化対象画像のビットストリームを復号する。
参照画像メモリ108は、符号化対象画像のビットストリームを復号した際に得られる画像を記憶する。
まず、符号化対象画像入力部101は、符号化対象画像Orgを入力し、符号化対象画像メモリ102に記憶する(ステップS101)。
次に、参照視点動き情報入力部103は参照視点動き情報を映像符号化装置100に入力し、デプスマップ入力部104はデプスマップを映像符号化装置100に入力し、それぞれ動き情報生成部105へ出力される(ステップS102)。
デプスマップに関しては、既に符号化済みのものを復号したもの以外に、複数のカメラに対して復号された多視点映像に対してステレオマッチング等を適用することで推定したデプスマップや、復号された視差ベクトルや動きベクトルなどを用いて推定されるデプスマップなども、復号側で同じものが得られるものとして用いることができる。
すなわち、符号化対象領域インデックスをblk、1フレーム中の総符号化対象領域数をnumBlksで表すとすると、blkを0で初期化し(ステップS103)、その後、blkに1を加算しながら(ステップS107)、blkがnumBlksになるまで(ステップS108)、以下の処理(ステップS104~S106)を繰り返す。
一般的な符号化では16画素×16画素のマクロブロックと呼ばれる処理単位ブロックへ分割するが、復号側と同じであればその他の大きさのブロックに分割しても構わない。また、画像全体を同じサイズで分割せず、領域ごとに異なるサイズのブロックに分割しても構わない。
符号化対象領域blkに対する動き情報が得られたら、画像符号化部106は、その動き情報と参照画像メモリ108に記憶された画像とを用いて動き補償予測を行いながら、符号化対象領域blkにおける符号化対象画像の映像信号(画素値)を符号化する(ステップ105)。符号化の結果得られるビットストリームが映像符号化装置100の出力となる。なお、符号化する方法には、どのような方法を用いても構わない。
MPEG-2やH.264/AVCなどの一般的な符号化では、ブロックblkの映像信号と予測画像との差分信号に対して、DCTなどの周波数変換、量子化、2値化、エントロピー符号化を順に施すことで符号化を行う。
ここでは、符号化時に用いた手法に対応する手法を用いる。例えば、MPEG-2やH.264/AVCなどの一般的な符号化であれば、符号データに対して、エントロピー復号、逆2値化、逆量子化、IDCTなどの周波数逆変換を順に施し、得られた2次元信号に対して予測画像を加え、最後に画素値の値域でクリッピングを行うことで映像信号を復号する。
なお、符号化側での処理がロスレスになる直前のデータと予測画像を受け取り、簡略化した復号処理によって復号処理を行っても構わない。
なお、符号化対象画像とデプスマップの解像度が異なる場合は、解像度比に応じてスケーリングした領域を設定する。符号化対象視点と異なる視点の1つをデプス視点とするとき、デプス視点に対するデプスマップを用いる場合は、符号化対象領域blkにおける符号化対象視点とデプス視点の視差DVを求め、blk+DVにおけるデプスマップを設定する。符号化対象画像とデプスマップの解像度が異なる場合は、上述のように、解像度比に応じて位置および大きさのスケーリングを行う。
例えば、符号化対象領域blkの周辺領域を符号化する際に使用された視差ベクトルや、符号化対象画像全体や符号化対象領域を含む部分画像に対して設定されたグローバル視差ベクトル、符号化対象領域に対して別途設定し符号化される視差ベクトルなどを用いることが可能である。また、異なる領域や過去に符号化された画像で使用した視差ベクトルを記憶しておき、用いても構わない。
更に、符号化対象視点に対して過去に符号化されたデプスマップの符号化対象領域と同位置のデプスマップを変換して得られる視差ベクトルを用いても構わない。
代表画素位置posを設定する代表的な方法としては、代表画素位置として符号化対象領域内の中央や左上など予め定められた位置を設定する方法や、代表デプスを求めた後に、その代表デプスと同じデプスを持つ符号化対象領域内の画素の位置を設定する方法がある。
具体的には、符号化対象領域内の中央に位置する4つの画素や、(四角形状の符号化対象領域の)4頂点に位置する画素、4頂点と中央に位置する画素を対象とし、最大のデプスや、最小のデプス、中央値のデプスなどを与える画素を選択する方法である。
代表デプスrepを設定する代表的な方法としては、符号化対象領域blkに対するデプスマップの平均値や中央値、最大値、最小値などを用いる方法がある。
また、符号化対象領域内の全ての画素ではなく、一部の画素に対するデプス値の平均値や中央値、最大値、最小値などを用いても構わない。一部の画素としては、4頂点や4頂点と中央などを用いても構わない。更に、符号化対象領域に対して、左上や中央など予め定められた位置に対するデプス値を用いる方法もある。
ここで、変換行列はホモグラフィ行列と呼ばれ、代表デプスで表現される平面に被写体が存在すると仮定したときに、視点間での画像平面上の点の対応関係を与えるものである。なお、変換行列Hrepはどのように求めても構わない。例えば、次の数式を用いて求めることが可能である。
dt(pi)は、符号化対象画像上の点piにおけるデプスが代表デプスであるとしたときの、符号化対象視点から点piにおける被写体までの光軸上の距離を示す。
sは任意の実数であるが、カメラパラメータの誤差がない場合、sは参照視点の画像上の点qiにおける参照視点から点qiにおける被写体までの光軸上の距離dr(qi)と等しい。
また、上記定義に従い式2を計算すると、次の数式となる。なお、内部パラメータA、回転行列R、並進ベクトルtの添え字tとrは各カメラを表し、それぞれ符号化対象視点と参照視点を示す。
なお、対応位置(u,v)を含む領域に対して参照視点動き情報が記憶されていない場合は、動き情報なしの情報を設定しても、ゼロベクトルなどデフォルトの動き情報を設定しても、対応位置(u,v)に最も近い動き情報を記憶している領域を同定して、その領域において記憶されている参照視点動き情報を設定しても構わない。ただし、復号側と同じ規則で動き情報を設定する。
このようにすることで、異なる領域に対して生成される動き情報が全て同じ時間間隔を持つことになり、動き補償予測を行う際の参照画像を統一し、アクセスするメモリ空間を限定することが可能となる。なお、アクセスするメモリ空間が限定されることによって、キャッシュメモリのヒット率を向上させ、処理速度を向上することが可能となる。
すなわち、ステップS1405において設定された動き情報をmv=(mvx,mvy)Tとすると、変換した動き情報mv’は次の数式で表される。
符号化対象視点と参照視点とで共通する軸を用いてデプスを表現している場合、この変換は、引数で与えられたデプスをそのまま返す。
直接計算する場合、まず、参照視点に対する画像中の異なる4点q’i(i=1,2,3,4)に対して、次の式に基づいて、符号化対象視点の画像上の対応点p’iを求める。
図4は本実施形態による映像復号装置の構成を示すブロック図である。映像復号装置200は、図4に示すように、ビットストリーム入力部201、ビットストリームメモリ202、参照視点動き情報入力部203、デプスマップ入力部204、動き情報生成部205、画像復号部206及び参照画像メモリ207を備えている。
ビットストリームメモリ202は、入力した復号対象画像に対するビットストリームを記憶する。
参照視点動き情報入力部203は、参照視点の映像に対する動き情報(動きベクトルなど)を映像復号装置200に入力する。以下では、ここで入力された動き情報を、参照視点動き情報と呼ぶ。ここではカメラAの動き情報が入力されるものとする。
なお、デプスマップとは、対応する画像の各画素に写っている被写体の3次元位置を表すものである。例えば、カメラから被写体までの距離や、画像平面とは平行ではない軸に対する座標値、別のカメラ(例えばカメラA)に対する視差量を用いることができる。
なお、ここではデプスマップとして画像の形態で提供されるものとしているが、同様の情報が得られるのであれば、画像の形態でなくても構わない。
画像復号部206は、生成された動き情報を用いながら、上記ビットストリームから復号対象画像を復号して出力する。
参照画像メモリ207は、得られた復号対象画像を、以降の復号のために記憶する。
まず、ビットストリーム入力部201は、復号対象画像を符号化したビットストリームを映像復号装置200に入力し、ビットストリームメモリ202に記憶する(ステップS201)。
次に、参照視点動き情報入力部203は参照視点具置き情報を映像復号装置200に入力し、デプスマップ入力部204はデプスマップを映像復号装置200に入力し、それぞれ動き情報生成部205へ出力される(ステップS202)。
デプスマップに関しては、別途復号したもの以外に、複数のカメラに対して復号された多視点映像に対してステレオマッチング等を適用することで推定したデプスマップや、復号された視差ベクトルや動きベクトルなどを用いて推定されるデプスマップなどを用いることもある。
すなわち、復号対象領域インデックスをblk、1フレーム中の総復号対象領域数をnumBlksで表すとすると、blkを0で初期化し(ステップS203)、その後、blkに1を加算しながら(ステップS206)、blkがnumBlksになるまで(ステップS207)、以下の処理(ステップS204~S205)を繰り返す。
一般的な復号では16画素×16画素のマクロブロックと呼ばれる処理単位ブロックへ分割するが、符号化側と同じであればその他の大きさのブロックに分割しても構わない。また、画像全体を同じサイズで分割せず、領域ごとに異なるサイズのブロックに分割しても構わない。
例えば、MPEG-2やH.264/AVCなどの一般的な符号化が用いられている場合は、ビットストリームに対して、エントロピー復号、逆2値化、逆量子化、IDCTなどの周波数逆変換を順に施し、得られた2次元信号に対して予測画像を加え、最後に画素値の値域でクリッピングを行うことで映像信号を復号する。
この場合、処理を適用するか否かを判断して、それを示すフラグを符号化/復号しても構わないし、なんらかの別の手段でそれを指定しても構わない。例えば、領域ごとの予測画像を生成する手法を示すモードの1つとして、処理を適用するか否かを表現するようにしても構わない。
すなわち、符号化対象画像または復号対象画像が変わるごとに、別途与えられるカメラパラメータによって表される符号化対象視点または復号対象視点と参照視点との位置関係と、直前のフレームにおけるカメラパラメータによって表される符号化対象視点または復号対象視点と参照視点との位置関係とを比較し、位置関係の変化がない又は小さいときには、直前のフレームで使用した変換行列の集合をそのまま用い、それ以外の場合にのみ変換行列の集合を求めるようにしても構わない。
なお、変換行列の集合を求める際に、全ての変換行列を求め直すのではなく、直前のフレームと位置関係の異なる参照視点に対するものと、定義の変化したデプスに対するものを同定し、それらに対してだけ求め直しても構わない。
再計算が必要か否かを示す情報は、フレーム全体に対して1つだけ設定しても構わないし、参照視点ごとに設定しても構わないし、デプスごとに設定しても構わない。
また、符号化側のみでチェックを行い、どちらの手法を用いるかを示す情報を符号化しても構わない。その場合、復号側ではその情報を復号し、どちらの手法を用いるかを決定する。
別の変換行列を用いることで、変換の精度や演算量、変換行列の更新頻度、変換行列を伝送する場合の符号量などを適宜制御することが可能である。なお、符号化ノイズの発生を防ぐためには、符号化時と復号時とで同じ変換行列を使用するようにする。
図6に示すシステムは:
・プログラムを実行するCPU50
・CPU50がアクセスするプログラムやデータが格納されるRAM等のメモリ51
・カメラ等からの符号化対象の映像信号を映像符号化装置内に入力する符号化対象画像入力部52(ディスク装置等による、映像信号を記憶する記憶部でもよい)
・メモリ等から参照視点の動き情報を映像符号化装置内に入力する参照視点動き情報入力部53(ディスク装置等による、動き情報を記憶する記憶部でもよい)
・(デプス情報を取得するための)デプスカメラ等からの符号化対象画像を撮影した視点に対するデプスマップを映像符号化装置内に入力するデプスマップ入力部54(ディスク装置等による、デプスマップを記憶する記憶部でもよい)
・映像像符号化処理をCPU50に実行させるソフトウェアプログラムである映像符号化プログラム551が格納されたプログラム記憶装置55
・CPU50がメモリ51にロードされた映像符号化プログラム551を実行することにより生成されたビットストリームを、例えばネットワークを介して出力するビットストリーム出力部56(ディスク装置等による、ビットストリームを記憶する記憶部でもよい)
とが、バスで接続された構成になっている。
図7に示すシステムは:
・プログラムを実行するCPU60
・CPU60がアクセスするプログラムやデータが格納されるRAM等のメモリ61
・映像符号化装置が本手法により符号化したビットストリームを映像復号装置内に入力するビットストリーム入力部62(ディスク装置等による、ビットストリームを記憶する記憶部でもよい)
・メモリ等からの参照視点の動き情報を映像復号装置内に入力する参照視点動き情報入力部63(ディスク装置等による、動き情報を記憶する記憶部でもよい)
・デプスカメラ等からの復号対象を撮影した視点に対するデプスマップを映像復号装置内に入力するデプスマップ入力部64(ディスク装置等による、デプス情報を記憶する記憶部でもよい)
・映像復号処理をCPU60に実行させるソフトウェアプログラムである映像復号プログラム651が格納されたプログラム記憶装置65
・CPU60がメモリ61にロードされた映像復号プログラム651を実行することにより、ビットストリームを復号して得られた復号対象画像を、再生装置などに出力する復号対象画像出力部66(ディスク装置等による、映像信号を記憶する記憶部でもよい)
とが、バスで接続された構成になっている。
なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。
また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、PLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されるものであってもよい。
101・・・符号化対象画像入力部
102・・・符号化対象画像メモリ
103・・・参照視点動き情報入力部
104・・・デプスマップ入力部
105・・・動き情報生成部
106・・・画像符号化部
107・・・画像復号部
108・・・参照画像メモリ
200・・・映像復号装置
201・・・ビットストリーム入力部
202・・・ビットストリームメモリ
203・・・参照視点動き情報入力部
204・・・デプスマップ入力部
205・・・動き情報生成部
206・・・画像復号部
207・・・参照画像メモリ
Claims (18)
- 複数の異なる視点の映像からなる多視点映像の1フレームである符号化対象画像を符号化する際に、前記符号化対象画像を分割した領域である符号化対象領域ごとに、異なる視点間で予測しながら符号化を行う映像符号化装置であって、
前記多視点映像中の被写体に対するデプスマップから代表デプスを設定する代表デプス設定手段と、
前記代表デプスに基づいて、前記符号化対象画像上の位置を、該符号化対象画像とは異なる参照視点に対する参照視点画像上の位置へと変換する変換行列を設定する変換行列設定手段と、
前記符号化対象領域内の位置から代表位置を設定する代表位置設定手段と、
前記代表位置と前記変換行列を用いて、前記代表位置に対する前記参照視点画像上での対応位置を設定する対応位置設定手段と、
前記対応位置に基づいて、前記参照視点画像の動き情報である参照視点動き情報から前記符号化対象領域における合成動き情報を生成する動き情報生成手段と、
前記合成動き情報を用いて、前記符号化対象領域に対する予測画像を生成する予測画像生成手段と
を有することを特徴とする映像符号化装置。 - 前記符号化対象領域に対して、前記デプスマップ上での対応領域であるデプス領域を設定するデプス領域設定手段をさらに有し、
前記代表デプス設定手段は、前記デプス領域に対する前記デプスマップから代表デプスを設定することを特徴とする請求項1に記載の映像符号化装置。 - 前記符号化対象領域に対して、前記デプスマップに対する視差ベクトルであるデプス参照視差ベクトルを設定するデプス参照視差ベクトル設定手段をさらに有し、
前記デプス領域設定手段は、前記デプス参照視差ベクトルによって示される領域を前記デプス領域として設定することを特徴とする請求項2に記載の映像符号化装置。 - 前記デプス参照視差ベクトル設定手段は、前記符号化対象領域に隣接する領域を符号化する際に使用した視差ベクトルを用いて、前記デプス参照視差ベクトルを設定することを特徴とする請求項3に記載の映像符号化装置。
- 前記代表デプス設定手段は、四角形状を有する前記符号化対象領域の4頂点の画素に対応する前記デプス領域内のデプスのうち、最もカメラに近いことを示すデプスを代表デプスとして設定することを特徴とする請求項2に記載の映像符号化装置。
- 前記変換行列を用いて、前記合成動き情報を変換する合成動き情報変換手段をさらに有し、
前記予測画像生成手段は、前記変換された合成動き情報を用いることを特徴とする請求項1に記載の映像符号化装置。 - 前記対応位置と前記合成動き情報とに基づいて、前記デプスマップから過去デプスを設定する過去デプス設定手段と、
前記過去デプスに基づいて、前記参照視点画像上の位置を前記符号化対象画像上の位置へと変換する逆変換行列を設定する逆変換行列設定手段と、
前記逆変換行列を用いて、前記合成動き情報を変換する合成動き情報変換手段とをさらに有し、
前記予測画像生成手段は、前記変換された合成動き情報を用いることを特徴とする請求項1に記載の映像符号化装置。 - 複数の異なる視点の映像からなる多視点動画像の符号データから、復号対象画像を復号する際に、前記復号対象画像を分割した領域である復号対象領域ごとに、異なる視点間で予測しながら復号を行う映像復号装置であって、
前記多視点映像中の被写体に対するデプスマップから代表デプスを設定する代表デプス設定手段と、
前記代表デプスに基づいて、前記復号対象画像上の位置を、該復号対象画像とは異なる参照視点に対する参照画像上の位置へと変換する変換行列を設定する変換行列設定手段と、
前記復号対象領域内の位置から代表位置を設定する代表位置設定手段と、
前記代表位置と前記変換行列を用いて、前記代表位置に対する前記参照視点画像上での対応位置を設定する対応位置設定手段と、
前記対応位置に基づいて、前記参照視点画像の動き情報である参照視点動き情報から前記復号対象領域における合成動き情報を生成する動き情報生成手段と、
前記合成動き情報を用いて、前記復号対象領域に対する予測画像を生成する予測画像生成手段と
を有することを特徴とする映像復号装置。 - 前記復号対象領域に対して、前記デプスマップ上での対応領域であるデプス領域を設定するデプス領域設定手段をさらに有し、
前記代表デプス設定手段は、前記デプス領域に対する前記デプスマップから代表デプスを設定することを特徴とする請求項8に記載の映像復号装置。 - 前記復号対象領域に対して、前記デプスマップに対する視差ベクトルであるデプス参照視差ベクトルを設定するデプス参照視差ベクトル設定手段をさらに有し、
前記デプス領域設定手段は、前記デプス参照視差ベクトルによって示される領域を前記デプス領域として設定することを特徴とする請求項9に記載の映像復号装置。 - 前記デプス参照視差ベクトル設定手段は、前記復号対象領域に隣接する領域を復号する際に使用した視差ベクトルを用いて、前記デプス参照視差ベクトルを設定することを特徴とする請求項10に記載の映像復号装置。
- 前記代表デプス設定手段は、四角形状を有する前記復号対象領域の4頂点の画素に対応する前記デプス領域内のデプスのうち、最もカメラに近いことを示すデプスを代表デプスとして設定することを特徴とする請求項9に記載の映像復号装置。
- 前記変換行列を用いて、前記合成動き情報を変換する合成動き情報変換手段をさらに有し、
前記予測画像生成手段は、前記変換された合成動き情報を用いることを特徴とする請求項8に記載の映像復号装置。 - 前記対応位置と前記合成動き情報とに基づいて、前記デプスマップから過去デプスを設定する過去デプス設定手段と、
前記過去デプスに基づいて、前記参照視点画像上の位置を前記復号対象画像上の位置へと変換する逆変換行列を設定する逆変換行列設定手段と、
前記逆変換行列を用いて、前記合成動き情報を変換する合成動き情報変換手段とをさらに有し、
前記予測画像生成手段は、前記変換された合成動き情報を用いることを特徴とする請求項8に記載の映像復号装置。 - 複数の異なる視点の映像からなる多視点映像の1フレームである符号化対象画像を符号化する際に、前記符号化対象画像を分割した領域である符号化対象領域ごとに、異なる視点間で予測しながら符号化を行う映像符号化方法であって、
前記多視点映像中の被写体に対するデプスマップから代表デプスを設定する代表デプス設定ステップと、
前記代表デプスに基づいて、前記符号化対象画像上の位置を、該符号化対象画像とは異なる参照視点に対する参照視点画像上の位置へと変換する変換行列を設定する変換行列設定ステップと、
前記符号化対象領域内の位置から代表位置を設定する代表位置設定ステップと、
前記代表位置と前記変換行列を用いて、前記代表位置に対する前記参照視点画像上での対応位置を設定する対応位置設定ステップと、
前記対応位置に基づいて、前記参照視点画像の動き情報である参照視点動き情報から前記符号化対象領域における合成動き情報を生成する動き情報生成ステップと、
前記合成動き情報を用いて、前記符号化対象領域に対する予測画像を生成する予測画像生成ステップと
を有することを特徴とする映像符号化方法。 - 複数の異なる視点の映像からなる多視点動画像の符号データから、復号対象画像を復号する際に、前記復号対象画像を分割した領域である復号対象領域ごとに、異なる視点間で予測しながら復号を行う映像復号方法であって、
前記多視点映像中の被写体に対するデプスマップから代表デプスを設定する代表デプス設定ステップと、
前記代表デプスに基づいて、前記復号対象画像上の位置を、該復号対象画像とは異なる参照視点に対する参照画像上の位置へと変換する変換行列を設定する変換行列設定ステップと、
前記復号対象領域内の位置から代表位置を設定する代表位置設定ステップと、
前記代表位置と前記変換行列を用いて、前記代表位置に対する前記参照視点画像上での対応位置を設定する対応位置設定ステップと、
前記対応位置に基づいて、前記参照視点画像の動き情報である参照視点動き情報から前記復号対象領域における合成動き情報を生成する動き情報生成ステップと、
前記合成動き情報を用いて、前記復号対象領域に対する予測画像を生成する予測画像生成ステップと
を有することを特徴とする映像復号方法。 - コンピュータに、請求項1に記載の映像符号化方法を実行させるための映像符号化プログラム。
- コンピュータに、請求項8に記載の映像復号方法を実行させるための映像復号プログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020167014366A KR20160079068A (ko) | 2013-12-03 | 2014-12-03 | 영상 부호화 장치 및 방법, 영상 복호 장치 및 방법, 및 그 프로그램 |
US15/038,611 US20160295241A1 (en) | 2013-12-03 | 2014-12-03 | Video encoding apparatus and method, video decoding apparatus and method, and programs therefor |
CN201480065693.0A CN105934949A (zh) | 2013-12-03 | 2014-12-03 | 视频编码装置和方法、视频解码装置和方法、以及它们的程序 |
JP2015551543A JP6232075B2 (ja) | 2013-12-03 | 2014-12-03 | 映像符号化装置及び方法、映像復号装置及び方法、及び、それらのプログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013250429 | 2013-12-03 | ||
JP2013-250429 | 2013-12-03 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2015083742A1 true WO2015083742A1 (ja) | 2015-06-11 |
Family
ID=53273503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2014/081986 WO2015083742A1 (ja) | 2013-12-03 | 2014-12-03 | 映像符号化装置及び方法、映像復号装置及び方法、及び、それらのプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20160295241A1 (ja) |
JP (1) | JP6232075B2 (ja) |
KR (1) | KR20160079068A (ja) |
CN (1) | CN105934949A (ja) |
WO (1) | WO2015083742A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112672150A (zh) * | 2020-12-22 | 2021-04-16 | 福州大学 | 基于视频预测的视频编码方法 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3518534B1 (en) * | 2016-09-26 | 2023-05-17 | Sony Group Corporation | Encoding device, encoding method, decoding device, decoding method, transmission device, and reception device |
US10389994B2 (en) * | 2016-11-28 | 2019-08-20 | Sony Corporation | Decoder-centric UV codec for free-viewpoint video streaming |
FR3075540A1 (fr) * | 2017-12-15 | 2019-06-21 | Orange | Procedes et dispositifs de codage et de decodage d'une sequence video multi-vues representative d'une video omnidirectionnelle. |
CN109974707B (zh) * | 2019-03-19 | 2022-09-23 | 重庆邮电大学 | 一种基于改进点云匹配算法的室内移动机器人视觉导航方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11252586A (ja) * | 1998-03-03 | 1999-09-17 | Kdd Corp | ステレオ動画像用符号化装置 |
JP2007036800A (ja) * | 2005-07-28 | 2007-02-08 | Nippon Telegr & Teleph Corp <Ntt> | 映像符号化方法、映像復号方法、映像符号化プログラム、映像復号プログラム及びそれらのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2009116532A (ja) * | 2007-11-05 | 2009-05-28 | Nippon Telegr & Teleph Corp <Ntt> | 仮想視点画像生成方法および仮想視点画像生成装置 |
JP2013030898A (ja) * | 2011-07-27 | 2013-02-07 | Nippon Telegr & Teleph Corp <Ntt> | 画像伝送方法、画像伝送装置、画像送信装置、画像受信装置、画像送信プログラム及び画像受信プログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2439444T3 (es) * | 2006-10-30 | 2014-01-23 | Nippon Telegraph And Telephone Corporation | Método de codificación y método de descodificación de vídeo, aparatos para los mismos, programas para los mismos y medios de almacenamiento que almacenan los programas |
WO2013001813A1 (ja) * | 2011-06-29 | 2013-01-03 | パナソニック株式会社 | 画像符号化方法、画像復号方法、画像符号化装置および画像復号装置 |
US8898178B2 (en) * | 2011-12-15 | 2014-11-25 | Microsoft Corporation | Solution monitoring system |
JP2013229674A (ja) * | 2012-04-24 | 2013-11-07 | Sharp Corp | 画像符号化装置、画像復号装置、画像符号化方法、画像復号方法、画像符号化プログラム、及び画像復号プログラム |
-
2014
- 2014-12-03 CN CN201480065693.0A patent/CN105934949A/zh active Pending
- 2014-12-03 KR KR1020167014366A patent/KR20160079068A/ko not_active Application Discontinuation
- 2014-12-03 WO PCT/JP2014/081986 patent/WO2015083742A1/ja active Application Filing
- 2014-12-03 JP JP2015551543A patent/JP6232075B2/ja active Active
- 2014-12-03 US US15/038,611 patent/US20160295241A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11252586A (ja) * | 1998-03-03 | 1999-09-17 | Kdd Corp | ステレオ動画像用符号化装置 |
JP2007036800A (ja) * | 2005-07-28 | 2007-02-08 | Nippon Telegr & Teleph Corp <Ntt> | 映像符号化方法、映像復号方法、映像符号化プログラム、映像復号プログラム及びそれらのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2009116532A (ja) * | 2007-11-05 | 2009-05-28 | Nippon Telegr & Teleph Corp <Ntt> | 仮想視点画像生成方法および仮想視点画像生成装置 |
JP2013030898A (ja) * | 2011-07-27 | 2013-02-07 | Nippon Telegr & Teleph Corp <Ntt> | 画像伝送方法、画像伝送装置、画像送信装置、画像受信装置、画像送信プログラム及び画像受信プログラム |
Non-Patent Citations (3)
Title |
---|
GERHARD TECH ET AL.: "3D-HEVC Test Model 1", JOINT COLLABORATIVE TEAM ON 3D VIDEO CODING EXTENSION DEVELOPMENT OF ITU-T SG 16 WP3 AND ISO/IEC JTC1/SC29/WG11 JCT3V-A1005_D0, ITU-T, 20 September 2012 (2012-09-20), pages 12 - 21 * |
JIAN-LIANG LIN ET AL.: "3D-CE5.h related: Simplification on disparity vector derivation for HEVC-based 3D video coding", JOINT COLLABORATIVE TEAM ON 3D VIDEO CODING EXTENSION DEVELOPMENT OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11 JCT2-A0047, ITU-T, 20 July 2012 (2012-07-20), pages 1 - 3 * |
SHIN'YA SHIMIZU ET AL.: "Efficient Multi-view Video Coding using Multi-view Depth Map", THE JOURNAL OF THE INSTITUTE OF IMAGE INFORMATION AND TELEVISION ENGINEERS, THE INSTITUTE OF IMAGE INFORMATION AND TELEVISION ENGINEERS, vol. 63, no. 4, 1 April 2009 (2009-04-01), pages 524 - 532 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112672150A (zh) * | 2020-12-22 | 2021-04-16 | 福州大学 | 基于视频预测的视频编码方法 |
Also Published As
Publication number | Publication date |
---|---|
KR20160079068A (ko) | 2016-07-05 |
US20160295241A1 (en) | 2016-10-06 |
CN105934949A (zh) | 2016-09-07 |
JP6232075B2 (ja) | 2017-11-22 |
JPWO2015083742A1 (ja) | 2017-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6232076B2 (ja) | 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム及び映像復号プログラム | |
JP6307152B2 (ja) | 画像符号化装置及び方法、画像復号装置及び方法、及び、それらのプログラム | |
JP6027143B2 (ja) | 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、および画像復号プログラム | |
JP6053200B2 (ja) | 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム及び画像復号プログラム | |
JP4838275B2 (ja) | 距離情報符号化方法,復号方法,符号化装置,復号装置,符号化プログラム,復号プログラムおよびコンピュータ読み取り可能な記録媒体 | |
US20150249839A1 (en) | Picture encoding method, picture decoding method, picture encoding apparatus, picture decoding apparatus, picture encoding program, picture decoding program, and recording media | |
JP6232075B2 (ja) | 映像符号化装置及び方法、映像復号装置及び方法、及び、それらのプログラム | |
JP5926451B2 (ja) | 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、および画像復号プログラム | |
KR101750421B1 (ko) | 동화상 부호화 방법, 동화상 복호 방법, 동화상 부호화 장치, 동화상 복호 장치, 동화상 부호화 프로그램, 및 동화상 복호 프로그램 | |
JP4944046B2 (ja) | 映像符号化方法,復号方法,符号化装置,復号装置,それらのプログラムおよびコンピュータ読み取り可能な記録媒体 | |
US20160286212A1 (en) | Video encoding apparatus and method, and video decoding apparatus and method | |
JP4937161B2 (ja) | 距離情報符号化方法,復号方法,符号化装置,復号装置,符号化プログラム,復号プログラムおよびコンピュータ読み取り可能な記録媒体 | |
WO2015141549A1 (ja) | 動画像符号化装置及び方法、及び、動画像復号装置及び方法 | |
WO2015098827A1 (ja) | 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム及び映像復号プログラム | |
JP5759357B2 (ja) | 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム及び映像復号プログラム | |
JP2012135019A (ja) | 距離情報符号化方法,復号方法,符号化装置,復号装置,符号化プログラムおよび復号プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 14866874 Country of ref document: EP Kind code of ref document: A1 |
|
DPE1 | Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101) | ||
ENP | Entry into the national phase |
Ref document number: 2015551543 Country of ref document: JP Kind code of ref document: A |
|
WWE | Wipo information: entry into national phase |
Ref document number: 15038611 Country of ref document: US |
|
ENP | Entry into the national phase |
Ref document number: 20167014366 Country of ref document: KR Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 14866874 Country of ref document: EP Kind code of ref document: A1 |