WO2021100085A1 - 符号化方法、符号化装置及びプログラム - Google Patents

符号化方法、符号化装置及びプログラム Download PDF

Info

Publication number
WO2021100085A1
WO2021100085A1 PCT/JP2019/045083 JP2019045083W WO2021100085A1 WO 2021100085 A1 WO2021100085 A1 WO 2021100085A1 JP 2019045083 W JP2019045083 W JP 2019045083W WO 2021100085 A1 WO2021100085 A1 WO 2021100085A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
coded
area
camera
unit
Prior art date
Application number
PCT/JP2019/045083
Other languages
English (en)
French (fr)
Inventor
誠之 高村
木全 英明
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2021558047A priority Critical patent/JP7348549B2/ja
Priority to US17/775,759 priority patent/US20220417523A1/en
Priority to PCT/JP2019/045083 priority patent/WO2021100085A1/ja
Publication of WO2021100085A1 publication Critical patent/WO2021100085A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • H04N19/54Motion estimation other than block-based using feature points or meshes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding

Definitions

  • the present invention relates to a coding method, a coding device and a program.
  • the camera may shoot a moving image of an object (hereinafter referred to as "planar object") that has a flat shape such as a painting, tablet terminal, or the ground.
  • the shape, size, and position of the image of the object captured in the frame of the moving image changes for each frame of the moving image according to the movement of the object and the movement of the camera.
  • the coding device may compensate for the movement of the image of the object (motion compensation) so that the shape, size, and position of the image of the captured planar object are the same in each frame of the moving image.
  • MPEG-4 ASP Advanced Simple Profile
  • GMC Global Motion Compensation
  • References 1 to 3 shown in FIG. 15 are as follows. (Reference 1: ISO / IEC 14496-2: 2004 Information technology --Coding of audio-visual objects --Part 2: Visual) (Reference 2: F. Zou, J. Chen, M. Karczewicz, X. Li, H.-C.
  • the encoder uses Affine transformation to perform motion compensation.
  • the degree of freedom of affine transformation is also lower than the degree of freedom of projective transformation.
  • the encoding device uses similarity transformation to perform motion compensation.
  • the degree of freedom of similarity transformation is lower than the degree of freedom of projective transformation. Therefore, a method of adaptively switching the value of "no_of_sprite_warping_points" by 2 or 3 has been proposed as a draft standard of JVET (Joint Exploration team on Future Video Coding).
  • Motion compensation using a transformation equivalent to the affine transformation when the value of "no_of_sprite_warping_points" is 3 has been proposed.
  • H. 264 / AVC Advanced Video Coding
  • H.A. High Efficiency Video Coding
  • the encoding device motion-compensates only for deformation of an image of an object that translates (non-rotates) between frames. This motion compensation corresponds to motion compensation when the value of "no_of_sprite_warping_points" is 1.
  • FIG. 16 is a diagram showing an example of projective transformation based on four motion vectors.
  • 4 points of the frame 400 '(x 1, y 1), ..., (x 4, y 4) is, four points of the frame 401' (x '1, y' 1 ), ..., (x '4, y
  • the encoding device can derive "h 11 , ..., H 32 " by solving the linear equation of the equation (1).
  • the four points "(x 1 , y 1 ) ... (x 4 , y 4 )" of the frame 400 do not have to be the vertices of the rectangular frame 400.
  • the coding device performs a projective transformation based on "h 11 , ..., h 32 " and equations (2) to (5), and the point (x', of frame 401) corresponding to the point (x, y) of the frame 400. Derivation of y').
  • the 3 ⁇ 3 matrix “H” in equation (2) is a homography matrix.
  • the coding device uses a projective transformation based on eight parameters to compensate for motion. To do. Also, when an image of a stationary object of arbitrary shape taken by a fixed-position camera is deformed according to the camera parameters of the camera, the coding device uses a projective transformation based on eight parameters. Compensate for movement.
  • the degree of freedom of physical deformation of a planar object is less than the degree of freedom of deformation (8 parameters) that can be expressed by projective transformation.
  • FIG. 17 is a diagram showing an example of a flat plate (rigid body).
  • 18 to 23 are views showing first to sixth examples of deformation of the planar plate shown in FIG.
  • the flat plate is represented as a checkerboard.
  • the image of the planar plate shown in FIG. 17 is similar to the image of the planar plate shown in FIG. 18 or FIG. Deform.
  • the posture of the moving camera changes, the image of the planar plate shown in FIG. 17 is rotated and reduced like the image of the planar plate shown in FIG.
  • the coding apparatus expresses the deformation of the image of the planar plate shown in FIGS. 21 to 23 by using the projective transformation of eight parameters (degrees of freedom).
  • the conventional coding apparatus may not be able to improve the coding efficiency of the image.
  • the conventional coding device has a change in the image that cannot be related to the subject and the image pickup device. Since the parameters that can be expressed are used, there is room for improvement in improving the coding efficiency.
  • an object of the present invention is to provide a coding method, a coding device, and a program capable of improving the coding efficiency of an image.
  • One aspect of the present invention is a coding method for coding a coded target image using a reference image, which corresponds to a coded target area which is a divided region of the coded target image. It has a specific step of specifying a reference area which is a part of the above, and a prediction step of obtaining a prediction area for the coded target area by making a prediction using the reference area, and the coded target area and the said.
  • the reference area has a different size and / and a different shape, and in the specific step, the coded area due to the movement performed on the camera when the coded image and the reference image are acquired.
  • This is a coding method for specifying the reference area by utilizing the difference in the appearance of the subject corresponding to the reference area.
  • One aspect of the present invention is a coding device that encodes a coded target image using a reference image, and corresponds to the coded target area which is a divided region of the coded target image.
  • the regions have different sizes and / and different shapes, and the specific portion includes the coding target region due to the movement performed on the camera when acquiring the coding target image and the reference image.
  • One aspect of the present invention is a program for operating a computer as the above-mentioned encoding device.
  • VVC Non-Patent Document 1
  • the reference region used when predicting the block to be encoded does not have to have the same shape and size. This is because the affine motion compensation prediction that is expected to be implemented from VVC can be used.
  • the reference region is specified by using the motion vector related to the four vertices in the coded block. Using the motion vector related to the vertices of 4 means using 8 parameters (since the motion vector defines the motion on the xy plane). That is, eight parameters are transmitted to the decoding device for each coded block.
  • the reference area is specified by using eight parameters regardless of the relationship between the shape / size of the coded block and the shape / size of the reference area.
  • the coding device expresses the deformation of the image of the object by using the projective transformation. Since there are restrictions on the physical deformation of an object, the encoding device uses projective transformations of less than eight parameters (degrees of freedom) to represent the deformation of the object's image in the frame of the moving image. .. The coding device improves the coding efficiency of the image by highly accurate motion compensation using projective transformation of any of N (N is an integer of 1 to 4) less than 8 parameters (degrees of freedom). Can be made to.
  • the number of parameters required to identify the above relationships can be reduced by sub-conceptualizing and organizing them. Specifically, the relationship between shape and size is encoded. The change (operation) made to the camera from the time when the target image is captured to the time when the reference image is captured is either pan, tilt, roll, or zoom. Or, the minimum number of parameters required to identify the above relationship is determined based on which combination. Since the sub-conceptual relationship can be derived from the changes made to the camera when acquiring the coded image and the reference image, the camera parameters are used to estimate the sub-conceptualized relationship. In other words, the correlation that has been lowered due to the difference between the appearance of a predetermined subject in the coded image and the appearance of a predetermined subject in the reference image can be corrected by identifying and correcting the difference in the appearance. It is something to raise.
  • the encoding device uses one parameter, one parameter obtained by any one of pan, tilt, roll and zoom is used.
  • one parameter obtained by any one of pan, tilt, roll and zoom is used.
  • the two parameters obtained by any two of pan, tilt, roll and zoom are used.
  • the encoding device uses three parameters, the three parameters obtained by any three of pan, tilt, roll and zoom are used.
  • the encoding device uses four parameters, the four parameters obtained by pan, tilt, roll and zoom are all used.
  • the coding device specifies the movement performed on the camera by using the camera parameter related to the image to be coded and the camera parameter related to the reference image, and determines the number of parameters according to the specified movement.
  • FIG. 1 is a diagram showing a configuration example of the coding device 1.
  • the coding device 1 is a device that encodes a moving image.
  • the moving image input to the coding device 1 is a moving image taken by a camera having a fixed installation position.
  • the coding device 1 encodes the moving image for each block obtained by dividing the frame of the moving image.
  • the coding device 1 outputs the coded data to the decoding device.
  • the coding device 1 converts a signal representing N parameters (hereinafter referred to as “N parameter signal”) and a signal representing camera parameters (hereinafter referred to as “camera parameter signal”) into an external device (hereinafter referred to as “camera parameter signal”) such as a decoding device (hereinafter referred to as “camera parameter signal”). Output to (not shown).
  • the coding device 1 may include information indicating whether or not the camera is zoomed in the N parameter signal.
  • the coding device 1 includes a camera parameter determination unit 10, a parameter number determination unit 11, a motion vector determination unit 12, a subtraction unit 13, a conversion unit 14, a quantization unit 15, an entropy coding unit 16, and inverse quantization.
  • a unit 17, an inverse conversion unit 18, an addition unit 19, a distortion removing filter 20, a frame memory 21, an in-frame prediction unit 22, a motion compensation unit 23, and a switching unit 24 are provided.
  • each functional unit other than the motion compensation unit 23 in the coding device 1 operates based on a well-known video coding standard such as "H.265 / HEVC" and "H.264 / AVC". Good.
  • a part of the motion compensation unit 23 in the coding apparatus 1 may operate based on a well-known video coding standard.
  • a part or all of the coding device 1 is a program in which a processor such as a CPU (Central Processing Unit) or a GPU (Graphics Processing Unit) is stored in a memory which is a non-volatile recording medium (non-temporary recording medium). It is realized as software by executing.
  • a part or all of the coding device 1 may be realized by using hardware such as LSI (Large Scale Integration) or FPGA (Field Programmable Gate Array).
  • the camera parameter determination unit 10 determines the camera parameters based on a signal representing a moving image to be encoded (hereinafter referred to as "moving image signal"). For example, the camera parameter determination unit 10 determines the internal matrix A of the camera as the camera parameter A.
  • the camera parameter determination unit 10 outputs the determination result of the camera parameter as a camera parameter signal to the external, parameter number determination unit 11, motion vector determination unit 12, and motion compensation unit 23.
  • the parameter number determination unit 11 determines the number of parameters required for projective conversion of the coded target image represented by the moving image signal based on the moving image signal and the camera parameter signal.
  • the parameter number determination unit 11 specifies the movement performed on the camera using the camera parameter related to the coded image and the camera parameter related to the reference image, and determines the number of parameters according to the specified movement. ..
  • the motion vector determination unit 12 determines the motion vector based on the motion image signal, the camera parameter signal, and the number of parameters. Specifically, the motion vector determination unit 12 outputs a motion vector based on a number of parameters and a predetermined position in the image according to the number of parameters.
  • the motion vector determination unit 12 outputs the motion vector of the upper left corner of the image when the number of parameters is 1 or 2
  • the motion vector determination unit 12 outputs the motion vector of the upper left corner and the lower right corner of the image when the number of parameters is 3 or 4. Output the motion vector.
  • the positions in these images are not limited to the above.
  • the subtraction unit 13 subtracts the prediction signal from the moving image signal.
  • the prediction signal is generated for each predetermined processing unit (encoding target region) by the in-frame prediction unit 22 or the motion compensation unit 23.
  • the predetermined processing unit is H. In 265 / HEVC, it is a prediction unit.
  • the subtraction unit 13 outputs the predicted residual signal, which is the subtraction result, to the conversion unit 14.
  • the conversion unit 14 executes a discrete cosine transform (Discrete Cosine Transform) on the predicted residual signal.
  • the quantization unit 15 quantizes the result of the discrete cosine transform.
  • the entropy coding unit 16 executes entropy coding on the result of quantization.
  • the entropy coding unit 16 outputs the coded data resulting from the entropy coding to an external device (not shown) such as a decoding device.
  • the dequantization unit 17 dequantizes the result of quantization.
  • the inverse transform unit 18 executes an inverse discrete cosine transform (Inverse Discrete Cosine Transform) on the result of the inverse quantization.
  • the addition unit 19 generates a decoded image by adding the result of the inverse discrete cosine transform and the prediction signal.
  • the distortion removal filter 20 generates a decoded image signal from which distortion has been removed by removing distortion of the decoded image.
  • the frame memory 21 stores a decoded image signal (reference image) from which distortion has been removed.
  • the decoded image signal stored in the frame memory 21 is the same as the decoded image signal generated by the decoding device.
  • the frame memory 21 deletes the decoded image signal whose stored time is a predetermined time or longer from the frame memory 21.
  • the frame memory 21 may store the decoded image signal of the long-time reference frame until the frame memory 21 acquires a deletion instruction.
  • the frame memory 21 does not have to store the decoded image signal of the unreferenced frame.
  • the in-frame prediction unit 22 generates a prediction signal according to the result of the in-frame prediction processing by executing the in-frame prediction processing on the decoded image signal.
  • the motion compensation unit 23 generates a prediction signal according to the result of the motion compensation prediction process by executing the motion compensation prediction process on the decoded image signal. For example, the motion compensation unit 23 identifies a reference region that is a part of the reference image represented by the decoded image signal, and predicts using the reference region to obtain a prediction region for the coded target region.
  • the coded area and the reference area have different sizes and / and different shapes.
  • the switching unit 24 outputs a prediction signal according to the result of the in-frame prediction processing to the subtraction unit 13.
  • the switching unit 24 outputs a prediction signal according to the result of the motion compensation prediction processing to the subtraction unit 13.
  • FIG. 2 is a diagram showing a configuration example of the motion compensation unit 23.
  • the motion compensation unit 23 includes an analysis unit 231, an inter-frame prediction unit 232, a matrix generation unit 233, a projection conversion unit 234, and a switching unit 235.
  • the motion compensation mode includes a first mode and a second mode.
  • the first mode is a motion compensation mode based on inter-frame prediction processing in well-known video coding standards such as "H.265 / HEVC" and "H.264 / AVC".
  • the second mode a homography matrix based on one or a plurality of motion vectors (N parameter signals) is used, and a projective transformation is executed for each projective transformation unit on the decoded image signal stored in the frame memory 21. This is a motion compensation mode.
  • the analysis unit 231 acquires a plurality of frames of the moving image (hereinafter referred to as "frame group") in a predetermined period (time interval) as moving image signals. Further, the analysis unit 231 acquires the camera parameter signal for each frame from the camera parameter determination unit 10. The analysis unit 231 determines whether or not the acquired frame group is a frame group photographed during a period in which the camera parameters are invariant. For the frame group captured during the period when the camera parameters are invariant, the motion compensation of the second mode is more suitable than the motion compensation of the first mode because the accuracy of the projective transformation using the homography matrix is high.
  • the analysis unit 231 When it is determined that the frame group is captured in a period in which the camera parameters are not invariant, the analysis unit 231 generates a motion compensation mode signal (hereinafter referred to as "first motion compensation mode signal") representing the first mode. .. The analysis unit 231 outputs the first motion compensation mode signal to the inter-frame prediction unit 232 and the switching unit 235.
  • first motion compensation mode signal a motion compensation mode signal representing the first mode.
  • the analysis unit 231 When it is determined that the frame group was captured during the period in which the camera parameters are invariant, the analysis unit 231 generates a motion compensation mode signal (hereinafter referred to as "second motion compensation mode signal") representing the second mode. To do.
  • the analysis unit 231 outputs the second motion compensation mode signal to the matrix generation unit 233 and the switching unit 235.
  • the inter-frame prediction unit 232 acquires the decoded image signal from the frame memory 21.
  • the inter-frame prediction unit 232 acquires a moving image signal from the analysis unit 231.
  • the inter-frame prediction unit 232 executes motion compensation based on the inter-frame prediction processing in a well-known video coding standard for the decoded image signal.
  • the inter-frame prediction unit 232 outputs a prediction signal based on the motion compensation of the first mode to the switching unit 235.
  • the matrix generation unit 233 acquires the frame group and the camera parameter signal from the analysis unit 231.
  • the matrix generation unit 233 acquires the decoded image signal from the frame memory 21.
  • the matrix generation unit 233 acquires the motion vector from the motion vector determination unit 12.
  • the matrix generation unit 233 outputs an N parameter signal to an external device (not shown) such as a decoding device and a projective conversion unit 234 for each frame.
  • the matrix generation unit 233 outputs an N parameter signal to an external device (not shown) such as a decoding device and a projection conversion unit 234 for each projection conversion unit defined in the decoded image.
  • An external device such as a decoding device can derive a homography matrix using the output camera parameter signal and N parameter signal.
  • the matrix generation unit 233 generates a homography matrix "H" by using the camera parameter signal and the motion vector.
  • the matrix generation unit 233 identifies the reference area by utilizing the difference in the appearance of the subject corresponding to the coded target area and the reference area due to the movement performed on the camera. The movements made to the camera are the pan, tilt, roll, and zoom described above.
  • the projective transformation unit 234 executes a projective transformation using the homography matrix “H” on the decoded image signal stored in the frame memory 21.
  • the projective conversion unit 234 outputs a prediction signal based on the motion compensation of the second mode to the switching unit 235.
  • FIG. 3 is a flowchart showing an operation example of the coding device 1.
  • the camera parameter determination unit 10 determines the camera parameters based on the input signal representing the moving image (hereinafter referred to as “moving image signal”) (step S101).
  • the camera parameter determination unit 10 outputs the camera parameters to the external, parameter number determination unit 11, and motion vector determination unit 12.
  • the parameter number determination unit 11 determines the number of parameters required for the projective conversion based on the moving image signal and the camera parameter signal (step S102).
  • the parameter number determination unit 11 outputs the determination result of the number of parameters to the motion vector determination unit 12. For example, when the parameter number determination unit 11 determines that the number of parameters required for the projective transformation is "1", the parameter number determination unit 11 transmits the determination result including the information of the parameter number "1" to the motion vector determination unit 12. Output.
  • the motion vector determination unit 12 determines the motion vector based on the moving image signal, the camera parameter signal, and the number of parameters (step S103).
  • the motion vector determination unit 12 outputs the motion vector determination result to the motion compensation unit 23.
  • the subtraction unit 13 generates a predicted residual signal (step S104).
  • the conversion unit 14 executes the discrete cosine transform on the predicted residual signal.
  • the quantization unit 15 quantizes the result of the discrete cosine transform (step S105).
  • the entropy coding unit 16 executes entropy coding on the result of quantization (step S106).
  • the dequantization unit 17 dequantizes the result of quantization.
  • the inverse transform unit 18 executes an inverse discrete cosine transform on the result of the inverse quantization (step S107).
  • the addition unit 19 generates a decoded image by adding the result of the inverse discrete cosine transform and the prediction signal (step S108).
  • the distortion removing filter 20 generates a decoded image signal from which the distortion has been removed by removing the distortion of the decoded image (step S109).
  • the distortion removal filter 20 records the decoded image signal in the frame memory 21 (step S110).
  • the in-frame prediction unit 22 generates a prediction signal according to the result of the in-frame prediction processing by executing the in-frame prediction processing on the decoded image signal.
  • the motion compensation unit 23 generates a prediction signal according to the result of the motion compensation prediction process by executing the motion compensation prediction process on the decoded image signal (step S111).
  • FIG. 4 is a flowchart showing an operation example of the motion compensation unit 23.
  • the analysis unit 231 acquires the frame group and the camera parameter signal (step S201).
  • the analysis unit 231 determines whether or not the frame group was captured during the period in which the camera parameter "B" is invariant (step S202).
  • the analysis unit 231 outputs the second motion compensation mode signal to the matrix generation unit 233 and the switching unit 235. (Step S203).
  • the matrix generation unit 233 outputs an N parameter signal to an external device (not shown) such as a decoding device for each frame (step S204). Further, the matrix generation unit 233 outputs an N parameter signal to an external device (not shown) such as a decoding device for each projection conversion unit (prediction unit) defined in the decoded image.
  • the matrix generation unit 233 generates a homography matrix “H” by using the camera parameter signal, the decoded image signal, and the motion vector (step S205). First, the formula used in the following description will be described.
  • the rotation matrix when the camera tilts (rotates around the x-axis), pans (rotates around the y-axis), and rolls (rotates around the z-axis) is represented by the following equation (6).
  • ⁇ x in the equation (6) represents the rotation angle in the x-axis direction.
  • ⁇ y represents the angle of rotation in the y-axis direction.
  • ⁇ z represents the angle of rotation in the z-axis direction.
  • the camera parameter A is represented by the following equation (7).
  • Half of the o x is the horizontal image size in equation (6)
  • o y represents the half of the image vertical size
  • the space rotation amount R is expressed by the following equation (8) using the equation (6).
  • the matrix generation unit 233 generates the homography matrix "H” based on the following equation (9).
  • A'RA -1 in equation (9) corresponds to the homography matrix "H". Note that A'in the equation (9) is a camera parameter A when the zoom is not used in shooting the image to be encoded.
  • the points (x, y) in the decoded image signal correspond to the points (v x / v 1 , v y / v 1 ) in the moving image signal.
  • FIG. 5 is a diagram showing the positional relationship between the camera 31 and the subject 32.
  • the camera 31 is fixedly installed in front of the subject 32.
  • the camera 31 is not panned, tilted, rolled, or zoomed.
  • the camera 31 may shoot the subject 32 from a position where the subject 32 can be shot if the shooting position is fixed in shooting the moving image.
  • a moving image is taken by the camera 31 in the positional relationship shown in FIG. 5, the subject 32 and the background 33 are taken.
  • FIG. 6 is a diagram showing an image displayed on the screen 34 of the camera 31.
  • a moving image of the subject 32 taken from the front is displayed on the screen 34 as shown in FIG.
  • FIG. 7 and 8 are diagrams for explaining the process of calculating the homography matrix “H” using one parameter.
  • the case where the pan operation is performed on the camera will be described as an example.
  • the process of calculating the homography matrix "H” using one parameter only the tilt operation may be performed on the camera, only the roll operation may be performed, or only the zoom operation is performed. You may be struck.
  • the camera 31 is installed with its orientation fixed to the right with respect to the subject 32 when viewed from the camera 31. When a moving image is taken by the camera 31 in the positional relationship shown in FIG. 7, the subject 32 is taken as shown in FIG.
  • the matrix generation unit 233 acquires the motion vector (only the x component) of the upper left origin (0,0) (the motion vector shown by the circle 35 in FIG. 8) from the motion vector determination unit 12.
  • the homography matrix "H” is generated based on the following equation (10).
  • the matrix generator 233 solves the equation (10) to obtain ⁇ (or sin ⁇ , cos ⁇ ), and homographs the entire screen. Generate the matrix "H” (ARA -1). In FIG. 8, attention is paid to the movement of the origin on the upper left, but any one point on the screen may be used. As described above, when any one of pan, tilt, roll, and zoom is performed on the camera 31, the matrix generation unit 233 specifies the reference area by using the parameter expressed in one dimension.
  • the matrix generation unit 233 includes a one-dimensional component of the motion vector at a specific point of the coded image, a camera parameter at the time of acquiring the coded image, and a camera parameter at the time of acquiring the reference image.
  • the homography matrix "H” is generated using and, and the reference region is specified using the generated homography matrix "H".
  • FIG. 9 and 10 are diagrams for explaining the process of calculating the homography matrix “H” using two parameters.
  • FIG. 9 and FIG. 10 a case where two operations of a pan operation and a zoom operation are performed on the camera will be described as an example.
  • the combination of the two operations is not limited to the above, and any two operations of the pan operation, the tilt operation, the roll operation, and the zoom operation are performed. Any combination may be used as long as it is a combination.
  • the matrix generation unit 233 uses a one-dimensional combination or a parameter expressed in two dimensions to generate a reference area. Identify. Specifically, the matrix generation unit 233 includes a two-dimensional component when using a two-dimensional component of the motion vector at a specific point of the coded target image, and a camera parameter at the time of acquiring the coded target image. , A homography matrix "H" is generated using the camera parameters at the time of acquisition of the reference image, and identification is performed using the generated homography matrix "H".
  • each one-dimensional component for example, only the x component
  • a plurality of one-dimensional components, a camera parameter at the time of acquiring the encoded target image, and a camera parameter at the time of acquiring the reference image are used.
  • a homography matrix "H” is generated, and the generated homography matrix "H” is used to specify a reference region.
  • FIGS. 11 and 12 are diagrams for explaining the process of calculating the homography matrix “H” using the three parameters.
  • FIGS. 11 and 12 the case where three operations of pan operation, tilt operation and roll operation are performed on the camera will be described as an example.
  • the combination of the three operations is not limited to the above, and any three operations of the pan operation, the tilt operation, the roll operation, and the zoom operation are performed. Any combination may be used as long as it is a combination.
  • the camera 31 is installed with the pan operation performed to the right with respect to the subject 32 as viewed from the camera 31, the tilt operation and the roll operation performed, and the orientation is fixed.
  • the matrix generation unit 233 moves the motion vector (motion vector shown by the circle 35 in FIG. 12) at the upper left origin (0,0) and the motion of the point (2ox, 2oy) in the lower right corner from the motion vector determination unit 12.
  • the homography matrix “H” is generated based on the following equation (12).
  • the matrix generation unit 233 Solves equation (12) to obtain ⁇ x , ⁇ y , ⁇ z (or their sines and cosine) and f', and generates a screen-wide homography matrix "H"(A'RA -1 ). .. In this way, the matrix generation unit 233 uses parameters expressed in one dimension and parameters expressed in two dimensions when three operations of pan, tilt, roll, and zoom are performed on the camera 31. To identify the reference area.
  • the matrix generation unit 233 includes a two-dimensional component (x, y component) of the motion vector at one of the two specific points of the image to be encoded, and the other one of the two specific points.
  • a homography matrix "H” is generated using the one-dimensional component of the motion vector at the point (for example, only the x component), the camera parameter at the time of acquiring the coded image, and the camera parameter at the time of acquiring the reference image. Then, the reference region is specified using the generated homography matrix "H".
  • FIGS. 13 and 14 are diagrams for explaining a process of calculating the homography matrix “H” using four parameters.
  • FIGS. 13 and 14 the case where all the operations of the pan operation, the tilt operation, the roll operation, and the zoom operation are performed on the camera will be described as an example.
  • the camera 31 is installed with the pan operation performed to the right with respect to the subject 32 as viewed from the camera 31, the tilt operation and the roll operation performed, and the orientation is fixed, and the zoom operation is performed.
  • the matrix generation unit 233 moves the motion vector (motion vector shown by the circle 35 in FIG.
  • the matrix generation unit 233 specifies the reference area by using a plurality of parameters expressed in two dimensions when all the operations of pan, tilt, roll, and zoom are performed on the camera 31.
  • the matrix generation unit 233 includes a two-dimensional component of the motion vector at each of two specific points of the coded image, camera parameters at the time of acquiring the coded image, and a camera at the time of acquiring the reference image.
  • a homography matrix "H” is generated using the parameters, and a reference region is specified using the generated homography matrix "H".
  • the projective transformation unit 234 executes motion compensation in the second mode by projective transformation using the homography matrix “H” on the decoded image signal stored in the frame memory 21 (step S206).
  • the projective conversion unit 234 outputs a prediction signal based on the motion compensation of the second mode to the switching unit 235.
  • the switching unit 235 outputs a prediction signal based on the motion compensation of the second mode to the subtraction unit 13 (step S207).
  • the projective conversion unit 234 determines whether or not the motion compensation of the second mode is executed for all the frames in the acquired frame group (step S208). When it is determined that the motion compensation of the second mode is not executed for any of the frames (step S208: NO), the projective conversion unit 234 returns the process to step S204. When it is determined that the motion compensation of the second mode has been executed for all the frames (step S208: YES), the matrix generation unit 233 and the projection conversion unit 234 end the motion compensation process for the acquired frame group. To do.
  • the analysis unit 231 transmits the first motion compensation mode signal. , Output to the inter-frame prediction unit 232 and the switching unit 235 (step S209).
  • the inter-frame prediction unit 232 executes motion compensation based on the inter-frame prediction processing in the well-known video coding standard for the decoded image signal stored in the frame memory 21 (step S210).
  • the inter-frame prediction unit 232 outputs a prediction signal based on the motion compensation of the first mode to the switching unit 235.
  • the switching unit 235 outputs a prediction signal based on the motion compensation of the first mode to the subtraction unit 13 (step S211).
  • the inter-frame prediction unit 232 determines whether or not the motion compensation of the first mode has been executed for all the frames in the acquired frame group (step S212). When it is determined that the motion compensation of the first mode is not executed for any of the frames (step S212: NO), the inter-frame prediction unit 232 returns the process to step S210. When it is determined that the motion compensation of the first mode has been executed for all the frames (step S212: YES), the inter-frame prediction unit 232 ends the motion compensation process for the acquired frame group.
  • the coding device 1 of the embodiment generates coded data with a small amount of coding capable of generating a high-quality decoded image by motion compensation based on a projective transformation of an image of an object. Thereby, the coding device 1 of the embodiment can improve the coding efficiency of the image.
  • a coding method that encodes an image to be encoded using a reference image.
  • the coded area and the reference area have different sizes and / and different shapes.
  • the specific step when the coded target image and the reference image are acquired, the difference in the appearance of the subject corresponding to the coded target area and the reference area due to the movement performed on the camera is determined.
  • Appendix 2 In the coding method described above, the movement performed on the camera is at least one of pan, tilt, roll and zoom, or a combination of at least two or more.
  • Appendix 3 In the above-mentioned coding method, the specific step specifies the movement by using the camera parameter related to the coded target image and the camera parameter related to the reference image.
  • Appendix 4 In the coding method described above, in the specific step, when the movement is at least one of pan, tilt, roll and zoom, the reference area is subjected to the parameter expressed in one dimension. Identify.
  • the specific step includes a one-dimensional component of a motion vector at a specific point of the coded target image, camera parameters at the time of acquiring the coded target image, and the reference image.
  • a homography matrix is generated using the camera parameters at the time of acquisition, and the generated homography matrix is used for identification.
  • the specific step is a one-dimensional combination or a two-dimensionally represented parameter when the movement is a combination of at least any two of pan, tilt, roll and zoom. Use to identify the reference area.
  • the specific step is represented in one dimension and two dimensions when the movement is a combination of at least any three of pan, tilt, roll and zoom.
  • the reference area is specified using the parameters.
  • the specific step includes a two-dimensional component of the motion vector at one of the specific two points of the coded target image and the other one of the specific two points.
  • a homography matrix is generated by using the one-dimensional component of the motion vector in the above, the camera parameter at the time of acquiring the coded target image, and the camera parameter at the time of acquiring the reference image, and the generated homography matrix is generated. Use to identify.
  • the specific step when the movement is all combinations of pan, tilt, roll and zoom, the reference area is specified by using a plurality of parameters expressed in two dimensions. .. (Appendix 11)
  • the specific step includes a two-dimensional component of a motion vector at each of two specific points of the coded image, a camera parameter at the time of acquiring the coded image, and the above reference.
  • a homography matrix is generated using the camera parameters at the time of image acquisition, and the generated homography matrix is used for identification.
  • the present invention is applicable to a coding device that performs lossless or lossy coding of a still image or a moving image.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

参照画像を用いて符号化対象画像の符号化を行う符号化方法であって、符号化対象画像を分割した領域である符号化対象領域と対応する、参照画像の一部である参照領域を特定する特定ステップと、参照領域を用いて予測することで、符号化対象領域に対する予測領域を得る予測ステップと、を有し、符号化対象領域と参照領域は、異なるサイズ若しくは/及び異なる形状であり、特定ステップでは、符号化対象画像と参照画像を取得する際に、カメラに対して行われた動きに起因する符号化対象領域と参照領域に対応する被写体の写り方の差異を利用して参照領域を特定する符号化方法。

Description

符号化方法、符号化装置及びプログラム
 本発明は、符号化方法、符号化装置及びプログラムに関する。
 絵画、タブレット端末又は地面等の平面状の形状を外観に有する物体(以下「平面状の物体」という。)をカメラが動画撮影する場合がある。動画像のフレームに撮影された物体の画像の形状、大きさ及び位置は、物体の動きとカメラの動きとに応じて、動画像のフレームごとに変化する。撮影された平面状の物体の画像の形状、大きさ及び位置が動画像の各フレームにおいて同じになるように、符号化装置が物体の画像の動きを補償(動き補償)する場合がある。
 動画像符号化の規格の一つであるMPEG-4のASP(Advanced Simple Profile)には、グローバル動き補償(Global Motion Compensation : GMC)と呼ばれる動き補償の方式が採用されている。符号化装置は、動画像のフレームの隅ごとに2次元動きベクトルを定めることによって動き補償を実行する。
 図15は、シンタクス要素の一つである「no_of_sprite_warping_points」に関する図である。「no_of_sprite_warping_points」の値が4である場合、符号化装置は、射影変換を用いてグローバル動き補償を実行する。1本の2次元動きベクトルは、2個のパラメータを持つ。したがって、符号化装置は、グローバル動き補償の処理単位ごとに、8(=2×4)個のパラメータを復号装置に伝送する。図15に示す参考文献1~3は、以下の通りである。
(参考文献1:ISO/IEC 14496-2:2004 Information technology -- Coding of audio-visual objects -- Part 2: Visual)
(参考文献2:F. Zou, J. Chen, M. Karczewicz, X. Li, H.-C. Chuang, W.-J. Chien “Improved affine Motion Prediction”, JVET-C0062, May 2016)
(参考文献3:M. Narroschke, R. Swoboda, “Extending HEVC by an affine motion model”, Picture coding symposium 2013)
 「no_of_sprite_warping_points」の値が3である場合、符号化装置は、アフィン変換(Affine transformation)を用いて動き補償を実行する。アフィン変換の自由度も、射影変換の自由度より低い。
 「no_of_sprite_warping_points」の値が2である場合、符号化装置は、相似変換を用いて動き補償を実行する。相似変換の自由度は、射影変換の自由度よりも低い。
 そこで、「no_of_sprite_warping_points」の値を2又は3で適応的に切り替える方法が、JVET(Joint Exploration team on Future Video Coding)の規格案として提案されている。
 「no_of_sprite_warping_points」の値が3である場合のアフィン変換と等価である変換を用いた動き補償が提案されている。H.264/AVC(Advanced Video Coding)と、H.265/HEVC(High Efficiency Video Coding)とでは、符号化装置は、フレームの間で平行移動(非回転移動)する物体の画像の変形のみを動き補償する。この動き補償は、「no_of_sprite_warping_points」の値が1である場合の動き補償に相当する。
 3次元空間に存在する平面状の物体(剛体)をカメラが移動しながら撮影した2次元画像(フレーム)における座標の関係式は、式(1)のように表される。
Figure JPOXMLDOC01-appb-M000001
 図16は、4本の動きベクトルに基づく射影変換の例を示す図である。フレーム400の4点「(x,y),…,(x,y)」が、フレーム401の4点「(x’,y’),…,(x’,y’)」に対応する場合、符号化装置は、式(1)の線型方程式を解くことで、「h11,…,h32」を導出することができる。ここで、フレーム400の4点「(x,y)…(x,y)」は、矩形であるフレーム400の頂点でなくてもよい。
 符号化装置は、「h11,…,h32」と式(2)~(5)とに基づく射影変換によって、フレーム400の点(x,y)に対応するフレーム401の点(x’,y’)を導出する。式(2)の3×3行列「H」は、ホモグラフィ行列である。
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000004
Figure JPOXMLDOC01-appb-M000005
 フレーム400における既知の4点の移動先を表す8個のパラメータ(x’,y’,…,x’,y’)は、符号化装置が点(x,y)を点(x’,y’)に変換するために必要なパラメータである。このことは、ホモグラフィ行列Hの変数「h11,…,h32」が8個であることと、MPEG-4のASPのグローバル動き補償が「no_of_sprite_warping_points=4(パラメータ数=8)であることとに対応している。
"Versatile Video Coding (Draft 6)",Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11,15th Meeting Gothenburg, SE, 3-12 July 2019
 このように、移動するカメラから撮影された平面状の物体の画像がカメラ及び物体の相対位置等に応じて変形する場合、符号化装置は、8個のパラメータに基づく射影変換を用いて動き補償する。また、位置が固定されたカメラによって撮影された静止中の任意形状の物体の画像がカメラのカメラパラメータに応じて変形する場合も、符号化装置は、8個のパラメータに基づく射影変換を用いて動き補償する。
 しかしながら、平面状の物体の物理的な変形には制約がある。このため、平面状の物体の物理的な変形の自由度は、射影変換が表現し得る変形の自由度(8個のパラメータ)よりも少ない。
 図17は、平面状の板(剛体)の例を示す図である。図18から図23は、図17に示された平面状の板の変形の第1例から第6例を示す図である。図17から図23では、平面状の板は、市松模様の板(チェッカーボード)として表現されている。位置が固定されたカメラの向きがカメラパラメータに応じて変化した場合、図17に示された平面状の板の画像は、図18又は図19に示された平面状の板の画像のように変形する。移動するカメラの姿勢が変化した場合、図17に示された平面状の板の画像は、図20に示された平面状の板の画像のように回転及び縮小する。
 図17に示された平面状の板が剛体であることから、図21から図23に示された平面状の板の画像の異常な変形は、明らかに不自然である。しかしながら、符号化装置は、図21から図23に示された平面状の板の画像の変形を、8個のパラメータ(自由度)の射影変換を用いて表現している。このように、従来の符号化装置は、画像の符号化効率を向上させることができない場合がある。言い換えると、略同一の位置から撮像された現実空間における被写体の画像への写り方には制約があるものの、従来の符号化装置は該被写体と撮像装置との関係ではありえないような写り方の変化までも表現できるだけのパラメータを用いているため、符号化効率の向上に改善の余地を残す。
 上記事情に鑑み、本発明は、画像の符号化効率を向上させることが可能である符号化方法、符号化装置及びプログラムを提供することを目的としている。
 本発明の一態様は、参照画像を用いて符号化対象画像の符号化を行う符号化方法であって、前記符号化対象画像を分割した領域である符号化対象領域と対応する、前記参照画像の一部である参照領域を特定する特定ステップと、前記参照領域を用いて予測することで、前記符号化対象領域に対する予測領域を得る予測ステップと、を有し、前記符号化対象領域と前記参照領域は、異なるサイズ若しくは/及び異なる形状であり、前記特定ステップでは、前記符号化対象画像と前記参照画像を取得する際に、カメラに対して行われた動きに起因する前記符号化対象領域と前記参照領域に対応する被写体の写り方の差異を利用して前記参照領域を特定する符号化方法である。
 本発明の一態様は、参照画像を用いて符号化対象画像の符号化を行う符号化装置であって、前記符号化対象画像を分割した領域である符号化対象領域と対応する、前記参照画像の一部である参照領域を特定する特定部と、前記参照領域を用いて予測することで、前記符号化対象領域に対する予測領域を得る予測部と、を備え、前記符号化対象領域と前記参照領域は、異なるサイズ若しくは/及び異なる形状であり、前記特定部は、前記符号化対象画像と前記参照画像を取得する際に、カメラに対して行われた動きに起因する前記符号化対象領域と前記参照領域に対応する被写体の写り方の差異を利用して前記参照領域を特定する符号化装置である。
 本発明の一態様は、上記の符号化装置としてコンピュータを機能させるためのプログラムである。
 本発明により、画像の符号化効率を向上させることが可能である。
本実施形態における符号化装置の構成例を示す図である。 本実施形態における動き補償部の構成例を示す図である。 本実施形態における符号化装置の動作例を示すフローチャートである。 本実施形態における動き補償部の動作例を示すフローチャートである。 カメラと撮影対象である被写体との位置関係を示す図である。 カメラの画面に映っている画像を表す図である。 1パラメータを用いてホモグラフィ行列「H」を算出する処理を説明するための図である。 1パラメータを用いてホモグラフィ行列「H」を算出する処理を説明するための図である。 2パラメータを用いてホモグラフィ行列「H」を算出する処理を説明するための図である。 2パラメータを用いてホモグラフィ行列「H」を算出する処理を説明するための図である。 3パラメータを用いてホモグラフィ行列「H」を算出する処理を説明するための図である。 3パラメータを用いてホモグラフィ行列「H」を算出する処理を説明するための図である。 4パラメータを用いてホモグラフィ行列「H」を算出する処理を説明するための図である。 4パラメータを用いてホモグラフィ行列「H」を算出する処理を説明するための図である。 シンタクス要素の一つである「no_of_sprite_warping_points」に関する図である。 4本の動きベクトルに基づく射影変換の例を示す図である。 平面状の板の例を示す図である。 平面状の板の変形の第1例を示す図である。 平面状の板の変形の第2例を示す図である。 平面状の板の変形の第3例を示す図である。 平面状の板の変形の第4例を示す図である。 平面状の板の変形の第5例を示す図である。 平面状の板の変形の第6例を示す図である。
 以下、本発明の一実施形態を、図面を参照しながら説明する。
(概要)
 現在規格化中であるVVC(非特許文献1)は、符号化対象ブロックを予測する際に用いる参照領域は同一の形状・サイズである必要がない。これは、VVCから実装される見込みであるアフィン動き補償予測を利用することができるためである。しかしながらVVCに実装される見込みであるアフィン動き補償予測は、符号化対象ブロックにおける4の頂点に係る動きベクトルを用いて参照領域の特定を行っている。4の頂点に係る動きベクトルを用いるということは、8パラメータ(動きベクトルはxy平面上での動きを規定するので)を用いることになる。つまり、符号化対象ブロックごとに8パラメータを復号装置に伝送している。VVCでは符号化対象ブロックの形状・サイズと参照領域の形状・サイズの関係がどのようなものであっても、8パラメータを用いて参照領域の特定を行っている。
 しかしながら、上記関係は8パラメータを用いずとも特定することができる場合もあると想定されるため、符号化効率の向上に課題を残していた。それに対して、符号化装置は、物体の画像の変形を、射影変換を用いて表現する。物体の物理的な変形には制約があるので、符号化装置は、8個よりも少ない数のパラメータ(自由度)の射影変換を用いて、動画像のフレームにおける物体の画像の変形を表現する。符号化装置は、8個よりも少ないN(Nは1~4の整数)個のいずれかのパラメータ(自由度)の射影変換を用いた精度の高い動き補償によって、画像の符号化効率を向上させることができる。
 上記関係を下位概念化し整理することで特定するために必要なパラメータ数を削減することができる。具体的には、形状・サイズの関係を符号化対象画像が撮像されたときから参照画像が撮像されたときまでにカメラに対してなされた変化(操作)がパン・チルト・ロール・ズームのいずれか、もしくはどの組み合わせであるかに基づいて上記関係を特定するために必要となる最小のパラメータ数を決定する。下位概念化した関係は、符号化対象画像と参照画像を取得する際にカメラに対して行われた変化から導き出すことができるため、下位概念化した関係を推定するためにカメラパラメータを利用する。言い換えると、符号化対象画像における所定の被写体の写り方と、参照画像における所定の被写体の写り方の違いによって低くなってしまっている相関を、写り方の違いを特定し補正することで相関を高くするものである。
 符号化装置が1個のパラメータを用いる場合には、パン、チルト、ロール及びズームのいずれか1個により得られる1個のパラメータが用いられる。符号化装置が2個のパラメータを用いる場合には、パン、チルト、ロール及びズームのいずれか2個により得られる2個のパラメータが用いられる。符号化装置が3個のパラメータを用いる場合には、パン、チルト、ロール及びズームのいずれか3個により得られる3個のパラメータが用いられる。符号化装置が4個のパラメータを用いる場合には、パン、チルト、ロール及びズームの全てにより得られる4個のパラメータが用いられる。符号化装置は、符号化対象画像に係るカメラパラメータと、参照画像に係るカメラパラメータとを用いてカメラに対して行われた動きを特定し、特定した動きに応じてパラメータ数を判定する。
 以下、具体的な構成について説明する。
 図1は、符号化装置1の構成例を示す図である。符号化装置1は、動画像を符号化する装置である。符号化装置1に入力される動画像は、設置位置が固定されたカメラによって撮影された動画像である。符号化装置1は、動画像のフレームを分割した得られるブロックごとに、動画像を符号化する。符号化装置1は、符号化データを復号装置に出力する。符号化装置1は、N個のパラメータを表す信号(以下「Nパラメータ信号」という。)と、カメラパラメータを表す信号(以下「カメラパラメータ信号」という。)とを、復号装置等の外部装置(不図示)に出力する。なお、符号化装置1は、Nパラメータ信号に、カメラのズーム有無を示す情報を含めてもよい。
 符号化装置1は、カメラパラメータ判定部10、パラメータ数判定部11、動きベクトル判定部12、減算部13と、変換部14と、量子化部15と、エントロピー符号化部16と、逆量子化部17と、逆変換部18と、加算部19と、歪除去フィルタ20と、フレームメモリ21と、フレーム内予測部22と、動き補償部23と、切替部24とを備える。
 符号化装置1における動き補償部23以外の各機能部は、例えば、「H.265/HEVC」及び「H.264/AVC」等の周知の動画像符号化の規格に基づいて動作してもよい。符号化装置1における動き補償部23の一部は、周知の動画像符号化の規格に基づいて動作してもよい。
 符号化装置1の一部又は全部は、CPU(Central Processing Unit)又はGPU(Graphics Processing Unit)等のプロセッサが、不揮発性の記録媒体(非一時的な記録媒体)であるメモリに記憶されたプログラムを実行することにより、ソフトウェアとして実現される。符号化装置1の一部又は全部は、例えば、LSI(Large Scale Integration)又はFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。
 カメラパラメータ判定部10は、符号化対象の動画像を表す信号(以下「動画像信号」という。)に基づいてカメラパラメータを判定する。例えば、カメラパラメータ判定部10は、カメラの内部行列AをカメラパラメータAとして判定する。カメラの内部行列Aは、カメラの焦点距離と画素サイズ、画像中心を示す3×3行列で表される。また、カメラがズームの機能を利用して撮影した動画像の場合には、カメラの焦点距離が変化する。したがって、カメラパラメータ判定部10は、カメラがズームの機能を利用して撮影した動画像の場合には、カメラの内部行列A´をカメラパラメータA´として判定する。すなわち、ズームが利用されていない場合にはカメラパラメータA´=Aである。カメラパラメータ判定部10は、カメラパラメータの判定結果をカメラパラメータ信号として外部、パラメータ数判定部11、動きベクトル判定部12及び動き補償部23に出力する。
 パラメータ数判定部11は、動画像信号と、カメラパラメータ信号とに基づいて、動画像信号で示される符号化対象画像を射影変換するために必要となるパラメータ数を判定する。パラメータ数判定部11は、符号化対象画像に係るカメラパラメータと、参照画像に係るカメラパラメータとを用いてカメラに対して行われた動きを特定し、特定した動きに応じてパラメータ数を判定する。
 動きベクトル判定部12は、動画像信号と、カメラパラメータ信号と、パラメータ数とに基づいて、動きベクトルを判定する。具体的には、動きベクトル判定部12は、パラメータ数及びパラメータ数に応じて予め決められた画像内位置に基づいて動きベクトルを出力する。例えば、動きベクトル判定部12は、パラメータ数が1又は2の場合には、画像の左上隅の動きベクトルを出力し、パラメータ数が3又は4の場合には、画像の左上隅と右下隅の動きベクトルを出力する。なお、これらの画像内位置は、上記に限られない。
 減算部13は、予測信号を動画像信号から減算する。予測信号は、フレーム内予測部22又は動き補償部23によって、所定の処理単位(符号化対象領域)ごとに生成される。所定の処理単位は、H.265/HEVCでは、予測単位(prediction unit)である。減算部13は、減算結果である予測残差信号を、変換部14に出力する。変換部14は、予測残差信号に対して離散コサイン変換(Discrete Cosine Transform)を実行する。量子化部15は、離散コサイン変換の結果を量子化する。エントロピー符号化部16は、量子化の結果に対してエントロピー符号化を実行する。エントロピー符号化部16は、エントロピー符号化の結果である符号化データを、復号装置等の外部装置(不図示)に出力する。
 逆量子化部17は、量子化の結果を逆量子化する。逆変換部18は、逆量子化の結果に対して逆離散コサイン変換(Inverse Discrete Cosine Transform)を実行する。加算部19は、逆離散コサイン変換の結果と予測信号とを加算することによって、復号画像を生成する。歪除去フィルタ20は、復号画像の歪を除去することによって、歪が除去された復号画像信号を生成する。
 フレームメモリ21は、歪が除去された復号画像信号(参照画像)を記憶する。フレームメモリ21に記憶された復号画像信号は、復号装置によって生成される復号画像信号と同じである。フレームメモリ21は、記憶されている時間が所定時間以上となった復号画像信号を、フレームメモリ21から削除する。なお、フレームメモリ21は、長時間参照フレームの復号画像信号を、フレームメモリ21が削除指示を取得するまで記憶してもよい。フレームメモリ21は、参照されないフレームの復号画像信号を記憶しなくてもよい。
 フレーム内予測部22は、復号画像信号に対してフレーム内予測処理を実行することによって、フレーム内予測処理の結果に応じた予測信号を生成する。動き補償部23は、復号画像信号に対して動き補償予測処理を実行することによって、動き補償予測処理の結果に応じた予測信号を生成する。例えば、動き補償部23は、復号画像信号で表される参照画像の一部である参照領域を特定し、参照領域を用いて予測することで、符号化対象領域に対する予測領域を得る。符号化対象領域と参照領域は、異なるサイズ若しくは/及び異なる形状である。切替部24は、フレーム内予測処理の結果に応じた予測信号を、減算部13に出力する。切替部24は、動き補償予測処理の結果に応じた予測信号を、減算部13に出力する。
 次に、動き補償部23の構成例を説明する。
 図2は、動き補償部23の構成例を示す図である。動き補償部23は、解析部231と、フレーム間予測部232と、行列生成部233と、射影変換部234と、切替部235とを備える。
 動き補償のモードには、第1モードと、第2モードとがある。第1モードは、「H.265/HEVC」及び「H.264/AVC」等の周知の動画像符号化の規格におけるフレーム間予測処理に基づく動き補償のモードである。第2モードは、1又は複数本の動きベクトル(Nパラメータ信号)に基づくホモグラフィ行列を用いて、フレームメモリ21に記憶された復号画像信号に対して、射影変換を射影変換単位ごとに実行する動き補償のモードである。
 解析部231は、所定の期間(時間区間)における動画像の複数のフレーム(以下「フレームグループ」という。)を、動画像信号として取得する。また、解析部231は、フレーム毎のカメラパラメータ信号をカメラパラメータ判定部10から取得する。解析部231は、取得されたフレームグループについて、カメラパラメータが不変である期間において撮影されたフレームグループであるか否かを判定する。カメラパラメータが不変である期間において撮影されたフレームグループに対しては、ホモグラフィ行列を用いる射影変換の精度が高いので、第1モードの動き補償よりも第2モードの動き補償が適している。
 カメラパラメータが不変でない期間において撮影されたフレームグループであると判定された場合、解析部231は、第1モードを表す動き補償モード信号(以下「第1動き補償モード信号」という。)を生成する。解析部231は、第1動き補償モード信号を、フレーム間予測部232及び切替部235に出力する。
 カメラパラメータが不変である期間において撮影されたフレームグループであると判定された場合、解析部231は、第2モードを表す動き補償モード信号(以下「第2動き補償モード信号」という。)を生成する。解析部231は、第2動き補償モード信号を、行列生成部233及び切替部235に出力する。
 フレーム間予測部232は、第1動き補償モード信号を解析部231から取得した場合、復号画像信号をフレームメモリ21から取得する。フレーム間予測部232は、動画像信号を解析部231から取得する。フレーム間予測部232は、周知の動画像符号化の規格におけるフレーム間予測処理に基づく動き補償を、復号画像信号に対して実行する。フレーム間予測部232は、第1モードの動き補償に基づく予測信号を、切替部235に出力する。
 行列生成部233は、第2動き補償モード信号を解析部231から取得した場合、フレームグループとカメラパラメータ信号とを、解析部231から取得する。行列生成部233は、第2動き補償モード信号を解析部231から取得した場合、復号画像信号をフレームメモリ21から取得する。行列生成部233は、第2動き補償モード信号を解析部231から取得した場合、動きベクトルを動きベクトル判定部12から取得する。
 行列生成部233は、Nパラメータ信号を、復号装置等の外部装置(不図示)と射影変換部234とに、フレームごとに出力する。行列生成部233は、Nパラメータ信号を、復号装置等の外部装置(不図示)と射影変換部234とに、復号画像に定められた射影変換単位ごとに出力する。復号装置等の外部装置は、出力されたカメラパラメータ信号及びNパラメータ信号を用いて、ホモグラフィ行列を導出することができる。行列生成部233は、カメラパラメータ信号と動きベクトルとを用いて、ホモグラフィ行列「H」を生成する。例えば、行列生成部233は、カメラに対して行われた動きに起因する符号化対象領域と参照領域に対応する被写体の写り方の差異を利用して参照領域を特定する。カメラに対して行われた動きとは、上記のパン、チルト、ロール、ズームである。
 射影変換部234は、ホモグラフィ行列「H」を用いる射影変換を、フレームメモリ21に記憶された復号画像信号に対して実行する。射影変換部234は、第2モードの動き補償に基づく予測信号を、切替部235に出力する。
 図3は、符号化装置1の動作例を示すフローチャートである。
 カメラパラメータ判定部10は、入力された動画像を表す信号(以下「動画像信号」という。)に基づいてカメラパラメータを判定する(ステップS101)。カメラパラメータ判定部10は、カメラパラメータを外部、パラメータ数判定部11及び動きベクトル判定部12に出力する。パラメータ数判定部11は、動画像信号と、カメラパラメータ信号とに基づいて、射影変換するために必要となるパラメータ数を判定する(ステップS102)。パラメータ数判定部11は、パラメータ数の判定結果を動きベクトル判定部12に出力する。例えば、パラメータ数判定部11は、射影変換するために必要となるパラメータ数が“1”であると判定した場合には、パラメータ数“1”の情報を含む判定結果を動きベクトル判定部12に出力する。
 動きベクトル判定部12は、動画像信号と、カメラパラメータ信号と、パラメータ数とに基づいて、動きベクトルを判定する(ステップS103)。動きベクトル判定部12は、動きベクトルの判定結果を動き補償部23に出力する。減算部13は、予測残差信号を生成する(ステップS104)。変換部14は、予測残差信号に対して離散コサイン変換を実行する。量子化部15は、離散コサイン変換の結果を量子化する(ステップS105)。エントロピー符号化部16は、量子化の結果に対してエントロピー符号化を実行する(ステップS106)。
 逆量子化部17は、量子化の結果を逆量子化する。逆変換部18は、逆量子化の結果に対して逆離散コサイン変換を実行する(ステップS107)。加算部19は、逆離散コサイン変換の結果と予測信号とを加算することによって、復号画像を生成する(ステップS108)。歪除去フィルタ20は、復号画像の歪を除去することによって、歪が除去された復号画像信号を生成する(ステップS109)。
 歪除去フィルタ20は、復号画像信号をフレームメモリ21に記録する(ステップS110)。フレーム内予測部22は、復号画像信号に対してフレーム内予測処理を実行することによって、フレーム内予測処理の結果に応じた予測信号を生成する。動き補償部23は、復号画像信号に対して動き補償予測処理を実行することによって、動き補償予測処理の結果に応じた予測信号を生成する(ステップS111)。
 図4は、動き補償部23の動作例を示すフローチャートである。
 解析部231は、フレームグループとカメラパラメータ信号とを取得する(ステップS201)。解析部231は、カメラパラメータ「B」が不変である期間において撮影されたフレームグループであるか否かを判定する(ステップS202)。カメラパラメータ「B」が不変である期間において撮影されたフレームグループである場合(ステップS202:YES)、解析部231は、第2動き補償モード信号を、行列生成部233と切替部235とに出力する(ステップS203)。
 行列生成部233は、Nパラメータ信号を、復号装置等の外部装置(不図示)に対して、フレームごとに出力する(ステップS204)。また、行列生成部233は、Nパラメータ信号を、復号装置等の外部装置(不図示)に対して、復号画像に定められた射影変換単位(予測単位)ごとに出力する。
 行列生成部233は、カメラパラメータ信号と復号画像信号と動きベクトルを用いて、ホモグラフィ行列「H」を生成する(ステップS205)。
 まず以下の説明で利用する式について説明する。カメラがチルト(x軸周りの回転)、パン(y軸周りの回転)、ロール(z軸周りの回転)それぞれを行った場合の回転行列は、以下の式(6)で表される。
Figure JPOXMLDOC01-appb-M000006
 式(6)におけるθは、x軸方向の回転角を表す。θは、y軸方向の回転角を表す。θは、z軸方向の回転角を表す。また、カメラパラメータAは、以下の式(7)で表される。
Figure JPOXMLDOC01-appb-M000007
 式(6)におけるoは画像横サイズの半分、oは画像縦サイズの半分を表し、f,fは焦点距離と撮像面の画素の縦横サイズから定まり、通常f=f=fを満たしている。空間回転量Rは、式(6)を用いて以下の式(8)で表される。
Figure JPOXMLDOC01-appb-M000008
 行列生成部233は、以下の式(9)に基づいてホモグラフィ行列「H」を生成する。
Figure JPOXMLDOC01-appb-M000009
 式(9)におけるA´RA-1がホモグラフィ行列「H」に相当する。なお、式(9)におけるA´は、符号化対象画像の撮影においてズームが利用されていない場合には、カメラパラメータAとなる。式(9)において、復号画像信号内の点(x,y)が動画像信号内の点(v/v,v/v)に対応する。
 次に、図5~図14を用いて、行列生成部233によるホモグラフィ行列「H」生成の具体的な処理について説明する。
 図5は、カメラ31と被写体32との位置関係を示す図である。図5に示すように、カメラ31は、被写体32の正面に固定して設置される。図5に示す例では、カメラ31に対してはパン、チルト、ロール及びズームのいずれもなされていないものとする。なお、カメラ31は、動画像の撮影において撮影位置が固定であれば被写体32を撮影可能な位置から被写体32を撮影してもよい。図5に示す位置関係でカメラ31によって動画像の撮影がなされると、被写体32と、背景33とが撮影される。
 図6は、カメラ31の画面34に映っている画像を表す図である。カメラ31に対してパン、チルト、ロール及びズームのいずれもなされていない場合には、図6に示すように被写体32を正面から撮影した動画像が画面34に映し出される。
 図7及び図8は、1パラメータを用いてホモグラフィ行列「H」を算出する処理を説明するための図である。なお、図7及び図8では、カメラに対してパン操作がなされた場合を例に説明する。ただし、1パラメータを用いてホモグラフィ行列「H」を算出する処理において、カメラに対してチルト操作のみが行われてもよいし、ロール操作のみが行われてもよいし、ズーム操作のみが行われてもよい。
 図7に示すように、カメラ31は、カメラ31から見て被写体32に対して右方向に向きが固定して設置される。図7に示す位置関係でカメラ31によって動画像の撮影がなされると、図8に示すように被写体32が撮影される。ここで、行列生成部233が、動きベクトル判定部12から左上の原点(0,0)の動きベクトル(x成分だけでよい)(図8の円35で示される動きベクトル)を取得している場合、以下の式(10)に基づいて、ホモグラフィ行列「H」を生成する。
Figure JPOXMLDOC01-appb-M000010
 式(10)におけるv/vが原点の動きベクトルのx成分であるため、行列生成部233は式(10)を解いてθ(又はsinθ,cosθ)を得て、画面全体のホモグラフィ行列「H」(ARA-1)を生成する。なお、図8では、左上の原点の動きに注目したが、画面上のどの一点でもよい。このように、行列生成部233は、カメラ31に対してパン、チルト、ロール及びズームのうちいずれか1つの操作がなされた場合、1次元で表現されるパラメータを用いて参照領域を特定する。具体的には、行列生成部233は、符号化対象画像の特定の1点における動きベクトルの一次元の成分と、符号化対象画像の取得時のカメラパラメータと、参照画像の取得時のカメラパラメータとを用いてホモグラフィ行列「H」を生成し、生成したホモグラフィ行列「H」を用いて参照領域を特定する。
 図9及び図10は、2パラメータを用いてホモグラフィ行列「H」を算出する処理を説明するための図である。なお、図9及び図10では、カメラに対してパン操作とズーム操作の2つの操作がなされた場合を例に説明する。ただし、2パラメータを用いてホモグラフィ行列「H」を算出する処理において、2つの操作の組み合わせは上記に限定されず、パン操作、チルト操作、ロール操作及びズーム操作のうちいずれか2つの操作の組み合わせであればどのような組み合わせでもよい。
 図9に示すように、カメラ31は、カメラ31から見て被写体32に対して右方向に向きが固定して設置され、ズーム操作がなされているとする。図9に示す位置関係でカメラ31によって動画像の撮影がなされると、図10に示すように被写体32が撮影される。ここで、行列生成部233が、動きベクトル判定部12から左上の原点(0,0)の動きベクトル(x,y成分)(図10の円35で示される動きベクトル)を取得している場合、以下の式(11)に基づいて、ホモグラフィ行列「H」を生成する。
Figure JPOXMLDOC01-appb-M000011
 式(11)における(v/v,v/v)が原点の動きベクトルであるため、行列生成部233は式(11)を解いてθ(又はsinθ,cosθ)とf´を得て、画面全体のホモグラフィ行列「H」(A´RA-1)を生成する。式(11)におけるf´は、f´=s・fで表される。ここで、sは、fの変化比率を表す値であり、拡大の場合にはs>1であり、縮小の場合にはs<1である。なお、図10では、左上の原点の動きに注目したが、画面上のどの一点でもよい。また、2パラメータを用いる場合には、例えば左上の原点(0,0)の動きベクトル(x成分だけでよい)と、右下の点(2x,2y)の動きベクトル(x成分だけでよい)とを用いてもよい。
 このように、行列生成部233は、カメラ31に対してパン、チルト、ロール及びズームのうち2つの操作がなされた場合、1次元の組み合わせ又は2次元で表現されるパラメータを用いて参照領域を特定する。具体的には、行列生成部233は、符号化対象画像の特定の1点における動きベクトルの二次元の成分を用いる場合には二次元の成分と、符号化対象画像の取得時のカメラパラメータと、参照画像の取得時のカメラパラメータとを用いてホモグラフィ行列「H」を生成し、生成したホモグラフィ行列「H」を用いて特定を行い、符号化対象画像の特定の2点における動きベクトルそれぞれの一次元の成分(例えば、x成分のみ)を用いる場合には複数の一次元の成分と、符号化対象画像の取得時のカメラパラメータと、参照画像の取得時のカメラパラメータとを用いてホモグラフィ行列「H」を生成し、生成したホモグラフィ行列「H」を用いて参照領域を特定する。2つ以上のパラメータを用いる場合、1つの画像平面上でできるだけ遠いパラメータを選択するほうが好ましい。
 図11及び図12は、3パラメータを用いてホモグラフィ行列「H」を算出する処理を説明するための図である。なお、図11及び図12では、カメラに対してパン操作、チルト操作及びロール操作の3つの操作がなされた場合を例に説明する。ただし、3パラメータを用いてホモグラフィ行列「H」を算出する処理において、3つの操作の組み合わせは上記に限定されず、パン操作、チルト操作、ロール操作及びズーム操作のうちいずれか3つの操作の組み合わせであればどのような組み合わせでもよい。
 図11に示すように、カメラ31は、カメラ31から見て被写体32に対して右方向にパン操作が行われ、チルト操作とロール操作が行われて向きが固定して設置される。図11に示す位置関係でカメラ31によって動画像の撮影がなされると、図12に示すように被写体32が撮影される。ここで、行列生成部233が、動きベクトル判定部12から左上の原点(0,0)の動きベクトル(図12の円35で示される動きベクトル)と右下隅の点(2ox,2oy)の動きベクトル(x成分だけでよい)(図12の円36で示される動きベクトル)を取得している場合、以下の式(12)に基づいて、ホモグラフィ行列「H」を生成する。
Figure JPOXMLDOC01-appb-M000012
 式(12)における(vx1/v11,vy1/v11)、(vx2/v12,vy2/v12)が画面左上隅と右下隅の動きベクトルであるため、行列生成部233は式(12)を解いてθ(またはそれらの正弦や余弦)とf´を得て、画面全体のホモグラフィ行列「H」(A´RA-1)を生成する。このように、行列生成部233は、カメラ31に対してパン、チルト、ロール及びズームのうち3つの操作がなされた場合、1次元で表現されるパラメータと2次元で表現されるパラメータとを用いて参照領域を特定する。具体的には、行列生成部233は、符号化対象画像の特定の2点のうちの1点における動きベクトルの二次元の成分(x,y成分)と、特定の2点のうち他の1点における動きベクトルの一次元の成分(例えば、x成分のみ)と、符号化対象画像の取得時のカメラパラメータと、参照画像の取得時のカメラパラメータとを用いてホモグラフィ行列「H」を生成し、生成したホモグラフィ行列「H」を用いて参照領域を特定する。
 図13及び図14は、4パラメータを用いてホモグラフィ行列「H」を算出する処理を説明するための図である。なお、図13及び図14では、カメラに対してパン操作、チルト操作、ロール操作及びズーム操作の全ての操作がなされた場合を例に説明する。
 図13に示すように、カメラ31は、カメラ31から見て被写体32に対して右方向にパン操作が行われ、チルト操作とロール操作が行われて向きが固定して設置され、ズーム操作が行われているとする。図13に示す位置関係でカメラ31によって動画像の撮影がなされると、図14に示すように被写体32が撮影される。ここで、行列生成部233が、動きベクトル判定部12から左上の原点(0,0)の動きベクトル(図14の円35で示される動きベクトル)と右下隅の点(2ox,2oy)の動きベクトル(図14の円36で示される動きベクトル)を取得している場合、以下の式(13)に基づいて、ホモグラフィ行列「H」を生成する。
Figure JPOXMLDOC01-appb-M000013
 式(13)における(vx1/v11,vy1/v11)、(vx2/v12,vy2/v12)が画面左上隅と右下隅の動きベクトルであるため、行列生成部233は式(13)を解いてθ(またはそれらの正弦や余弦)とf´を得て、画面全体のホモグラフィ行列「H」(A´RA-1)を生成する。図14の例では、左上と右下の動きに注目したが、互いに離れている右上と左下でもよい。互いに遠いことが重要である。このように、行列生成部233は、カメラ31に対してパン、チルト、ロール及びズームの全ての操作がなされた場合、2次元で表現されるパラメータを複数用いて参照領域を特定する。具体的には、行列生成部233は、符号化対象画像の特定の2点それぞれにおける動きベクトルの二次元の成分と、符号化対象画像の取得時のカメラパラメータと、参照画像の取得時のカメラパラメータとを用いてホモグラフィ行列「H」を生成し、生成したホモグラフィ行列「H」を用いて参照領域を特定する。
 射影変換部234は、フレームメモリ21に記憶された復号画像信号に対して、ホモグラフィ行列「H」を用いる射影変換によって第2モードの動き補償を実行する(ステップS206)。射影変換部234は、第2モードの動き補償に基づく予測信号を、切替部235に出力する。切替部235は、第2モードの動き補償に基づく予測信号を、減算部13に出力する(ステップS207)。
 射影変換部234は、取得されたフレームグループにおける全てのフレームに対して第2モードの動き補償が実行されたか否かを判定する(ステップS208)。いずれかのフレームに対して第2モードの動き補償が実行されていないと判定された場合(ステップS208:NO)、射影変換部234は、ステップS204に処理を戻す。全てのフレームに対して第2モードの動き補償が実行されたと判定された場合(ステップS208:YES)、行列生成部233及び射影変換部234は、取得されたフレームグループに対する動き補償の処理を終了する。
 カメラパラメータ「B」が不変でない期間において撮影されたフレームグループ(周知のフレーム間予測処理に適したフレームグループ)である場合(ステップS202:NO)、解析部231は、第1動き補償モード信号を、フレーム間予測部232と切替部235とに出力する(ステップS209)。
 フレーム間予測部232は、周知の動画像符号化の規格におけるフレーム間予測処理に基づく動き補償を、フレームメモリ21に記憶された復号画像信号に対して実行する(ステップS210)。フレーム間予測部232は、第1モードの動き補償に基づく予測信号を、切替部235に出力する。切替部235は、第1モードの動き補償に基づく予測信号を、減算部13に出力する(ステップS211)。
 フレーム間予測部232は、取得されたフレームグループにおける全てのフレームに対して第1モードの動き補償が実行されたか否かを判定する(ステップS212)。いずれかのフレームに対して第1モードの動き補償が実行されていないと判定された場合(ステップS212:NO)、フレーム間予測部232は、ステップS210に処理を戻す。全てのフレームに対して第1モードの動き補償が実行されたと判定された場合(ステップS212:YES)、フレーム間予測部232は、取得されたフレームグループに対する動き補償の処理を終了する。
 実施形態の符号化装置1は、物体の画像の射影変換に基づく動き補償によって、高画質の復号画像を生成可能である少ない符号量の符号化データを生成する。これによって、実施形態の符号化装置1は、画像の符号化効率を向上させることが可能である。
 以下、実施形態の符号化装置1に関し、以下の付記を開示する。
 (付記1)
 参照画像を用いて符号化対象画像の符号化を行う符号化方法であって、
 前記符号化対象画像を分割した領域である符号化対象領域と対応する、前記参照画像の一部である参照領域を特定する特定ステップと、
 前記参照領域を用いて予測することで、前記符号化対象領域に対する予測領域を得る予測ステップと、を有し、
 前記符号化対象領域と前記参照領域は、異なるサイズ若しくは/及び異なる形状であり、
 前記特定ステップでは、前記符号化対象画像と前記参照画像を取得する際に、カメラに対して行われた動きに起因する前記符号化対象領域と前記参照領域に対応する被写体の写り方の差異を利用して前記参照領域を特定する符号化方法である。
 (付記2)
 上記の符号化方法であって、前記カメラに対して行われた動きは、パン、チルト、ロール及びズームのうち少なくともいずれか1つ又は少なくとも2つ以上の組み合わせである。
 (付記3)
 上記の符号化方法であって、前記特定ステップは、前記符号化対象画像に係るカメラパラメータと、前記参照画像に係るカメラパラメータと、を用いて前記動きを特定する。
 (付記4)
 上記の符号化方法であって、前記特定ステップは、前記動きが、パン、チルト、ロール及びズームのうち少なくともいずれか1つである場合、1次元で表現されるパラメータを用いて前記参照領域を特定する。
 (付記5)
 上記の符号化方法であって、前記特定ステップは、前記符号化対象画像の特定の1点における動きベクトルの一次元の成分と、前記符号化対象画像の取得時のカメラパラメータと、前記参照画像の取得時のカメラパラメータとを用いてホモグラフィ行列を生成し、生成した前記ホモグラフィ行列を用いて特定を行う。
 (付記6)
 上記の符号化方法であって、前記特定ステップは、前記動きが、パン、チルト、ロール及びズームのうち少なくともいずれか2つの組み合わせである場合、1次元の組み合わせ又は2次元で表現されるパラメータを用いて前記参照領域を特定する。
 (付記7)
 上記の符号化方法であって、前記特定ステップは、前記符号化対象画像の特定の1点における動きベクトルの二次元の成分を用いる場合には前記二次元の成分と、前記符号化対象画像の取得時のカメラパラメータと、前記参照画像の取得時のカメラパラメータとを用いてホモグラフィ行列を生成し、生成した前記ホモグラフィ行列を用いて特定を行い、前記符号化対象画像の特定の2点における動きベクトルそれぞれの一次元の成分を用いる場合には複数の一次元の成分と、前記符号化対象画像の取得時のカメラパラメータと、前記参照画像の取得時のカメラパラメータとを用いてホモグラフィ行列を生成し、生成した前記ホモグラフィ行列を用いて特定を行う。
 (付記8)
 上記の符号化方法であって、前記特定ステップは、前記動きが、パン、チルト、ロール及びズームのうち少なくともいずれか3つの組み合わせである場合、1次元で表現されるパラメータと2次元で表現されるパラメータとを用いて前記参照領域を特定する。
 (付記9)
 上記の符号化方法であって、前記特定ステップは、前記符号化対象画像の特定の2点のうちの1点における動きベクトルの二次元の成分と、前記特定の2点のうち他の1点における動きベクトルの一次元の成分と、前記符号化対象画像の取得時のカメラパラメータと、前記参照画像の取得時のカメラパラメータとを用いてホモグラフィ行列を生成し、生成した前記ホモグラフィ行列を用いて特定を行う。
 (付記10)
 上記の符号化方法であって、前記特定ステップは、前記動きが、パン、チルト、ロール及びズームの全ての組み合わせである場合、2次元で表現されるパラメータを複数用いて前記参照領域を特定する。
 (付記11)
 上記の符号化方法であって、前記特定ステップは、前記符号化対象画像の特定の2点それぞれにおける動きベクトルの二次元の成分と、前記符号化対象画像の取得時のカメラパラメータと、前記参照画像の取得時のカメラパラメータとを用いてホモグラフィ行列を生成し、生成した前記ホモグラフィ行列を用いて特定を行う。
 以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
 本発明は、静止画像又は動画像の可逆符号化若しくは非可逆符号化を実行する符号化装置に適用可能である。
1…符号化装置、10…カメラパラメータ判定部、11…パラメータ数判定部、12…動きベクトル判定部、13…減算部、14…変換部、15…量子化部、16…エントロピー符号化部、17…逆量子化部、18…逆変換部、19…加算部、20…歪除去フィルタ、21…フレームメモリ、22…フレーム内予測部、23…動き補償部、24…切替部、231…解析部、232…フレーム間予測部、233…行列生成部、234…射影変換部、235…切替部

Claims (13)

  1.  参照画像を用いて符号化対象画像の符号化を行う符号化方法であって、
     前記符号化対象画像を分割した領域である符号化対象領域と対応する、前記参照画像の一部である参照領域を特定する特定ステップと、
     前記参照領域を用いて予測することで、前記符号化対象領域に対する予測領域を得る予測ステップと、を有し、
     前記符号化対象領域と前記参照領域は、異なるサイズ若しくは/及び異なる形状であり、
     前記特定ステップでは、前記符号化対象画像と前記参照画像を取得する際に、カメラに対して行われた動きに起因する前記符号化対象領域と前記参照領域に対応する被写体の写り方の差異を利用して前記参照領域を特定する符号化方法。
  2.  前記カメラに対して行われた動きは、パン、チルト、ロール及びズームのうち少なくともいずれか1つ又は少なくとも2つ以上の組み合わせである、
    請求項1記載の符号化方法。
  3.  前記特定ステップは、前記符号化対象画像に係るカメラパラメータと、前記参照画像に係るカメラパラメータと、を用いて前記動きを特定する、
    請求項2記載の符号化方法。
  4.  前記特定ステップは、前記動きが、パン、チルト、ロール及びズームのうち少なくともいずれか1つである場合、1次元で表現されるパラメータを用いて前記参照領域を特定する、
    請求項3記載の符号化方法。
  5.  前記特定ステップは、前記符号化対象画像の特定の1点における動きベクトルの一次元の成分と、前記符号化対象画像の取得時のカメラパラメータと、前記参照画像の取得時のカメラパラメータとを用いてホモグラフィ行列を生成し、生成した前記ホモグラフィ行列を用いて特定を行う、
    請求項4記載の符号化方法。
  6.  前記特定ステップは、前記動きが、パン、チルト、ロール及びズームのうち少なくともいずれか2つの組み合わせである場合、1次元の組み合わせ又は2次元で表現されるパラメータを用いて前記参照領域を特定する、
    請求項3記載の符号化方法。
  7.  前記特定ステップは、前記符号化対象画像の特定の1点における動きベクトルの二次元の成分を用いる場合には前記二次元の成分と、前記符号化対象画像の取得時のカメラパラメータと、前記参照画像の取得時のカメラパラメータとを用いてホモグラフィ行列を生成し、生成した前記ホモグラフィ行列を用いて特定を行い、前記符号化対象画像の特定の2点における動きベクトルそれぞれの一次元の成分を用いる場合には複数の一次元の成分と、前記符号化対象画像の取得時のカメラパラメータと、前記参照画像の取得時のカメラパラメータとを用いてホモグラフィ行列を生成し、生成した前記ホモグラフィ行列を用いて特定を行う、
    請求項6記載の符号化方法。
  8.  前記特定ステップは、前記動きが、パン、チルト、ロール及びズームのうち少なくともいずれか3つの組み合わせである場合、1次元で表現されるパラメータと2次元で表現されるパラメータとを用いて前記参照領域を特定する、
    請求項3記載の符号化方法。
  9.  前記特定ステップは、前記符号化対象画像の特定の2点のうちの1点における動きベクトルの二次元の成分と、前記特定の2点のうち他の1点における動きベクトルの一次元の成分と、前記符号化対象画像の取得時のカメラパラメータと、前記参照画像の取得時のカメラパラメータとを用いてホモグラフィ行列を生成し、生成した前記ホモグラフィ行列を用いて特定を行う、
    請求項8記載の符号化方法。
  10.  前記特定ステップは、前記動きが、パン、チルト、ロール及びズームの全ての組み合わせである場合、2次元で表現されるパラメータを複数用いて前記参照領域を特定する、
    請求項3記載の符号化方法。
  11.  前記特定ステップは、前記符号化対象画像の特定の2点それぞれにおける動きベクトルの二次元の成分と、前記符号化対象画像の取得時のカメラパラメータと、前記参照画像の取得時のカメラパラメータとを用いてホモグラフィ行列を生成し、生成した前記ホモグラフィ行列を用いて特定を行う、
    請求項10記載の符号化方法。
  12.  参照画像を用いて符号化対象画像の符号化を行う符号化装置であって、
     前記符号化対象画像を分割した領域である符号化対象領域と対応する、前記参照画像の一部である参照領域を特定する特定部と、
     前記参照領域を用いて予測することで、前記符号化対象領域に対する予測領域を得る予測部と、
     を備え、
     前記符号化対象領域と前記参照領域は、異なるサイズ若しくは/及び異なる形状であり、
     前記特定部は、前記符号化対象画像と前記参照画像を取得する際に、カメラに対して行われた動きに起因する前記符号化対象領域と前記参照領域に対応する被写体の写り方の差異を利用して前記参照領域を特定する符号化装置。
  13.  請求項12に記載の符号化装置としてコンピュータを機能させるためのプログラム。
PCT/JP2019/045083 2019-11-18 2019-11-18 符号化方法、符号化装置及びプログラム WO2021100085A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021558047A JP7348549B2 (ja) 2019-11-18 2019-11-18 符号化方法、符号化装置及びプログラム
US17/775,759 US20220417523A1 (en) 2019-11-18 2019-11-18 Encoding method, encoding apparatus and program
PCT/JP2019/045083 WO2021100085A1 (ja) 2019-11-18 2019-11-18 符号化方法、符号化装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/045083 WO2021100085A1 (ja) 2019-11-18 2019-11-18 符号化方法、符号化装置及びプログラム

Publications (1)

Publication Number Publication Date
WO2021100085A1 true WO2021100085A1 (ja) 2021-05-27

Family

ID=75981510

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/045083 WO2021100085A1 (ja) 2019-11-18 2019-11-18 符号化方法、符号化装置及びプログラム

Country Status (3)

Country Link
US (1) US20220417523A1 (ja)
JP (1) JP7348549B2 (ja)
WO (1) WO2021100085A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004064518A (ja) * 2002-07-30 2004-02-26 Nec Corp 動画像符号化方法、動画像符号化装置、およびコンピュータプログラム
JP2004221744A (ja) * 2003-01-10 2004-08-05 Nippon Hoso Kyokai <Nhk> 動画像符号化装置、その方法及びそのプログラム、並びに、動画像復号装置、その方法及びそのプログラム
JP2007312425A (ja) * 2007-07-30 2007-11-29 Nippon Telegr & Teleph Corp <Ntt> 画像符号化方法,画像復号方法,画像符号化装置,画像復号装置,画像符号化プログラム,画像復号プログラムおよびそれらのプログラムを記録した記録媒体
JP2008011079A (ja) * 2006-06-28 2008-01-17 Matsushita Electric Ind Co Ltd 動画像符号化装置、動画像復号化装置及び動画像伝送システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004064518A (ja) * 2002-07-30 2004-02-26 Nec Corp 動画像符号化方法、動画像符号化装置、およびコンピュータプログラム
JP2004221744A (ja) * 2003-01-10 2004-08-05 Nippon Hoso Kyokai <Nhk> 動画像符号化装置、その方法及びそのプログラム、並びに、動画像復号装置、その方法及びそのプログラム
JP2008011079A (ja) * 2006-06-28 2008-01-17 Matsushita Electric Ind Co Ltd 動画像符号化装置、動画像復号化装置及び動画像伝送システム
JP2007312425A (ja) * 2007-07-30 2007-11-29 Nippon Telegr & Teleph Corp <Ntt> 画像符号化方法,画像復号方法,画像符号化装置,画像復号装置,画像符号化プログラム,画像復号プログラムおよびそれらのプログラムを記録した記録媒体

Also Published As

Publication number Publication date
JP7348549B2 (ja) 2023-09-21
US20220417523A1 (en) 2022-12-29
JPWO2021100085A1 (ja) 2021-05-27

Similar Documents

Publication Publication Date Title
KR100688383B1 (ko) 파노라마 영상의 움직임 추정 및 보상
JP7043148B2 (ja) 適応型イントラ最確モードを用いた全方位映像符号化のための方法および装置
CN114531587B (zh) 图像数据编码/解码方法、介质和发送比特流的方法
CN115022624A (zh) 图像数据编码/解码方法和计算机可读记录介质
JP5651560B2 (ja) 動きベクトル予測装置、符号化装置、復号装置、及びこれらのプログラム
CN117014635A (zh) 图像编码/解码方法和计算机可读记录介质
JP2006270676A (ja) パノラマ画像生成プログラム、パノラマ画像生成装置、パノラマ画像生成方法
JP6232076B2 (ja) 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム及び映像復号プログラム
JP2024084837A (ja) 画像データ符号化/復号化方法及び装置
JP4944046B2 (ja) 映像符号化方法,復号方法,符号化装置,復号装置,それらのプログラムおよびコンピュータ読み取り可能な記録媒体
WO2015056712A1 (ja) 動画像符号化方法、動画像復号方法、動画像符号化装置、動画像復号装置、動画像符号化プログラム、及び動画像復号プログラム
US10089726B2 (en) Image processing apparatus, image processing method, and storage medium, relating to generating an image corresponding to a predetermined three-dimensional shape by transforming a captured image
WO2021100085A1 (ja) 符号化方法、符号化装置及びプログラム
JP7161736B2 (ja) 符号化方法、符号化装置及びプログラム
JP6905184B2 (ja) 画像圧縮プログラム、画像圧縮装置、及び画像圧縮方法
Abbas et al. A novel projection for omni-directional video
JP4258879B2 (ja) 画像符号化方法とその装置、画像復号化方法とその装置、コンピュータに画像符号化方法および画像復号化方法を実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2010114474A (ja) 動画像の動き情報を利用した画像処理装置及び画像処理方法
WO2013035452A1 (ja) 画像符号化方法、画像復号方法、並びにそれらの装置及びプログラム
Oh et al. Rate-distortion optimal motion estimation for depth map coding

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19953661

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021558047

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19953661

Country of ref document: EP

Kind code of ref document: A1