WO2022102016A1 - 画像符号化装置、画像符号化方法、画像復号装置、画像復号方法及びコンピュータープログラム - Google Patents

画像符号化装置、画像符号化方法、画像復号装置、画像復号方法及びコンピュータープログラム Download PDF

Info

Publication number
WO2022102016A1
WO2022102016A1 PCT/JP2020/042077 JP2020042077W WO2022102016A1 WO 2022102016 A1 WO2022102016 A1 WO 2022102016A1 JP 2020042077 W JP2020042077 W JP 2020042077W WO 2022102016 A1 WO2022102016 A1 WO 2022102016A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
subject
unit
state parameter
information indicating
Prior art date
Application number
PCT/JP2020/042077
Other languages
English (en)
French (fr)
Inventor
勇 五十嵐
隆行 黒住
誠之 高村
英明 木全
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2020/042077 priority Critical patent/WO2022102016A1/ja
Publication of WO2022102016A1 publication Critical patent/WO2022102016A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding

Definitions

  • the present invention relates to an image coding device, an image coding method, an image decoding device, an image decoding method, and a computer program technique.
  • Non-Patent Document 1 H.265 / HEVC (Non-Patent Document 1) and H.266 / VVC have been proposed.
  • H.265 / HEVC H.265 / HEVC
  • H.266 / VVC H.266 / VVC
  • SERIES H AUDIOVISUAL AND MULTIMEDIA SYSTEMS, Infrastructure of audiovisual services-Coding of moving video, TELECOMMUNICATION STANDARDIZATION SECTOR OF ITU (11/2019) CODING OF 3D MESHES AND VIDEO TEXTURES FOR 3D VIDEO OBJECTS, PROC. PCS 2004, PICTURE CODING SYMPOSIUM Andriy GelmanPier Luigi DragottiVladan Velisavljevic Sicilan Velisavljevic Interactive multiview image coding, Proc. ICIP 2011, Sep. 2011
  • an object of the present invention is to provide a technique capable of improving the coding efficiency of image data.
  • One aspect of the present invention is a classification unit that classifies a subject reflected in the target image into the same type of subject from the target image that is the image to be processed, and a plurality of subjects classified as the same type of subject by the classification unit.
  • a three-dimensional information acquisition unit that acquires information indicating the three-dimensional shape of the subject, and a state parameter that is information indicating the position and orientation of the target image in the three-dimensional space for each subject are acquired.
  • Generates coded data including a state parameter acquisition unit, information indicating the three-dimensional shape, the state parameter for each subject, and a background image which is an image of a portion of the target image in which the subject is not shown.
  • It is an image coding apparatus including a coding unit.
  • One aspect of the present invention is the above-mentioned image coding apparatus, further comprising a region information acquisition unit for acquiring region information which is information indicating an region occupied by the image of the subject for each subject from the target image.
  • the coding unit generates the background image by removing the image of the region indicated by the region information from the target image.
  • One aspect of the present invention is a classification step of classifying a subject reflected in the target image into the same type of subject from the target image which is an image to be processed, and a plurality of subjects classified as the same type of subject in the classification step.
  • a three-dimensional information acquisition step for acquiring information indicating the three-dimensional shape of the subject based on the image of the above, and a state parameter which is information indicating the position and orientation of the target image in the three-dimensional space for each subject are acquired.
  • Generates coded data including a state parameter acquisition step to be performed, information indicating the three-dimensional shape, the state parameter for each subject, and a background image which is an image of a portion of the target image in which the subject is not shown. It is an image coding method having a coding step to be performed.
  • One aspect of the present invention is a classification unit that classifies a subject reflected in the target image into the same type of subject from the target image that is the image to be processed, and a plurality of subjects classified as the same type of subject by the classification unit.
  • a three-dimensional information acquisition unit that acquires information indicating the three-dimensional shape of the subject, and a state parameter that is information indicating the position and orientation of the target image in the three-dimensional space for each subject are acquired.
  • Generates coded data including a state parameter acquisition unit, information indicating the three-dimensional shape, the state parameter for each subject, and a background image which is an image of a portion of the target image in which the subject is not shown.
  • a decoding unit for acquiring the background image, information indicating the three-dimensional shape, and the state parameter from the coding data generated by the image coding apparatus including the coding unit, and the three-dimensional shape.
  • One aspect of the present invention is a classification unit that classifies a subject reflected in the target image into the same type of subject from the target image that is the image to be processed, and a plurality of subjects classified as the same type of subject by the classification unit.
  • a three-dimensional information acquisition unit that acquires information indicating the three-dimensional shape of the subject, and a state parameter that is information indicating the position and orientation of the target image in the three-dimensional space for each subject are acquired.
  • Generates coded data including a state parameter acquisition unit, information indicating the three-dimensional shape, the state parameter for each subject, and a background image which is an image of a portion of the target image in which the subject is not shown.
  • One aspect of the present invention is a computer program for operating a computer as the above-mentioned image coding device.
  • One aspect of the present invention is a computer program for operating a computer as the above-mentioned image decoding device.
  • FIG. 1 is a diagram showing a functional configuration example of the image coding apparatus 100 of the present invention.
  • the image coding device 100 is configured by using information devices such as a personal computer, a server device, a game device, a smartphone, and an image pickup device.
  • the image coding device 100 includes an image input unit 11, an output unit 12, a storage unit 13, and a control unit 14.
  • the image input unit 11 receives image data input to the image coding device 100.
  • the image data input by the image input unit 11 may be still image data or moving image data.
  • the image input unit 11 may read image data recorded on a recording medium such as a CD-ROM or a USB memory (Universal Serial Bus Memory). Further, the image input unit 11 may receive an image captured by a still camera or a video camera from the camera. Further, when the image coding device 100 is built in a still camera, a video camera, or an information processing device including a camera, the image input unit 11 may receive the captured image or the image before imaging from the bus. good. Further, the image input unit 11 may receive image data from another information processing device via the network.
  • the image input unit 11 may be configured in a different manner as long as it can receive input of image data.
  • the output unit 12 outputs image information and image data generated by the control unit 14.
  • the output unit 12 may write image information or image data to a recording medium such as a CD-ROM or a USB memory (Universal Serial Bus Memory).
  • a recording medium such as a CD-ROM or a USB memory (Universal Serial Bus Memory).
  • the output unit 12 records the generated coded data in a recording medium provided in these devices. It may be recorded in. Further, the output unit 12 may transmit the coded data to another information processing device via the network.
  • the output unit 12 may be configured in a different manner as long as it can output the coded data.
  • the storage unit 13 is configured by using a storage device such as a magnetic hard disk device or a semiconductor storage device.
  • the storage unit 13 functions as, for example, an image storage unit 131, an image information storage unit 132, and a coded data storage unit 133.
  • the image storage unit 131 stores image data input by the image input unit 11.
  • the image storage unit 131 may store still image data or moving image data.
  • the image information storage unit 132 stores the image information generated by the control unit 14.
  • the coded data storage unit 133 stores the coded data generated by the control unit 14.
  • FIG. 2 is a diagram showing a specific example of an image information table stored in the image information storage unit 132.
  • the image information table has a record for each combination of an image to be processed (hereinafter referred to as "target image") and a subject in the target image.
  • Each record has, for example, identification information indicating a target image (hereinafter referred to as “target image identification information”), identification information indicating a subject (hereinafter referred to as "subject identification information”), and image information in association with each other.
  • the image information is information about the image of the subject in the corresponding target image.
  • the image information includes, for example, area information indicating the subject area of the subject, information indicating the three-dimensional shape of the subject (hereinafter referred to as "3D model”), and information such as state parameters indicating the position and posture of the subject. include.
  • the control unit 14 is configured by using a processor such as a CPU (Central Processing Unit) and a memory.
  • the control unit 14 includes an input / output control unit 141, an area information acquisition unit 142, a classification unit 143, a three-dimensional information acquisition unit 144, a state parameter acquisition unit 145, an additional information acquisition unit 146, and a code when the processor executes a program. It functions as a conversion unit 147. All or part of each function of the control unit 14 may be realized by using hardware such as ASIC (Application Specific Integrated Circuit), PLD (Programmable Logic Device), and FPGA (Field Programmable Gate Array).
  • the above program may be recorded on a computer-readable recording medium.
  • Computer-readable recording media include, for example, flexible disks, magneto-optical disks, ROMs, CD-ROMs, portable media such as semiconductor storage devices (for example, SSD: Solid State Drive), hard disks and semiconductor storage built into computer systems. It is a storage device such as a device.
  • the above program may be transmitted over a telecommunication line.
  • the input / output control unit 141 controls the input / output of data.
  • the input / output control unit 141 acquires image data by controlling the operation of the image input unit 11.
  • the input / output control unit 141 records the input image data in the image storage unit 131.
  • the input / output control unit 141 may temporarily record the input image data in a storage device such as a memory, if necessary.
  • the input / output control unit 141 outputs the coded data stored in the coded data storage unit 133 to an external device by controlling the output unit 12.
  • the area information acquisition unit 142 acquires information (hereinafter referred to as "area information") indicating an area (hereinafter referred to as "subject area”) of each subject existing in the image in the target image for each subject.
  • the target image may be an image stored as a still image in the image storage unit 131, or may be an image of a frame of a moving image stored as a moving image in the image storage unit 131.
  • the target image may be one still image or frame, or may be a plurality of still images or frames.
  • the target image may be a combination of a still image and a frame. When a plurality of frames are used as the target image, a plurality of frames may be acquired from one moving image.
  • the time interval of each frame may be configured to be equal to or larger than a predetermined threshold value so that frames from different viewpoints can be obtained.
  • the frame from which the area information is acquired may be determined by the area information acquisition unit 142 based on a predetermined criterion.
  • the frame is a still image or a moving image obtained by photographing the same or the same type of subject. Is desirable.
  • the position of each subject in the three-dimensional space may be the same or different in the frame of each still image or moving image.
  • the subject area is an area surrounded by the outline of the subject.
  • FIG. 3 is a diagram showing a specific example of the target image.
  • a plurality of subjects are shown in the target image of FIG.
  • the subject 81 and the subject 86 are heart-shaped objects.
  • the subject 81 and the subject 86 have the same type of object or a similar shape.
  • the subject 82, the subject 83, the subject 84, and the subject 85 are star-shaped objects.
  • the subject 82, the subject 83, the subject 84, and the subject 85 have the same type of object or a similar shape.
  • Each subject 81 to 86 is photographed at a unique position and tilted at a unique angle.
  • FIG. 4 is a diagram showing a specific example of the subject area. Each shape shown in a different pattern in FIG. 4 indicates a subject area.
  • the subject areas 91 to 96 indicate the areas of the subjects 81 to 86, respectively.
  • the background area 97 indicates an area of the entire target image that does not include the subject areas 91 to 96.
  • the area information acquisition unit 142 may estimate, for example, which subject corresponds to each pixel in the target image, or which subject does not correspond to any subject.
  • the techniques applied to this estimation need not be limited to specific ones. For example, techniques based on deep learning such as Mask-RCNN and GAN may be applied. Further, the subject area of each subject may be manually specified.
  • the area information acquisition unit 142 records the generated area information data of each subject area in the image information storage unit 132 as image information associated with the identification information of the target image and the identification information of each subject.
  • the classification unit 143 classifies each subject area for each subject of the same type.
  • the subject area to be classified is not limited to one target image (same target image), and the subject of a plurality of subject areas obtained in each of a plurality of target images may be classified. ..
  • n target images from which m subject areas have been acquired are used (m and n are both integers of 1 or more)
  • m ⁇ n subject areas may be the target of classification.
  • the classification unit 143 classifies subject areas of subjects having the same appearance or similar to each other as the same group, for example.
  • the technique applied to the classification unit 143 need not be limited to a specific one.
  • the classification unit 143 may classify the subject areas of the same category into the same group.
  • the classification unit 143 may calculate the similarity between subject regions of the same category based on the feature amount, and classify the subject regions having high similarity into the same group. By performing the processing in this way, a more subdivided classification can be realized.
  • an image in which the subject is taken (hereinafter referred to as "reference image”) may be used in addition to the target image.
  • the classification unit 143 may determine which reference image is most similar to the subject for each subject area obtained from the target image, and may generate a group for each reference image. Further, each subject area may be manually classified.
  • the three-dimensional information acquisition unit 144 generates a 3D model of the subject of each group based on the information obtained from a plurality of subject areas belonging to each group.
  • the 3D model may be represented by, for example, a three-dimensional point group, a polygon, or another model. Further, the 3D model may be stored in the storage unit 13 in advance as known information.
  • the technique applied to the three-dimensional information acquisition unit 144 does not have to be limited to a specific one. For example, the three-dimensional information acquisition unit 144 may handle each of the images in the subject area as a plurality of images of the same individual taken at different positions and different postures.
  • the three-dimensional information acquisition unit 144 may generate a 3D model by executing Structure from Motion (SfM) using the images of the plurality of subject areas described above.
  • the three-dimensional information acquisition unit 144 records the generated 3D model data in the image information storage unit 132 as image information associated with the identification information of the target image and the identification information of the subject indicated by the 3D model.
  • the state parameter acquisition unit 145 generates information (hereinafter referred to as "state parameter") indicating the positional relationship with the camera, the posture, and the like for the subject in each subject area.
  • state parameter information
  • the technique applied to the state parameter acquisition unit 145 does not have to be limited to a specific one.
  • the state parameter acquisition unit 145 may acquire the state parameter for each subject area by using SfM.
  • Three-dimensional world coordinates are given to the 3D model.
  • the coordinates of each point are represented by world coordinates.
  • the 3D model of the subject is represented by polygons
  • each point forming the polygon is represented by world coordinates.
  • the camera's internal parameters for converting world coordinates to image coordinates eg, focal length, optical center, distortion factor, etc.
  • a coordinate transformation matrix representing the coordinates and orientation of the camera is estimated as a state parameter.
  • Equation 1 R is a coordinate transformation matrix and is expressed as in Equation 2 below.
  • R11 to R33 are values corresponding to the rotation matrix.
  • R11 to R33 can also be expressed as the following equation 3 by interpreting them in the form of rotating around each coordinate axis in the order of, for example, y-axis, z-axis, and x-axis.
  • the coordinates of the camera coordinate system can be converted to the coordinates (i, j) of the image coordinate system by projection conversion as shown below.
  • f and (cx, cy) are the focal length and optical center of the camera, respectively.
  • FIG. 5 is a diagram showing specific examples of positions and postures of each subject in a three-dimensional space. Each subject shown in the image of FIG. 3 is arranged at each position in a three-dimensional space in each posture. The position and state of each subject are represented by state parameters.
  • the processing of the state parameter acquisition unit 145 may be provided with a constraint condition that the subjects in each subject area do not overlap three-dimensionally (they do not overlap in the same space). By providing such a constraint condition, it is possible to improve the acquisition accuracy of the state parameter.
  • the state parameter acquisition unit 145 records the generated state parameter data in the image information storage unit 132 as image information associated with the identification information of the target image and the subject identification information indicated by the state parameter.
  • the additional information acquisition unit 146 acquires additional information for each subject area.
  • the additional information there is information about a relative three-dimensional position with respect to the subject in another subject area of the same group.
  • the image of each subject area can be considered to match the appearance of the subject represented by the 3D model when viewed from a specific position and posture. Therefore, if a reference position that serves as a reference for the viewpoint of the 3D model is arbitrarily specified, the position relative to the reference position can be calculated. This calculation may be performed using, for example, the coordinate transformation matrix R in each subject area.
  • the relative position of the subject in each subject region can be represented by the world coordinate system.
  • the coordinates of the 3D model obtained by performing such coordinate conversion have the same positional relationship as in real space. This makes it possible to represent the relative position between subjects in each subject area.
  • the additional information there is information on how the surface of the subject looks in each subject area. For example, it may be information about the texture of the surface of the subject (for example, information about the color, shape, and material) or information about the reflectance of light on the surface of the subject.
  • information about a light source that irradiates a subject in each subject area with light for example, color of light in the light source, light intensity, information about the position of the light source, number of light sources. .
  • Such information may be obtained, for example, by using a trained model by deep learning or machine learning regarding a light source.
  • the additional information there is information on whether or not the subject in each subject area is in contact with another subject. Such information may be acquired based on whether or not the distance of the closest portion of the surface of each subject is smaller than a predetermined value by using a 3D model and a state parameter.
  • the additional information acquisition unit 146 records the generated additional information data in the image information storage unit 132 as image information associated with the identification information of the target image and the identification information of the subject indicated by the additional information.
  • the coding unit 147 generates an image of the background area 97 (hereinafter referred to as “background image”).
  • background image each pixel of the background area 97 has the same pixel value as the background area 97 in the target image.
  • each pixel other than the background area 97 that is, each pixel in the subject area
  • the entire subject area may be filled with a predetermined one kind of color, or the pixel value set so that the code amount of the entire background image is minimized. May be given. Any image coding process may be applied to the generation of the background image in order to reduce the amount of code.
  • the coding unit 147 generates coded data including the generated background image, the 3D model, and the state parameters of each subject area.
  • the coding unit 147 may perform predetermined coding processing on each of the background image, the 3D model, and the state parameter.
  • the coding unit 147 may perform a predetermined coding process on one data including a background image, a 3D model, and a state parameter. Then, the coding unit 147 records the coded data in the coded data storage unit 133.
  • FIG. 6 is a diagram showing a specific example of processing of the image coding apparatus 100.
  • the input / output control unit 141 inputs the target image to be processed and records it in the image storage unit 131 (step S101).
  • the area information acquisition unit 142 acquires area information indicating a subject area in the target image for each subject and records it in the image information storage unit 132 (step S102).
  • the classification unit 143 classifies each subject (step S103).
  • the three-dimensional information acquisition unit 144 generates a 3D model of the subject by using the information of a plurality of subjects classified into the same group, and records the generated 3D model data in the image information storage unit 132. (Step S104).
  • the state parameter acquisition unit 145 generates a state parameter for each subject and records the state parameter in the image information storage unit 132 (step S105).
  • the additional information acquisition unit 146 acquires additional information for each subject and records it in the image information storage unit 132 (step S106).
  • the coding unit 147 generates coded data and records it in the coded data storage unit 133 (step S107).
  • FIG. 7 is a diagram showing a functional configuration example of the image decoding apparatus 200 of the present invention.
  • the image decoding device 200 is configured by using information devices such as a personal computer, a server device, a game device, a smartphone, and an image pickup device.
  • the image decoding device 200 includes an input unit 21, an output unit 22, a storage unit 23, and a control unit 24.
  • the input unit 11 receives the coded data input to the image decoding device 200.
  • the coded data input by the input unit 21 may be still image data or moving image data.
  • the input unit 21 may read the encoded data recorded on a recording medium such as a CD-ROM or a USB memory (Universal Serial Bus Memory). Further, the input unit 21 may receive the coded data captured and recorded by the still camera or the video camera from the camera.
  • the image decoding device 200 is built in a still camera, a video camera, or an information processing device including a camera, the input unit 21 may receive the encoded data captured and recorded from the bus. Further, the input unit 21 may receive encoded data from another information processing device via the network.
  • the input unit 21 may be configured in a different manner as long as it can receive the input of the coded data.
  • the output unit 22 outputs image data generated by the control unit 24.
  • the output unit 22 may write image data to a recording medium such as a CD-ROM or a USB memory (Universal Serial Bus Memory).
  • a recording medium such as a CD-ROM or a USB memory (Universal Serial Bus Memory).
  • the output unit 22 records the generated image data on a recording medium provided in these devices. It may be displayed on a display device. Further, the output unit 22 may transmit image data to another information processing device via the network.
  • the output unit 22 may display an image on the image display device. In this case, the output unit 22 may output the image signal generated by the control unit 24 based on the image data to the image display device.
  • the output unit 22 may be configured in a different manner as long as it can output image data.
  • the storage unit 23 is configured by using a storage device such as a magnetic hard disk device or a semiconductor storage device.
  • the storage unit 23 functions as, for example, a coded data storage unit 231 and an image storage unit 232.
  • the coded data storage unit 231 stores the coded data input from the input unit 21.
  • the image storage unit 232 stores the image data generated by the control unit 24.
  • the image storage unit 232 may store still image data or moving image data.
  • the control unit 24 is configured by using a processor such as a CPU and a memory.
  • the control unit 24 functions as an input / output control unit 241, a decoding unit 242, a subject image generation unit 243, and a composition unit 244 by executing a program by the processor.
  • all or a part of each function of the control unit 24 may be realized by using hardware such as ASIC, PLD and FPGA.
  • the above program may be recorded on a computer-readable recording medium.
  • Computer-readable recording media include, for example, flexible disks, magneto-optical disks, ROMs, CD-ROMs, portable media such as semiconductor storage devices (for example, SSDs), and storage of hard disks and semiconductor storage devices built in computer systems. It is a device.
  • the above program may be transmitted over a telecommunication line.
  • the input / output control unit 241 controls the input / output of data.
  • the input / output control unit 241 acquires the coded data by controlling the operation of the input unit 21.
  • the input / output control unit 241 records the input coded data in the coded data storage unit 231.
  • the input / output control unit 241 may temporarily record the input coded data in a storage device such as a memory, if necessary.
  • the input / output control unit 241 outputs the image data stored in the image storage unit 232 to an external device by controlling the output unit 22.
  • the input / output control unit 241 may, for example, convert the image data stored in the image storage unit 232 into an image signal and output it to an external image display device by controlling the output unit 22.
  • the decoding unit 242 acquires a background image, a 3D model, and a state parameter of each subject area by performing a decoding process on the coded data according to the coding process executed by the image coding apparatus 100. ..
  • the subject image generation unit 243 generates an image of the subject in each subject area based on the 3D model and the state parameters of each subject area. For example, an image of each subject area may be generated by performing coordinate conversion on a 3D model using a state parameter so as to represent the position of each subject.
  • FIG. 8 is a diagram showing an outline of image generation of a subject area.
  • the viewpoint 86_1 is a viewpoint in the target image of FIG.
  • a value related to the subject 82 is input to the pixels of the coordinates (i_1, j_1) in the target image.
  • the pixel value of each coordinate of the subject area can be obtained.
  • the synthesizing unit 244 generates an image by synthesizing the background image obtained by the decoding unit 242 and the image of each subject area obtained by the subject image generation unit 243.
  • the generated image is, in principle, an image that matches or is similar to the target image.
  • the compositing unit 244 records the image data obtained by compositing in the image storage unit 232.
  • FIG. 9 is a diagram showing a specific example of processing of the image decoding device 200.
  • the input / output control unit 241 inputs the coded data to be processed and records it in the coded data storage unit 231 (step S201).
  • the decoding unit 242 acquires the background image, the 3D model, and the state parameters of each subject area by decoding the coded data (step S202).
  • the subject image generation unit 243 generates a subject image of each subject based on the 3D model and the state parameters of each subject area (step S203).
  • the synthesizing unit 244 generates image data by synthesizing the background image and the subject image of each subject, and records the image data in the image storage unit 232 (step S204).
  • the input / output control unit 241 outputs the image data recorded in the image storage unit 232 to the outside (step S205).
  • FIG. 10 is a diagram showing a specific example of the hardware configuration of the image coding device 100.
  • the image coding device 100 includes, for example, an input / output device 1_1, an auxiliary storage device 2_1, a memory 3_1, and a processor 4_1 as shown in FIG.
  • the input / output device 1_1 inputs / outputs information (including data) to and from the outside (including the user) in the image coding device 100.
  • the input / output device 1_1 functions as, for example, an image input unit 11 or an output unit 12.
  • the auxiliary storage device 2_1 is configured by using a magnetic hard disk device or a semiconductor storage device.
  • the auxiliary storage device 2_1 functions as, for example, a storage unit 13.
  • the memory 3_1 and the processor 4_1 function as, for example, a control unit 14.
  • FIG. 11 is a diagram showing a specific example of the hardware configuration of the image decoding device 200.
  • the image decoding device 200 includes, for example, an input / output device 1_2, an auxiliary storage device 2_2, a memory 3_2, and a processor 4_2 as shown in FIG.
  • the input / output device 1_2 inputs / outputs information (including data) to and from the outside (including the user) in the image decoding device 200.
  • the input / output device 1_2 functions as, for example, an input unit 21 and an output unit 22.
  • the auxiliary storage device 2_2 is configured by using a magnetic hard disk device or a semiconductor storage device.
  • the auxiliary storage device 2_2 functions as, for example, a storage unit 23.
  • the memory 3_2 and the processor 4_2 function as, for example, a control unit 24.
  • the subject in the image to be processed may be a subject classified as the same type by the classification unit 143 even if it is actually a separate subject.
  • three-dimensional information for example, a 3D model
  • the subject in the image to be processed may be a subject classified as the same type by the classification unit 143 even if it is actually a separate subject.
  • three-dimensional information for example, a 3D model
  • three-dimensional information is acquired using the images of those subjects. Therefore, if there are multiple subjects of the same type in one image, even if there are only a few images as separate subjects, it is possible to acquire more accurate three-dimensional information using those few images. Become.
  • the image coding apparatus 100 configured in this way, not all the subjects in the image are subjected to the same coding processing as the background image, but at least a part of the subjects in the image is a 3D model. And coded data is generated using the state parameters.
  • the 3D model and the state parameters can be represented by a smaller amount of data than the coded data generated by the same coding process as the background image. Therefore, with such a configuration, it is possible to reduce the amount of coded data and improve the coding efficiency of the image data in the generation of the coded data of the target image.
  • the image coding device 100 configured in this way, it is sufficient if one 3D model is commonly used for the same type of subject. Therefore, even if a plurality of subjects appear in one image, the same type of subject can be decoded if the data of one 3D model can be provided as encoded data for them. By constructing the coded data in this way, it is possible to further improve the coding efficiency.
  • the coded data of a plurality of still images if it is possible to have the data of one 3D model for the same kind of subject, it can be decoded. By constructing the coded data in this way, it is possible to further improve the coding efficiency. Further, even the coded data of one or a plurality of moving images can be decoded if the data of one 3D model can be obtained for the same kind of subject. By constructing the coded data in this way, it is possible to further improve the coding efficiency.
  • the image coding device 100 may be mounted separately in a plurality of devices.
  • the image coding device 100 may be implemented as an image coding system including a plurality of devices.
  • the information processing device having the control unit 14 and the information processing device having the storage unit 13 may be mounted as different devices, or the functions of the storage unit 13 may be duplicated and mounted on a plurality of information processing devices.
  • the function of the control unit 14 may be implemented separately in a plurality of information processing devices.
  • the image decoding device 200 may be mounted separately in a plurality of devices.
  • the image decoding device 200 may be implemented as an image information decoding system including a plurality of devices.
  • the information processing device having the control unit 24 and the information processing device having the storage unit 23 may be mounted as different devices, or the functions of the storage unit 23 may be duplicated and mounted on a plurality of information processing devices.
  • the function of the control unit 24 may be implemented separately in a plurality of information processing devices.
  • the present invention is applicable to an apparatus for acquiring image information.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

処理対象の画像である対象画像から、前記対象画像に写っている被写体を同種の被写体に分類する分類部と、前記分類部によって同種の被写体として分類された複数の被写体の画像に基づいて、前記被写体の三次元形状を示す情報を取得する三次元情報取得部と、前記被写体毎に、前記対象画像の三次元空間における位置及び姿勢を示す情報である状態パラメータを取得する状態パラメータ取得部と、前記三次元形状を示す情報と、被写体毎の前記状態パラメータと、前記対象画像うち前記被写体が写っていない部分の画像である背景画像と、を含む符号化データを生成する符号化部と、を備える画像符号化装置である。

Description

画像符号化装置、画像符号化方法、画像復号装置、画像復号方法及びコンピュータープログラム
 本発明は、画像符号化装置、画像符号化方法、画像復号装置、画像復号方法及びコンピュータープログラムの技術に関する。
 データの伝送量やストレージ使用量を削減するために、静止画像や動画像を符号化することでデータ量を小さくする手法が現在までに多数提案されている。例えば、静止画像であればJPEG、WebP、HEIF等の技術が提案されており、動画像ならH.265/HEVC(非特許文献1)、H.266/VVC等の技術が提案されている。また、符号化そのものには関連性が低いが、静止画像や動画像中の物体の三次元状態を復元する従来技術として、非特許文献2や非特許文献3に記載の技術がある。
SERIES H: AUDIOVISUAL AND MULTIMEDIA SYSTEMS, Infrastructure of audiovisual services - Coding of moving video, TELECOMMUNICATION STANDARDIZATION SECTOR OF ITU (11/2019) CODING OF 3D MESHES AND VIDEO TEXTURES FOR 3D VIDEO OBJECTS, PROC. PCS 2004, PICTURE CODING SYMPOSIUM Andriy GelmanPier Luigi DragottiVladan VelisavljevicVladan Velisavljevic Interactive multiview image coding, Proc. ICIP 2011, Sep. 2011
 しかしながら、符号化技術において、さらなる符号化効率の向上が求められている。
 上記事情に鑑み、本発明は、画像データの符号化効率を向上させることができる技術の提供を目的としている。
 本発明の一態様は、処理対象の画像である対象画像から、前記対象画像に写っている被写体を同種の被写体に分類する分類部と、前記分類部によって同種の被写体として分類された複数の被写体の画像に基づいて、前記被写体の三次元形状を示す情報を取得する三次元情報取得部と、前記被写体毎に、前記対象画像の三次元空間における位置及び姿勢を示す情報である状態パラメータを取得する状態パラメータ取得部と、前記三次元形状を示す情報と、被写体毎の前記状態パラメータと、前記対象画像うち前記被写体が写っていない部分の画像である背景画像と、を含む符号化データを生成する符号化部と、を備える画像符号化装置である。
 本発明の一態様は、上記の画像符号化装置であって、前記対象画像から前記被写体毎にその被写体の画像が占める領域を示す情報である領域情報を取得する領域情報取得部をさらに備え、前記符号化部は、前記対象画像から前記領域情報が示す領域の画像を除くことで前記背景画像を生成する。
 本発明の一態様は、処理対象の画像である対象画像から、前記対象画像に写っている被写体を同種の被写体に分類する分類ステップと、前記分類ステップにおいて同種の被写体として分類された複数の被写体の画像に基づいて、前記被写体の三次元形状を示す情報を取得する三次元情報取得ステップと、前記被写体毎に、前記対象画像の三次元空間における位置及び姿勢を示す情報である状態パラメータを取得する状態パラメータ取得ステップと、前記三次元形状を示す情報と、被写体毎の前記状態パラメータと、前記対象画像うち前記被写体が写っていない部分の画像である背景画像と、を含む符号化データを生成する符号化ステップと、を有する画像符号化方法である。
 本発明の一態様は、処理対象の画像である対象画像から、前記対象画像に写っている被写体を同種の被写体に分類する分類部と、前記分類部によって同種の被写体として分類された複数の被写体の画像に基づいて、前記被写体の三次元形状を示す情報を取得する三次元情報取得部と、前記被写体毎に、前記対象画像の三次元空間における位置及び姿勢を示す情報である状態パラメータを取得する状態パラメータ取得部と、前記三次元形状を示す情報と、被写体毎の前記状態パラメータと、前記対象画像うち前記被写体が写っていない部分の画像である背景画像と、を含む符号化データを生成する符号化部と、を備える画像符号化装置によって生成された前記符号化データから前記背景画像と、前記三次元形状を示す情報と、前記状態パラメータとを取得する復号部と、前記三次元形状を示す情報と前記状態パラメータとを用いて、前記対象画像における各被写体の画像を生成する被写体画像生成部と、前記被写体画像生成部によって生成された画像と前記背景画像と、を合成することで画像のデータを生成する合成部と、を備える画像復号装置である。
 本発明の一態様は、処理対象の画像である対象画像から、前記対象画像に写っている被写体を同種の被写体に分類する分類部と、前記分類部によって同種の被写体として分類された複数の被写体の画像に基づいて、前記被写体の三次元形状を示す情報を取得する三次元情報取得部と、前記被写体毎に、前記対象画像の三次元空間における位置及び姿勢を示す情報である状態パラメータを取得する状態パラメータ取得部と、前記三次元形状を示す情報と、被写体毎の前記状態パラメータと、前記対象画像うち前記被写体が写っていない部分の画像である背景画像と、を含む符号化データを生成する符号化部と、を備える画像符号化装置によって生成された前記符号化データから前記背景画像と、前記三次元形状を示す情報と、前記状態パラメータとを取得する復号ステップと、前記三次元形状を示す情報と前記状態パラメータとを用いて、前記対象画像における各被写体の画像を生成する被写体画像生成ステップと、前記被写体画像生成ステップにおいて生成された画像と前記背景画像と、を合成することで画像のデータを生成する合成ステップと、を有する画像復号方法である。
 本発明の一態様は、上記の画像符号化装置としてコンピューターを機能させるためのコンピュータープログラムである。
 本発明の一態様は、上記の画像復号装置としてコンピューターを機能させるためのコンピュータープログラムである。
 本発明により、画像データの符号化効率を向上させることが可能となる。
本発明の画像符号化装置100の機能構成例を示す図である。 画像情報記憶部132が記憶する画像情報テーブルの具体例を示す図である。 対象画像の具体例を示す図である。 被写体領域の具体例を示す図である。 各被写体の三次元空間における位置や姿勢の具体例を示す図である。 画像符号化装置100の処理の具体例を示す図である。 本発明の画像復号装置200の機能構成例を示す図である。 被写体領域の画像の生成の概略を示す図である。 画像復号装置200の処理の具体例を示す図である。 画像符号化装置100のハードウェア構成の具体例を示す図である。 画像復号装置200のハードウェア構成の具体例を示す図である。
 本発明の実施形態について、図面を参照して詳細に説明する。
 図1は、本発明の画像符号化装置100の機能構成例を示す図である。画像符号化装置100は、パーソナルコンピューター、サーバー装置、ゲーム機器、スマートフォン、撮像装置等の情報機器を用いて構成される。画像符号化装置100は、画像入力部11、出力部12、記憶部13及び制御部14を備える。
 画像入力部11は、画像符号化装置100に対して入力される画像のデータを受け付ける。画像入力部11によって入力される画像のデータは、静止画像のデータであってもよいし、動画像のデータであってもよい。画像入力部11は、例えばCD-ROMやUSBメモリー(Universal Serial Bus Memory)等の記録媒体に記録された画像のデータを読み出しても良い。また、画像入力部11は、スチルカメラやビデオカメラによって撮像された画像を、カメラから受信しても良い。また、画像符号化装置100がスチルカメラやビデオカメラ若しくはカメラを備えた情報処理装置に内蔵されている場合は、画像入力部11は撮像された画像又は撮像前の画像をバスから受信しても良い。また、画像入力部11は、ネットワークを介して他の情報処理装置から画像のデータを受信しても良い。画像入力部11は、画像のデータの入力を受けることが可能な構成であれば、さらに異なる態様で構成されても良い。
 出力部12は、制御部14によって生成された画像情報や画像のデータを出力する。出力部12は、例えばCD-ROMやUSBメモリー(Universal Serial Bus Memory)等の記録媒体に対して画像情報や画像のデータを書き込んでも良い。また、画像符号化装置100がスチルカメラやビデオカメラ若しくはカメラを備えた情報処理装置に内蔵されている場合は、出力部12は生成された符号化データを、これらの機器に備えられた記録媒体に記録してもよい。また、出力部12は、ネットワークを介して他の情報処理装置に対し符号化データを送信しても良い。出力部12は、符号化データを出力することが可能な構成であれば、さらに異なる態様で構成されても良い。
 記憶部13は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。記憶部13は、例えば画像記憶部131、画像情報記憶部132及び符号化データ記憶部133として機能する。画像記憶部131は、画像入力部11によって入力された画像のデータを記憶する。画像記憶部131は、静止画像のデータを記憶してもよいし、動画像のデータを記憶してもよい。画像情報記憶部132は、制御部14によって生成される画像情報を記憶する。符号化データ記憶部133は、制御部14によって生成される符号化データを記憶する。
 図2は、画像情報記憶部132が記憶する画像情報テーブルの具体例を示す図である。画像情報テーブルは、処理の対象となる画像(以下「対象画像」という。)とその対象画像内の被写体との組合せ毎にレコードを有する。各レコードは、例えば対象画像を示す識別情報(以下「対象画像識別情報」という。)と、被写体を示す識別情報(以下「被写体識別情報」という。)と、画像情報とを対応付けて有する。画像情報は、対応する対象画像における被写体の画像に関する情報である。画像情報は、例えばその被写体の被写体領域を示す領域情報や、その被写体の三次元形状を示す情報(以下「3Dモデル」という。)や、その被写体の位置や姿勢を示す状態パラメータ等の情報を含む。
 制御部14は、CPU(Central Processing Unit)等のプロセッサーとメモリーとを用いて構成される。制御部14は、プロセッサーがプログラムを実行することによって、入出力制御部141、領域情報取得部142、分類部143、三次元情報取得部144、状態パラメータ取得部145、付加情報取得部146及び符号化部147として機能する。なお、制御部14の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されても良い。上記のプログラムは、コンピューター読み取り可能な記録媒体に記録されても良い。コンピューター読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM、半導体記憶装置(例えばSSD:Solid State Drive)等の可搬媒体、コンピューターシステムに内蔵されるハードディスクや半導体記憶装置等の記憶装置である。上記のプログラムは、電気通信回線を介して送信されてもよい。
 入出力制御部141は、データの入出力を制御する。例えば、入出力制御部141は、画像入力部11の動作を制御することによって、画像のデータを取得する。入出力制御部141は、入力された画像のデータを画像記憶部131に記録する。入出力制御部141は、入力された画像のデータを必要に応じてメモリーなどの記憶装置に一時的に記録してもよい。入出力制御部141は、符号化データ記憶部133に記憶されている符号化データを、出力部12を制御することによって外部の機器に出力する。
 領域情報取得部142は、対象画像において画像内に存在している各被写体の領域(以下「被写体領域」という。)を示す情報(以下「領域情報」という。)を被写体毎に取得する。対象画像は、画像記憶部131に静止画像として記憶されている画像であってもよいし、画像記憶部131に動画像として記憶されている動画像のフレームの画像であってもよい。対象画像は、一つの静止画像又はフレームであってもよいし、複数の静止画像又はフレームであってもよい。対象画像は、静止画像とフレームとの組合せであってもよい。対象画像として複数のフレームが用いられる場合には、1つの動画像から複数のフレームが取得されてもよい。その場合には、異なる視点からのフレームが得られるように、各フレームの時間間隔が所定の閾値以上となるように構成されてもよい。その場合、どのフレームから領域情報を取得するかは、領域情報取得部142によって所定の基準に基づいて決定されてもよい。
 いずれの場合にも、三次元情報取得部144及び状態パラメータ取得部145の処理に用いられる場合には、同じ又は同種の被写体を撮像することによって得られた静止画像又は動画像のフレームであることが望ましい。また、状態パラメータ取得部145の処理に用いられる場合には、例えば各被写体の三次元空間における位置が各静止画像又は動画像のフレームにおいて同一であってもよいし、異なっていてもよい。被写体領域は、被写体の輪郭によって囲まれる領域である。
 図3は、対象画像の具体例を示す図である。図3の対象画像には、複数の被写体が写っている。被写体81及び被写体86は、ハート型の物体である。被写体81及び被写体86は、同種の物体か又は似た形状をしている。被写体82、被写体83、被写体84及び被写体85は、星型の物体である。被写体82、被写体83、被写体84及び被写体85は、同種の物体か又は似た形状をしている。各被写体81~86はそれぞれの特有の位置で特有の角度で傾いた状態で写っている。
 図4は、被写体領域の具体例を示す図である。図4においてそれぞれ異なるパターンで示される各形状がそれぞれ被写体領域を示している。被写体領域91~96は、それぞれ被写体81~86の領域を示している。背景領域97は、対象画像全体のうち、被写体領域91~96を含まない領域を示している。
 以下、領域情報取得部142の処理の具体例について説明する。領域情報取得部142は、例えば、対象画像における各画素について、どの被写体に対応するのか、又は、いずれの被写体にも対応しないのか、について推定してもよい。この推定に適用される技術は特定のものに限定される必要は無い。例えば、Mask-RCNNやGANなどの深層学習に基づく技術が適用されてもよい。また、手動で各被写体の被写体領域が指定されてもよい。領域情報取得部142は、生成された各被写体領域の領域情報のデータを、対象画像の識別情報と各被写体の識別情報と対応付けた画像情報として画像情報記憶部132に記録する。
 分類部143は、各被写体領域について、同種の被写体毎に分類する。分類の対象となる被写体領域は、1枚の対象画像(同一の対象画像)のみに限らず、複数毎の対象画像において得られた複数の被写体領域の被写体を対象として分類が行われてもよい。例えば、m個の被写体領域が取得された対象画像をn枚用いた場合(m及びnはいずれも1以上の整数)、m×n個の被写体領域が分類の対象となってもよい。
 分類部143は、例えば、外見が同一又は所定の基準よりも似ている被写体の被写体領域同士を同じグループとして分類する。分類部143に適用される技術は特定のものに限定される必要は無い。例えば、領域情報取得部142において用いられる深層学習が被写体のカテゴリを推定することができる技術である場合、分類部143は同一のカテゴリの被写体領域を同一のグループに分類してもよい。例えば、分類部143は、同一カテゴリの被写体領域同士でその特徴量に基づいた類似度を算出し、類似度が高い被写体領域同士を同一のグループに分類してもよい。このように処理が行われることで、より細分化された分類を実現できる。また、被写体の候補が既知である場合、対象画像とは別に、被写体が撮影された画像(以下「参照画像」という。)が用いられてもよい。この場合、分類部143は、対象画像から得られた被写体領域毎に、どの参照画像の被写体と最も類似しているかと判定し、参照画像毎のグループを生成してもよい。また、手動で各被写体領域が分類されてもよい。
 三次元情報取得部144は、各グループに属している複数の被写体領域から得られる情報に基づいて、各グループの被写体の3Dモデルを生成する。3Dモデルは、例えば三次元の点群で表されてもよいし、ポリゴンで表されてもよいし、他のモデルで表されてもよい。また、3Dモデルは、既知の情報として予め記憶部13に記憶されていてもよい。三次元情報取得部144に適用される技術は特定のものに限定される必要は無い。例えば、三次元情報取得部144は、被写体領域の画像のそれぞれを、同一個体を異なる位置や異なる姿勢で撮影した複数の画像として取り扱ってもよい。例えば、三次元情報取得部144は、上述した複数の被写体領域の画像を用いてStructure from Motion (SfM)を実行することによって3Dモデルを生成してもよい。三次元情報取得部144は、生成された3Dモデルのデータを、対象画像の識別情報とその3Dモデルが示す被写体の識別情報と対応付けた画像情報として画像情報記憶部132に記録する。
 状態パラメータ取得部145は、各被写体領域の被写体について、カメラとの位置関係や姿勢などを表す情報(以下「状態パラメータ」という。)を生成する。状態パラメータ取得部145に適用される技術は特定のものに限定される必要は無い。例えば、状態パラメータ取得部145は、SfMを利用することで、各被写体領域に関する状態パラメータを取得してもよい。
 状態パラメータ取得部145の処理の具体例についてより詳細に説明する。3Dモデルに対し、三次元のワールド座標が与えられる。例えば、被写体の3Dモデルが三次元の点群で表される場合には、各点の座標がワールド座標で表される。例えば、被写体の3Dモデルがポリゴンで表される場合には、ポリゴンを形成する各点がワールド座標で表される。また、ワールド座標を画像座標に変換するためのカメラの内部パラメータ(例えば、焦点距離、光学的中心、歪み係数など)が推定される。さらに、被写体領域のそれぞれについて、その被写体領域における被写体の見え方と3Dモデルの見え方とが一致するようなカメラの座標と向きを表す座標変換行列が状態パラメータとして推定される。
 以下、推定される状態パラメータによる座標変換の表し方の具体的な一例を示す。まず、ワールド座標系から、ある被写体領域に対応するカメラ座標系への変換を考える。ワールド座標系の座標(X,Y,Z)は、以下の式1によってカメラ座標系の座標(X’,Y’,Z’)に変換できる。
Figure JPOXMLDOC01-appb-M000001
 式1において、Rは座標変換行列であり、以下の式2のように表される。
Figure JPOXMLDOC01-appb-M000002
 Rの成分のうち、(tx,ty,yz)は平行移動を表す。Rの成分のうち、R11~R33は回転行列に相当する値である。R11~R33は、例えばy軸、z軸、x軸の順に各座標軸回りの回転を行うという形で解釈することで、以下の式3のように表すこともできる。また、カメラ座標系の座標は下記の通り投影変換で画像座標系の座標(i,j)に変換できる。ここで、fと(cx,cy)はそれぞれカメラの焦点距離と光学的中心である。
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000004
 以上のようにして得られるRそのものやRの成分が、状態パラメータとして取得される。図5は、各被写体の三次元空間における位置や姿勢の具体例を示す図である。図3の画像に写っている各被写体は三次元空間にそれぞれの姿勢でそれぞれの位置に配置されている。各被写体の位置及び状態は、状態パラメータによって表される。
 状態パラメータ取得部145の処理には、各被写体領域における被写体同士が三次元的に重なり合わない(同一空間に重複して存在はしない)という制約条件が設けられてもよい。このような制約条件が設けられることで、状態パラメータの取得精度を向上させることが可能となる。状態パラメータ取得部145は、生成された状態パラメータのデータを対象画像の識別情報とその状態パラメータが示す被写体の識別情報と対応付けた画像情報として画像情報記憶部132に記録する。
 付加情報取得部146は、各被写体領域に関して付加情報を取得する。付加情報の具体例として、同一のグループの他の被写体領域における被写体との間の相対的な三次元位置に関する情報がある。各被写体領域の画像は、3Dモデルで表される被写体を特定の位置及び姿勢から見た時の見え方に一致すると考えることができる。したがって、3Dモデルの視点の基準となる基準位置を任意に指定すれば、基準位置に対する相対的な位置を算出する事ができる。この算出は、例えば各被写体領域における座標変換行列Rを利用して行われてもよい。各被写体領域に関して得られた座標変換行列Rの逆行列を用いて座標変換を行うことで、各被写体領域における被写体の相対位置をワールド座標系で表す事ができる。このような座標変換を行うことで得られる3Dモデルの座標は、互いに実空間上と同等の位置関係を持つようになる。これにより各被写体領域における被写体間の相対位置を表す事ができる。
 付加情報の他の具体例として、各被写体領域における被写体の表面の見え方に関する情報がある。例えば、被写体の表面のテクスチャに関する情報(例えば色、形状、材質に関する情報)や、被写体の表面の光の反射率に関する情報であってもよい。付加情報の他の具体例として、各被写体領域の被写体に対して光を照射する光源に関する情報(例えば光源における光の色味、光の強さ、光源の位置に関する情報、光源の数)がある。このような情報は、例えば光源に関する深層学習や機械学習による学習済みモデルを用いることで取得されてもよい。
 付加情報の他の具体例として、各被写体領域のける被写体が他の被写体と接触しているか否かに関する情報がある。このような情報は、3Dモデルと状態パラメータとを用いることによって、各被写体の表面のうち最も近い部分の距離が所定の値よりも小さいか否かに基づいて取得されてもよい。付加情報取得部146は、生成された付加情報のデータを、対象画像の識別情報とその付加情報が示す被写体の識別情報と対応付けた画像情報として画像情報記憶部132に記録する。
 符号化部147は、背景領域97の画像(以下「背景画像」という。)を生成する。背景画像において、背景領域97の各画素は、対象画像における背景領域97と同じ画素値を持つ。一方、背景画像において、背景領域97以外の各画素(すなわち被写体領域の各画素)は、予め定められた所定の画素値を有してもよいし、画素値のデータを持たないように構成されてもよい。予め定められた所定の画素値が用いられる場合、所定の1種類の色で全ての被写体領域が塗りつぶされていてもよいし、背景画像全体の符号量が最小となるように設定された画素値が与えられてもよい。背景画像の生成には、符号量の削減のために、任意の画像符号化処理が適用されてもよい。
 符号化部147は、生成された背景画像と、3Dモデルと、各被写体領域の状態パラメータと、を含む符号化データを生成する。符号化部147は、背景画像、3Dモデル、状態パラメータそれぞれに対して所定の符号化処理を行ってもよい。符号化部147は、背景画像、3Dモデル及び状態パラメータを含む1つのデータに対して所定の符号化処理を行ってもよい。そして、符号化部147は、符号化データを符号化データ記憶部133に記録する。
 図6は、画像符号化装置100の処理の具体例を示す図である。まず、入出力制御部141が、処理の対象となる対象画像を入力し、画像記憶部131に記録する(ステップS101)。領域情報取得部142が、対象画像において被写体領域を示す領域情報を被写体毎に取得し、画像情報記憶部132に記録する(ステップS102)。分類部143が、各被写体を分類する(ステップS103)。三次元情報取得部144は、同一のグループに分類された複数の被写体の情報を用いることによって、その被写体の3Dモデルを生成し、生成された3Dモデルのデータを画像情報記憶部132に記録する(ステップS104)。状態パラメータ取得部145は、各被写体について状態パラメータを生成し、状態パラメータを画像情報記憶部132に記録する(ステップS105)。付加情報取得部146は、各被写体について付加情報を取得し、画像情報記憶部132に記録する(ステップS106)。符号化部147は、符号化データを生成して符号化データ記憶部133に記録する(ステップS107)。
 図7は、本発明の画像復号装置200の機能構成例を示す図である。画像復号装置200は、パーソナルコンピューター、サーバー装置、ゲーム機器、スマートフォン、撮像装置等の情報機器を用いて構成される。画像復号装置200は、入力部21、出力部22、記憶部23及び制御部24を備える。
 入力部11は、画像復号装置200に対して入力される符号化データを受け付ける。入力部21によって入力される符号化データは、静止画像のデータであってもよいし、動画像のデータであってもよい。入力部21は、例えばCD-ROMやUSBメモリー(Universal Serial Bus Memory)等の記録媒体に記録された符号化データを読み出しても良い。また、入力部21は、スチルカメラやビデオカメラによって撮像されて記録された符号化データを、カメラから受信しても良い。また、画像復号装置200がスチルカメラやビデオカメラ若しくはカメラを備えた情報処理装置に内蔵されている場合は、入力部21は撮像されて記録された符号化データをバスから受信しても良い。また、入力部21は、ネットワークを介して他の情報処理装置から符号化データを受信しても良い。入力部21は、符号化データの入力を受けることが可能な構成であれば、さらに異なる態様で構成されても良い。
 出力部22は、制御部24によって生成された画像のデータを出力する。出力部22は、例えばCD-ROMやUSBメモリー(Universal Serial Bus Memory)等の記録媒体に対して画像のデータを書き込んでも良い。また、画像復号装置200がスチルカメラやビデオカメラ若しくはカメラを備えた情報処理装置に内蔵されている場合は、出力部22は生成された画像データを、これらの機器に備えられた記録媒体に記録してもよいし、表示装置に表示してもよい。また、出力部22は、ネットワークを介して他の情報処理装置に対し画像データを送信しても良い。出力部22は、画像表示装置に対して画像を表示させてもよい。この場合、出力部22は、制御部24によって画像データに基づいて生成された画像信号を画像表示装置に対して出力してもよい。出力部22は、画像データを出力することが可能な構成であれば、さらに異なる態様で構成されても良い。
 記憶部23は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。記憶部23は、例えば符号化データ記憶部231及び画像記憶部232として機能する。符号化データ記憶部231は、入力部21から入力された符号化データを記憶する。画像記憶部232は、制御部24によって生成された画像データを記憶する。画像記憶部232は、静止画像のデータを記憶してもよいし、動画像のデータを記憶してもよい。
 制御部24は、CPU等のプロセッサーとメモリーとを用いて構成される。制御部24は、プロセッサーがプログラムを実行することによって、入出力制御部241、復号部242、被写体画像生成部243及び合成部244として機能する。なお、制御部24の各機能の全て又は一部は、ASICやPLDやFPGA等のハードウェアを用いて実現されても良い。上記のプログラムは、コンピューター読み取り可能な記録媒体に記録されても良い。コンピューター読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM、半導体記憶装置(例えばSSD)等の可搬媒体、コンピューターシステムに内蔵されるハードディスクや半導体記憶装置等の記憶装置である。上記のプログラムは、電気通信回線を介して送信されてもよい。
 入出力制御部241は、データの入出力を制御する。例えば、入出力制御部241は、入力部21の動作を制御することによって、符号化データを取得する。入出力制御部241は、入力された符号化データを符号化データ記憶部231に記録する。入出力制御部241は、入力された符号化データを必要に応じてメモリーなどの記憶装置に一時的に記録してもよい。入出力制御部241は、画像記憶部232に記憶されている画像のデータを、出力部22を制御することによって外部の機器に出力する。入出力制御部241は、例えば画像記憶部232に記憶されている画像のデータを画像信号に変換し、出力部22を制御することによって外部の画像表示装置に出力してもよい。
 復号部242は、符号化データに対し、画像符号化装置100において実行される符号化処理に応じた復号処理を行うことによって、背景画像、3Dモデル及び各被写体領域の状態パラメータと、を取得する。
 被写体画像生成部243は、3Dモデル及び各被写体領域の状態パラメータに基づいて、各被写体領域における被写体の画像を生成する。例えば被写体それぞれの位置を表すように状態パラメータを用いて3Dモデルに対し座標変換を行うことで、各被写体領域の画像が生成されてもよい。
 図8は、被写体領域の画像の生成の概略を示す図である。図8において、視点86_1は、図3の対象画像における視点である。対象画像における座標(i_1,j_1)の画素には、被写体82に関する値が入る。このように、対象画像における視点86_1に基づいて3Dモデルに座標変換を行うことで、被写体領域の各座標の画素値が得られる。被写体領域の全ての座標の画素値が得られることで、被写体領域の画像を生成することができる。
 合成部244は、復号部242で得られた背景画像と、被写体画像生成部243で得られた各被写体領域の画像と、を合成することによって、画像を生成する。生成される画像は、原則として対象画像と一致又は類似の画像である。合成部244は、合成によって得られた画像のデータを画像記憶部232に記録する。
 図9は、画像復号装置200の処理の具体例を示す図である。まず、入出力制御部241が、処理の対象となる符号化データを入力し、符号化データ記憶部231に記録する(ステップS201)。復号部242は、符号化データを復号することによって、背景画像、3Dモデル及び各被写体領域の状態パラメータを取得する(ステップS202)。被写体画像生成部243は、3Dモデル及び各被写体領域の状態パラメータに基づいて各被写体の被写体画像を生成する(ステップS203)。合成部244は、背景画像と各被写体の被写体画像とを合成することで画像データを生成し、画像データを画像記憶部232に記録する(ステップS204)。入出力制御部241は、画像記憶部232に記録されている画像データを外部へ出力する(ステップS205)。
 図10は、画像符号化装置100のハードウェア構成の具体例を示す図である。画像符号化装置100は、例えば図10に示されるように入出力装置1_1、補助記憶装置2_1、メモリー3_1及びプロセッサー4_1を備える。入出力装置1_1は、画像符号化装置100において外部(ユーザー含む)との間で情報(データを含む)の入出力を行う。入出力装置1_1は、例えば画像入力部11や出力部12として機能する。補助記憶装置2_1は、磁気ハードディスク装置や半導体記憶装置を用いて構成される。補助記憶装置2_1は、例えば記憶部13として機能する。メモリー3_1及びプロセッサー4_1は、例えば制御部14として機能する。
 図11は、画像復号装置200のハードウェア構成の具体例を示す図である。画像復号装置200は、例えば図11示されるように入出力装置1_2、補助記憶装置2_2、メモリー3_2及びプロセッサー4_2を備える。入出力装置1_2は、画像復号装置200において外部(ユーザー含む)との間で情報(データを含む)の入出力を行う。入出力装置1_2は、例えば入力部21や出力部22として機能する。補助記憶装置2_2は、磁気ハードディスク装置や半導体記憶装置を用いて構成される。補助記憶装置2_2は、例えば記憶部23として機能する。メモリー3_2及びプロセッサー4_2は、例えば制御部24として機能する。
 このように構成された画像符号化装置100では、処理の対象となる画像内の被写体について、たとえ実際には別個の被写体であっても、分類部143によって同種の被写体として分類された被写体であれば、それらの被写体の画像を用いて画像の三次元情報(例えば3Dモデル)が取得される。そのため、もし同種の被写体が1つの画像に複数存在すれば、それぞれ別個の被写体としては少ない画像しか存在しないとしても、それら少ない画像を用いてより精度の高い三次元情報を取得することが可能となる。
 また、このように構成された画像符号化装置100では、画像内の全ての被写体について背景画像と同様の符号化処理が行われるのではなく、画像内の少なくとも一部の被写体については、3Dモデル及び状態パラメータを用いて符号化データが生成される。3Dモデル及び状態パラメータは、背景画像と同様の符号化処理によって生成される符号化データよりも少ないデータ量で表現することが可能である。そのため、このように構成されることで、対象画像の符号化データの生成において、符号化データのデータ量を削減し、画像データの符号化効率を向上させることが可能となる。
 また、このように構成された画像符号化装置100では、同種の被写体について共通して1つの3Dモデルが利用されれば十分である。そのため、たとえ複数の被写体が1つの画像に写っていたとしても、同種の被写体に関してはそれらに対して1つの3Dモデルのデータを符号化データとしてもつことができれば復号することができる。このように符号化データが構成されることによって、符号化効率をさらに向上させることが可能となる。
 同様に、複数の静止画像の符号化データにおいて、同種の被写体に関して1つの3Dモデルのデータをもつことができれば復号することができる。このように符号化データが構成されることによって、符号化効率をさらに向上させることが可能となる。また、1又は複数の動画像の符号化データにおいても、同種の被写体に関して1つの3Dモデルのデータをもつことができれば復号することができる。このように符号化データが構成されることによって、符号化効率をさらに向上させることが可能となる。
 (変形例)
 画像符号化装置100は、複数の装置に分けて実装されてもよい。この場合、例えば画像符号化装置100は、複数の装置を含む画像符号化システムとして実装されてもよい。例えば、制御部14を有する情報処理装置と、記憶部13を有する情報処理装置とが異なる装置として実装されてもよいし、記憶部13の機能が重複して複数の情報処理装置に実装されてもよいし、制御部14の機能が複数の情報処理装置に分けて実装されてもよい。
 画像復号装置200は、複数の装置に分けて実装されてもよい。この場合、例えば画像復号装置200は、複数の装置を含む画像情復号システムとして実装されてもよい。例えば、制御部24を有する情報処理装置と、記憶部23を有する情報処理装置とが異なる装置として実装されてもよいし、記憶部23の機能が重複して複数の情報処理装置に実装されてもよいし、制御部24の機能が複数の情報処理装置に分けて実装されてもよい。
 以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
 本発明は、画像の情報を取得する装置に適用可能である。
100…画像符号化装置、11…画像入力部、12…出力部、13…記憶部、131…画像記憶部、132…画像情報記憶部、133…符号化データ記憶部、14…制御部、141…入出力制御部、142…領域情報取得部、143…分類部、144…三次元情報取得部、145…状態パラメータ取得部、146…付加情報取得部、147…符号化部、200…画像復号装置、21…入力部、22…出力部、23…記憶部、231…符号化データ記憶部、232…画像記憶部、24…制御部、241…入出力制御部、242…復号部、243…被写体画像生成部、244…合成部、81~86…被写体、91~96…被写体領域、97…背景領域

Claims (7)

  1.  処理対象の画像である対象画像から、前記対象画像に写っている被写体を同種の被写体に分類する分類部と、
     前記分類部によって同種の被写体として分類された複数の被写体の画像に基づいて、前記被写体の三次元形状を示す情報を取得する三次元情報取得部と、
     前記被写体毎に、前記対象画像の三次元空間における位置及び姿勢を示す情報である状態パラメータを取得する状態パラメータ取得部と、
     前記三次元形状を示す情報と、被写体毎の前記状態パラメータと、前記対象画像うち前記被写体が写っていない部分の画像である背景画像と、を含む符号化データを生成する符号化部と、
     を備える画像符号化装置。
  2.  前記対象画像から前記被写体毎にその被写体の画像が占める領域を示す情報である領域情報を取得する領域情報取得部をさらに備え、
     前記符号化部は、前記対象画像から前記領域情報が示す領域の画像を除くことで前記背景画像を生成する、請求項1に記載の画像符号化装置。
  3.  処理対象の画像である対象画像から、前記対象画像に写っている被写体を同種の被写体に分類する分類ステップと、
     前記分類ステップにおいて同種の被写体として分類された複数の被写体の画像に基づいて、前記被写体の三次元形状を示す情報を取得する三次元情報取得ステップと、
     前記被写体毎に、前記対象画像の三次元空間における位置及び姿勢を示す情報である状態パラメータを取得する状態パラメータ取得ステップと、
     前記三次元形状を示す情報と、被写体毎の前記状態パラメータと、前記対象画像うち前記被写体が写っていない部分の画像である背景画像と、を含む符号化データを生成する符号化ステップと、
     を有する画像符号化方法。
  4.  処理対象の画像である対象画像から、前記対象画像に写っている被写体を同種の被写体に分類する分類部と、前記分類部によって同種の被写体として分類された複数の被写体の画像に基づいて、前記被写体の三次元形状を示す情報を取得する三次元情報取得部と、前記被写体毎に、前記対象画像の三次元空間における位置及び姿勢を示す情報である状態パラメータを取得する状態パラメータ取得部と、前記三次元形状を示す情報と、被写体毎の前記状態パラメータと、前記対象画像うち前記被写体が写っていない部分の画像である背景画像と、を含む符号化データを生成する符号化部と、を備える画像符号化装置によって生成された前記符号化データから前記背景画像と、前記三次元形状を示す情報と、前記状態パラメータとを取得する復号部と、
     前記三次元形状を示す情報と前記状態パラメータとを用いて、前記対象画像における各被写体の画像を生成する被写体画像生成部と、
     前記被写体画像生成部によって生成された画像と前記背景画像と、を合成することで画像のデータを生成する合成部と、
    を備える画像復号装置。
  5.  処理対象の画像である対象画像から、前記対象画像に写っている被写体を同種の被写体に分類する分類部と、前記分類部によって同種の被写体として分類された複数の被写体の画像に基づいて、前記被写体の三次元形状を示す情報を取得する三次元情報取得部と、前記被写体毎に、前記対象画像の三次元空間における位置及び姿勢を示す情報である状態パラメータを取得する状態パラメータ取得部と、前記三次元形状を示す情報と、被写体毎の前記状態パラメータと、前記対象画像うち前記被写体が写っていない部分の画像である背景画像と、を含む符号化データを生成する符号化部と、を備える画像符号化装置によって生成された前記符号化データから前記背景画像と、前記三次元形状を示す情報と、前記状態パラメータとを取得する復号ステップと、
     前記三次元形状を示す情報と前記状態パラメータとを用いて、前記対象画像における各被写体の画像を生成する被写体画像生成ステップと、
     前記被写体画像生成ステップにおいて生成された画像と前記背景画像と、を合成することで画像のデータを生成する合成ステップと、
    を有する画像復号方法。
  6.  請求項1又は2に記載の画像符号化装置としてコンピューターを機能させるためのコンピュータープログラム。
  7.  請求項4に記載の画像復号装置としてコンピューターを機能させるためのコンピュータープログラム。
PCT/JP2020/042077 2020-11-11 2020-11-11 画像符号化装置、画像符号化方法、画像復号装置、画像復号方法及びコンピュータープログラム WO2022102016A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/042077 WO2022102016A1 (ja) 2020-11-11 2020-11-11 画像符号化装置、画像符号化方法、画像復号装置、画像復号方法及びコンピュータープログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/042077 WO2022102016A1 (ja) 2020-11-11 2020-11-11 画像符号化装置、画像符号化方法、画像復号装置、画像復号方法及びコンピュータープログラム

Publications (1)

Publication Number Publication Date
WO2022102016A1 true WO2022102016A1 (ja) 2022-05-19

Family

ID=81600923

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/042077 WO2022102016A1 (ja) 2020-11-11 2020-11-11 画像符号化装置、画像符号化方法、画像復号装置、画像復号方法及びコンピュータープログラム

Country Status (1)

Country Link
WO (1) WO2022102016A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03125585A (ja) * 1989-10-11 1991-05-28 Mitsubishi Electric Corp 画像信号の符号復号化器
JPH08153210A (ja) * 1994-11-30 1996-06-11 Sony Corp 動画像符号化装置および動画像復号装置
JP2009273116A (ja) * 2008-04-07 2009-11-19 Fujifilm Corp 画像処理装置、画像処理方法、およびプログラム
JP2020135679A (ja) * 2019-02-25 2020-08-31 富士通株式会社 データセット作成方法、データセット作成装置、及びデータセット作成プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03125585A (ja) * 1989-10-11 1991-05-28 Mitsubishi Electric Corp 画像信号の符号復号化器
JPH08153210A (ja) * 1994-11-30 1996-06-11 Sony Corp 動画像符号化装置および動画像復号装置
JP2009273116A (ja) * 2008-04-07 2009-11-19 Fujifilm Corp 画像処理装置、画像処理方法、およびプログラム
JP2020135679A (ja) * 2019-02-25 2020-08-31 富士通株式会社 データセット作成方法、データセット作成装置、及びデータセット作成プログラム

Similar Documents

Publication Publication Date Title
KR102431117B1 (ko) 포인트 클라우드 맵핑
EP2850835B1 (en) Estimation, encoding and decoding of motion information in multidimensional signals through motion zones, and of auxiliary information through auxiliary zones
JP2023514853A (ja) 投影ベースのメッシュ圧縮
CN110998669A (zh) 图像处理装置和方法
JP2023544618A (ja) ビデオベースのメッシュ圧縮
JP7371691B2 (ja) ホモグラフィ変換を使用した点群符号化
US10735766B2 (en) Point cloud auxiliary information coding
WO2022208440A1 (en) Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
US20210092345A1 (en) Unified coding of 3d objects and scenes
WO2022102016A1 (ja) 画像符号化装置、画像符号化方法、画像復号装置、画像復号方法及びコンピュータープログラム
KR101566459B1 (ko) 이미지 기반의 비주얼 헐에서의 오목 표면 모델링
JP2020166652A (ja) 画像処理装置、画像処理方法及びプログラム
US11989821B2 (en) Arbitrary view generation
US11989820B2 (en) Arbitrary view generation
WO2022102015A1 (ja) 画像情報取得装置、画像情報取得方法及びコンピュータープログラム
CN117561715A (zh) 多平面图像的生成、数据处理、编码和解码方法、装置
CN112806015B (zh) 全向视频的编码和解码
JP7410289B2 (ja) 任意ビューの生成
Licandro et al. 11.1 What is Computer Vision?
CN117671159A (zh) 三维模型的生成方法及装置、设备、存储介质
CN116894929A (zh) 从单张单目图像重建完整三维牙齿的方法、设备及存储介质
CN118317113A (en) Encoding and decoding of omni-directional video

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20961544

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20961544

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP