WO2018221092A1 - 画像処理装置、画像処理システム、および画像処理方法、並びにプログラム - Google Patents

画像処理装置、画像処理システム、および画像処理方法、並びにプログラム Download PDF

Info

Publication number
WO2018221092A1
WO2018221092A1 PCT/JP2018/016827 JP2018016827W WO2018221092A1 WO 2018221092 A1 WO2018221092 A1 WO 2018221092A1 JP 2018016827 W JP2018016827 W JP 2018016827W WO 2018221092 A1 WO2018221092 A1 WO 2018221092A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
image processing
unit
subject
input
Prior art date
Application number
PCT/JP2018/016827
Other languages
English (en)
French (fr)
Inventor
岡田 良平
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to KR1020197033622A priority Critical patent/KR20200014280A/ko
Priority to CN201880034107.4A priority patent/CN110663066A/zh
Priority to US16/606,844 priority patent/US20200082595A1/en
Priority to EP18810322.0A priority patent/EP3633624A4/en
Priority to JP2019522035A priority patent/JPWO2018221092A1/ja
Publication of WO2018221092A1 publication Critical patent/WO2018221092A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/04Texture mapping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • G06T15/506Illumination models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • G06T15/80Shading
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/08Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation

Definitions

  • the present disclosure relates to an image processing apparatus, an image processing system, an image processing method, and a program. More specifically, the present invention relates to an image processing apparatus, an image processing system, an image processing method, and a program that execute rendering of a three-dimensional (3D) image.
  • Patent Document 1 Japanese Patent Laid-Open No. 2012-185624 discloses a three-dimensional face model data generation apparatus that draws a high-quality human face at a low calculation cost.
  • Patent Document 1 after acquiring facial expression data, only the face portion of a person is cut out, and a texture corresponding to the face shape deformed according to the facial expression is pasted, so that high quality and uncomfortable feeling is obtained.
  • An apparatus for generating and displaying a non-three-dimensional face image is disclosed.
  • Patent Document 2 Japanese Patent Laid-Open No. 2010-113548 describes a polygon three-dimensional graphics drawing apparatus that employs a texture mapping method. By providing texture data with coefficients related to object reflection, it is possible to express a plurality of different reflections in one polygon, and an apparatus capable of expressing a more advanced object texture with less model data Disclosure.
  • Patent Document 1 describes a process of rendering a face texture cut out from a person image by pasting it on a face model. For example, the reflection characteristic is changed for each part having different characteristics. Since this is not taken into consideration, an unnatural 3D image may be displayed when displayed under conditions different from the illumination environment at the time of shooting.
  • the technique described in Patent Document 2 realizes fine texture expression by holding material parameters indicating the material of an object such as a reflection coefficient in texture data and performing rendering using them.
  • the configuration described in Patent Document 2 is a configuration in which one material parameter is associated with texture data and recorded in advance. Therefore, there is a problem that only a unique texture can be expressed for each texture. Specifically, for example, there is a problem that an optimum texture expression according to the light source direction cannot be performed.
  • the present disclosure has been made in view of the above-described problems, for example, and includes an image processing apparatus, an image processing system, an image processing method, and an image processing method that realize display processing of a more natural reality three-dimensional (3D) image, and A program is provided.
  • An embodiment of the present disclosure inputs a photographed image of a person to be displayed, analyzes attributes such as the sex and age of the person from the input photographed image (texture), and further includes a facial organ, a skin region, and a body part Detects feature quantities such as hair and clothes. Furthermore, by automatically generating a texture map for material setting suitable for the subject and a mask image for specifying the application range of the material from a template database prepared in advance, an appropriate human 3D image model data can be obtained. The material is automatically set in real time, making it possible to realize realistic rendering.
  • customization information indicating what kind of CG effect the user wants to give is acquired in advance, and an input texture (captured image) ) To detect feature quantities of facial organs, skin regions, body parts, hair, clothes, and the like. Then, by automatically generating a texture map for material setting and a mask image for specifying the application range of the material from the template database associated with the user selection, an appropriate material can be generated in real time for any person 3D image model data. It is possible to automatically set and realize the rendering preferred by the user.
  • the first aspect of the present disclosure is: An image processing unit that executes a three-dimensional image generation process based on the input image;
  • the image processing unit Referring to a template database that is correspondence data between subject attribute information of the input image and a material that is a rendering element of the three-dimensional image, a material corresponding to the subject attribute is selected, and a three-dimensional image generation process is executed. It is in the image processing apparatus.
  • the second aspect of the present disclosure is: A transmission device for transmitting images; A receiving device that performs processing on an input image from the transmitting device, generates a three-dimensional image, and displays it on a display unit;
  • the image processing unit of the receiving device includes: Referring to a template database that is correspondence data between the subject attribute information of the input image and the material that is a rendering element of the three-dimensional image, the material corresponding to the subject attribute is selected and the three-dimensional image generation processing is executed.
  • a template database that is correspondence data between the subject attribute information of the input image and the material that is a rendering element of the three-dimensional image, the material corresponding to the subject attribute is selected and the three-dimensional image generation processing is executed.
  • the third aspect of the present disclosure is: An image processing method executed in an image processing apparatus,
  • the image processing apparatus includes: An image processing unit that executes a three-dimensional image generation process based on the input image;
  • the image processing unit Referring to a template database that is correspondence data between subject attribute information of the input image and a material that is a rendering element of the three-dimensional image, a material corresponding to the subject attribute is selected, and a three-dimensional image generation process is executed.
  • the fourth aspect of the present disclosure is: A program for executing image processing in an image processing apparatus;
  • the image processing apparatus includes: An image processing unit that executes a three-dimensional image generation process based on the input image;
  • the program is stored in the image processing unit.
  • a material corresponding to the subject attribute is selected with reference to a template database that is correspondence data between the subject attribute information of the input image and the material that is a rendering element of the three-dimensional image, and a three-dimensional image generation process is executed.
  • a template database that is correspondence data between the subject attribute information of the input image and the material that is a rendering element of the three-dimensional image
  • the program of the present disclosure is a program that can be provided by, for example, a storage medium or a communication medium provided in a computer-readable format to an image processing apparatus or a computer system that can execute various program codes.
  • a program in a computer-readable format, processing corresponding to the program is realized on the image processing apparatus or the computer system.
  • system is a logical set configuration of a plurality of devices, and is not limited to one in which the devices of each configuration are in the same casing.
  • an apparatus and a method that enable 3D image generation based on an input image in real time are realized. Specifically, for example, a processing process is performed on each image frame of the input image to generate a three-dimensional image.
  • a three-dimensional image is generated by selecting a material corresponding to the subject attribute with reference to a template database that is correspondence data between the attribute information of the subject of the input image and the material that is a rendering element of the three-dimensional image.
  • the material for each component of the human face is recorded, and the image processing unit applies the mask image for each component of the face, acquires the material for each component from the template database, Executes material setting for each face component.
  • FIG. 3 is a diagram illustrating an example of a hardware configuration of multiple image processing apparatuses.
  • Rendering performed as a three-dimensional image drawing process is performed by a “material” setting process for “mesh”, which is a divided region of the three-dimensional model.
  • the mesh is a polygonal region such as a triangle or a quadrangle that is a fine divided region of the three-dimensional model.
  • “Material” is generally a material of an object, but in computer graphics (CG) performed as a three-dimensional image drawing process, an optical characteristic, a material feeling as a characteristic of an object. Definition information, which has the meaning of the material set for the object.
  • elements to be rendered include human skin, eyeballs, mouth, hair, clothes, and the like.
  • Each of these elements is divided into multiple meshes for each part with different characteristics, and the optimal material is set for each mesh, that is, the optimal optical characteristics and texture are set, so that realistic 3D model data can be obtained. Can be generated.
  • the image processing apparatus generates and displays a CG-processed 3D image based on, for example, an image of a subject received via a network, for example, a person.
  • the captured image and the mesh of the captured image of the person are updated every frame.
  • a process for setting an appropriate material for a part such as skin, eyeball, lips, hair, and clothes is performed to generate and display a 3D image in real time.
  • a method of creating a mesh by fitting a SCAPE (Shape Completion and Animation of People) model, which is a statistical human body shape model, to a subject image is known.
  • SCAPE Shape Completion and Animation of People
  • the position of the facial organ and the like are acquired from the base model, and a 3D image corresponding to the base model is generated.
  • the obtained information is only a captured image (texture image) that is an image of a screen space and a mesh
  • face organ detection, feature point detection, semantic segmentation, etc. are executed from the captured image of the screen space to generate a mask image for each material unit to be set, determine the application range of the material, and then material Execute the setting process. Specific processing of this disclosure will be described in detail later.
  • “material” is definition information of optical characteristics and material feeling as characteristics of an object.
  • “Material” corresponds to a material set for an object (object) constituting each mesh of the three-dimensional model. For example, When the 3D model is composed of different materials such as metal, wood, human skin, hair, etc., the mesh needs to be divided into these material units. It is necessary to set a “material” that matches the material of the substance.
  • shader is an algorithm that calculates the intensity of reflected light, that is, the intensity of reflected light that occurs on the surface of an object when light is applied to the object. For each pixel (pixel) in the mesh based on the light source and material to be set, This algorithm calculates the drawing color.
  • Basic shaders include Lambert shaders, phone shaders, blink shaders, and the like.
  • shaders for human expression include skin shaders, hair shaders, eyeball shaders, and the like.
  • Realistic 3D model data can be generated by setting a material that is close to the actual material of the mesh, specifically, a texture or shader, for the mesh that is a component of the 3D model. .
  • the texture is image data that can be generated by combining a plurality of texture maps each having a different effect. As shown in FIG. 2, there are the following types of texture maps, for example. (1) Base color map (2) Shininess map (3) Normal map (4) Cavity map (5) Metallic map
  • a base color map is color information that serves as a basis (picture).
  • a Shininess map is a texture map that controls the smoothness of a substance, and the specular (specular reflection) becomes sharper as the brightness increases. Black (0, 0) is complete diffuse reflection, and white (1, 0) is complete specular reflection. Specifically, it is the glossiness, and for example, it can express the difference in shine for each part of the face.
  • a normal map is a texture map that expresses fine irregularities, and can express fine irregularities of a face such as wrinkles and moles.
  • the cavity map is used when it is desired to suppress the intensity of specular (specular reflection). For example, minute shades such as pores and spots can be generated.
  • the metallic map is a texture map used when the degree of metal is controlled, and black (0, 0) corresponds to non-metal and white (1, 0) corresponds to metal. For example, when applied to a metal part, a metal texture can be expressed.
  • the texture is image data that can be generated by synthesizing a plurality of texture maps each having a different effect.
  • an optimum material corresponding to the person's skin characteristics is set in a mesh area corresponding to the skin area of the face.
  • this rendering process which texture map is used and what kind of CG effect is given, a designer performs various studies in advance to perform rendering.
  • the processing of the present disclosure solves such a problem. That is, for example, when a three-dimensional image model with a computer graphic (CG) effect is rendered in real time on a video received via a network, a realistic and realistic natural image is generated. Is possible. In addition, for example, a virtual make-up in which a three-dimensional image based on one's face is displayed on a display unit and a computer graphic (CG) effect is applied to the display image is enabled.
  • CG computer graphic
  • FIG. (A) A system configuration in which a 3D model based on a photographed image is generated on the transmission device side and transmitted to the reception device, and a 3D image for display is generated and displayed on the reception device side will be described.
  • the image processing system shown in FIG. 3 shoots images with a plurality of cameras (multi-camera) on the transmission device 110 side, generates depth data (distance information), and uses the captured image and the depth data to capture a captured frame.
  • This is a configuration for generating a textured 3D model by executing the 3D modeling process for each.
  • the transmission device 110 transmits the generated 3D model for each frame to the reception device 120.
  • the receiving apparatus 120 generates and displays a 3D image for display using the received 3D model.
  • the image processing system illustrated in FIG. 3 includes a transmission device 110 and a reception device 120.
  • the transmission device 110 generates a 3D model from the photographed subject image and transmits the 3D model to the reception device 120 via the network 30.
  • the reception device 120 generates a three-dimensional (3D) image obtained by performing computer graphics (CG) processing on the subject image received from the transmission device 110 and displays the 3D image 30 on the display unit 124.
  • CG computer graphics
  • an image acquisition unit 111 having a camera captures an input video of the subject 10.
  • the image acquisition unit 111 includes a plurality of cameras (RGB, depth), and acquires RGB images and depth images obtained by photographing the subject 10 from various angles. In other words, images are taken from various angles necessary to generate a three-dimensional image of the subject 10.
  • the captured image of the image acquisition unit 111 is input to the three-dimensional model information generation unit 113 and the transmission information generation unit 114.
  • the 3D model information generation unit 113 generates 3D model information of the subject based on the captured image of the subject 10.
  • the three-dimensional model information generated by the three-dimensional model information generation unit 113 includes mesh data 131, texture information 132, and UV map 133 in data shown as transmission data 130 in FIG.
  • the mesh data 131 is a polygonal region such as a triangle or a quadrangle, which is a finely divided region of the three-dimensional model. By setting a material on this mesh, drawing processing and rendering of a three-dimensional image are performed.
  • the texture information 132 is texture material information to be pasted on the mesh data 131.
  • the UV map 133 is coordinate information necessary for performing a process of attaching a texture to mesh data, that is, so-called texture mapping.
  • the transmission information generation unit 114 generates the attribute information 134 and the feature point information 135 of the subject 10 in addition to the 3D model information (mesh data 131, texture information 132, UV map 133) generated by the 3D model information generation unit 113. Then, the data is transmitted via the communication unit 115.
  • the attribute information 134 is, for example, information on gender, age, race, skin quality, and constituent parts (mouth, eyes, nose, etc.).
  • the attribute information can be obtained by image analysis, but information input by the user in the transmission device 110 may be used.
  • the feature point information 135 is, for example, a feature point indicating a part of the subject 10 such as eyes, nose, cheeks, facial organs such as clothes. This is because the feature point extraction is performed based on the captured image of the image acquisition unit 111.
  • the transmission information generation unit 114 includes the three-dimensional model information (mesh data 131, texture information 132, UV map 133) generated by the three-dimensional model information generation unit 113, the attribute information 134 of the subject 10, and the feature points.
  • the information 135 is transmitted to the receiving device 120 via the communication unit 115 and the network 20.
  • the attribute information 134 may be transmitted only once when the subject 10 is the same. Other information is sequentially transmitted every time an image frame is transmitted.
  • the receiving device 120 receives each of the above data from the transmitting device 110 and applies the received data in the image processing unit 122 to the computer 10 for the image (texture) of the subject 10 received from the transmitting device 110.
  • a three-dimensional image that has been processed by graphics (CG) processing is generated, and the 3D image 30 is displayed on the display unit 124.
  • a three-dimensional image that is the basis of the subject 10 is generated, a storage process for the database 123, or the like is performed as a preliminary process.
  • a three-dimensional image display process by the real-time processing is performed.
  • the real-time processing there is processing for generating a three-dimensional image obtained by subjecting a subject image received from the transmission device 110 to processing in real time by computer graphics (CG) processing and displaying the 3D image 30 on the display unit. Done.
  • CG computer graphics
  • this real-time processing for example, an optimal material is set according to the subject attribute information, and a more natural three-dimensional image is generated and displayed.
  • the configuration example of the image processing system of the present disclosure illustrated in FIG. 3 generates three-dimensional model information (mesh data 131, texture information 132, UV map 133) on the transmission device 110 side, and transmits the three-dimensional model information to the reception device 120.
  • three-dimensional model information messages data 131, texture information 132, UV map 133
  • a system configuration in which the generation process of the three-dimensional model information is executed on the receiving device 120 side may be employed.
  • FIG. (B) System configuration for transmitting a captured image and depth data from a transmission device to a reception device, generating a 3D model on the reception device side, and generating and displaying a 3D image for display by applying the generated 3D model Will be described.
  • the image processing system shown in FIG. 4 captures images (RGB, depth) with a plurality of cameras (multi-camera) on the transmission device 110 side, and transmits the captured image and depth data to the reception device 120 for each captured frame. Using the received captured image and depth data, the receiving device 120 executes a 3D modeling process for each captured frame to generate a textured 3D model. Further, the receiving device 120 generates and displays a 3D image for display using the generated 3D model.
  • the image processing system illustrated in FIG. 4 includes a transmission device 110 and a reception device 120.
  • the transmission device 110 captures a subject image and transmits it to the reception device 120 via the network 30.
  • the reception device 120 generates a three-dimensional (3D) image obtained by performing computer graphics (CG) processing on the subject image received from the transmission device 110 and displays the 3D image 30 on the display unit 124.
  • CG computer graphics
  • an image acquisition unit 111 having a camera captures an input video of the subject 10.
  • the image acquisition unit 111 includes a plurality of cameras, and acquires images obtained by photographing the subject 10 from various angles. In other words, images are taken from various angles necessary to generate a three-dimensional image of the subject 10.
  • the captured image of the image acquisition unit 111 is input to the transmission information generation unit 114.
  • the transmission information generation unit 114 generates captured image information 137 and depth information 136 acquired by the image acquisition unit 111, and further generates attribute information 134 and feature point information 135 of the subject 10 and transmits them via the communication unit 115.
  • the attribute information 134 may be transmitted only once when the subject 10 is the same. Other information is sequentially transmitted every time an image frame is transmitted.
  • the receiving device 120 receives each of the above data from the transmitting device 110 and applies the received data in the image processing unit 122 to the computer 10 for the image (texture) of the subject 10 received from the transmitting device 110.
  • a three-dimensional image that has been processed by graphics (CG) processing is generated, and the 3D image 30 is displayed on the display unit 124.
  • the image processing unit 122 of the reception device 120 includes a three-dimensional model information generation unit. That is, the image processing unit 122 generates three-dimensional model information of the subject based on the captured image of the subject 10.
  • the three-dimensional model information generated by the image processing unit 122 includes the mesh data, texture information, and UV map described above with reference to FIG.
  • the mesh data 131 is a polygonal region such as a triangle or a quadrangle, which is a finely divided region of the three-dimensional model. By setting a material on this mesh, drawing processing and rendering of a three-dimensional image are performed.
  • a three-dimensional image that is the basis of the subject 10 is generated, a storage process for the database 123, or the like is performed as a preliminary process.
  • a three-dimensional image display process by the real-time processing is performed.
  • the real-time processing there is processing for generating a three-dimensional image obtained by subjecting a subject image received from the transmission device 110 to processing in real time by computer graphics (CG) processing and displaying the 3D image 30 on the display unit. Done.
  • CG computer graphics
  • this real-time processing for example, an optimal material is set according to the subject attribute information, and a more natural three-dimensional image is generated and displayed.
  • FIG. 4 A specific processing example in which the configuration in which the three-dimensional model information generation unit is set is applied to the image processing unit 122 on the reception device 120 side illustrated in FIG. 4 will be described with reference to FIG.
  • a processing example in which a configuration in which a three-dimensional model information generation unit is set in the image processing unit 122 on the receiving device 120 side will be described.
  • the processing described below has been described with reference to FIG. Even in the configuration example in which the 3D model information generation unit is provided on the transmission device 110 side, only the execution subject of the process is different, and the same process can be applied.
  • the receiving device 120 receives from the transmitting device 110. Captured image information 137, Depth information 136, Attribute information 134, Feature point information 135, Enter this information.
  • the image processing unit 122 executes the following processing.
  • A1 Generation and correction of a three-dimensional (3D) model (such as removal of shadows and reflections)
  • A2 Mask image generation
  • a3) Subject attribute information acquisition
  • the image processing unit 122 executes, for example, the above processing.
  • (A1) 3D model generation and correction (such as removal of shadows and reflections) generates 3D model information of a subject based on a captured image of the subject 10 received from the transmission device 110. This is a process for correcting the texture information.
  • the generated three-dimensional model information includes mesh data, texture information, and a UV map.
  • the mesh data is a polygonal region such as a triangle or a quadrangle that is a fine divided region of the three-dimensional model. By setting a material on this mesh, drawing processing and rendering of a three-dimensional image are performed.
  • the texture information 132 is texture material information to be pasted on the mesh data 131.
  • the UV map is coordinate information necessary for performing a process of attaching a texture to mesh data, so-called texture mapping.
  • the image processing unit 122 corrects the generated texture information (such as removal of shadows and reflections) as necessary.
  • the receiving device 120 generates a 3D image for display by performing CG processing such as setting of material in units of mesh, that is, pasting of texture in units of mesh or setting of pixel values by a shader, on the generated 3D model.
  • CG processing such as setting of material in units of mesh, that is, pasting of texture in units of mesh or setting of pixel values by a shader
  • the texture image generated based on the captured image input from the receiving device may include shadows, reflections, and the like due to ambient light when the subject 10 is captured.
  • material settings that is, CG processing such as texture pasting
  • a texture image is corrected.
  • Mask image generation is a mask image generation process for hiding a region other than the material setting target when performing material setting in units of meshes. For example, when a 3D image model of a person is generated by CG processing, different materials such as a person's skin and hair need to be set for each part. A mask image for defining such a material setting range is generated. A specific mask image example and material setting example will be described later.
  • Subject attribute information acquisition processing is processing for acquiring attribute information of a subject photographed by the transmission apparatus 110.
  • Specific attribute information is, for example, information on gender, age, race, skin quality, and constituent parts (mouth, eyes, nose, etc.).
  • the attribute information can be obtained by image analysis, but information input by the user in the transmission device 110 may be used.
  • the subject attribute correspondence template database creation process is a database in which the subject attribute information and the material information such as texture are associated with each other. By storing this template database in the database 123 of the transmission device 120, a real-time 3D image model generation process can be performed at high speed. A specific example of the template database will be described later.
  • the image processing unit 122 of the reception device 120 illustrated in FIG. 5 performs the following processing.
  • A1 Generation of a 3D model, correction of a texture image (removal of shadows and reflections, etc.)
  • A2) Mask image generation
  • A3) Subject attribute information acquisition
  • A4) Creation of subject attribute correspondence template database
  • Data generated as a result of the above processing by the image processing unit 122 is stored in the database 123 as a storage unit. As shown in FIG. 5, the following information is stored in the database 123.
  • (B1) Mask image (b2) Subject attribute information (b3) Subject attribute correspondence template database These data are generated based on data received by the image processing unit 122 of the receiving device 120 shown in FIG. It is data.
  • the receiving device 120 receives real time processing, that is, data such as a subject image transmitted from the transmitting device 110, and displays the received data by performing CG processing in real time. Real-time processing for generating a 3D image for display and displaying it on the display unit is executed.
  • the image acquisition unit 111 on the transmission device 110 side captures a real-time image of the subject 10.
  • the captured image of the image acquisition unit 111 is input to the transmission information generation unit 114.
  • the transmission information generation unit 114 Captured image information 137, Depth information 136, Attribute information 134, Feature point information 135, These pieces of information are transmitted to the receiving device 120 via the communication unit 115 and the network 20.
  • the attribute information 134 may be transmitted only once when the subject 10 is not changed.
  • the receiving device 120 generates and displays a 3D image, which is an output video to be displayed on the display unit 124, using the above-described information that is effective from the transmitting device 110. Note that in the real-time processing, processing that generates and displays a CG-processed 3D image is performed by using the current captured image of the subject and applying the information acquired in the pre-processing and stored in the database 123.
  • FIG. 6 is a diagram illustrating a configuration example of an image processing apparatus, that is, an image processing apparatus 200 corresponding to the reception apparatus 120 illustrated in FIG.
  • the image processing apparatus 200 includes an image input unit (communication unit) 201, a user input unit (user IF) 202, an image processing unit 203, a storage unit (DB) 204, and a display unit 205.
  • the image input unit (communication unit) 201 corresponds to the communication unit 121 of the reception device 120 illustrated in FIGS. 4 and 5.
  • the user input unit (user IF) 202 is not shown in the reception device 120 illustrated in FIGS. 4 and 5, but is an input unit configured in the reception device 120.
  • the image processing unit 203 corresponds to the image processing unit 122 of the receiving device 120 illustrated in FIGS. 4 and 5.
  • the storage unit (DB) 204 corresponds to the database 123 of the receiving device 120 illustrated in FIGS. 4 and 5.
  • the display unit 205 corresponds to the display unit 124 of the receiving device 120 illustrated in FIGS. 4 and 5.
  • the image processing unit 203 includes an image information analysis unit 211, a mesh editing unit 212, a material application unit 213, and a rendering unit 214.
  • the image information analysis unit 211 includes a feature amount extraction unit 211a and an attribute analysis unit 211b.
  • the mesh editing unit 212 includes a mesh acquisition unit 212a, a mesh division unit 212b, and a model addition unit 212c.
  • the material application unit 213 includes a mask image generation unit 213a and a texture map generation unit 213b.
  • the storage unit (DB) 204 stores data acquired from the transmission apparatus 110 by the pre-processing described above with reference to FIG. 4 and data generated by the processing of the image processing unit 203. Furthermore, data generated by the image processing unit 203 in the real-time processing described with reference to FIG. 5 is also stored. An example of data stored in the storage unit (DB) 204 is shown in FIG.
  • the storage unit (DB) 204 stores a mask image 222, subject attribute information 223, a template database 224, and the like.
  • the mask image 222 is a mask image for masking other areas other than the material setting area in the mesh-compatible material setting process applied in the real-time processing.
  • detection of parts such as eyes, nose, cheeks, clothing, and other facial organs, feature point detection, and the like is performed from each of the captured images that differ from frame to frame received from the transmission device 110, and each part is detected.
  • the material setting process for each part is executed.
  • the mask image 222 is an image applied to masking for each subject component unit (part unit). Specific examples of mask images and application processing will be described later.
  • the subject attribute information 223 is information acquired in the processing described above with reference to FIG. Specific attribute information is, for example, information on gender, age, race, skin quality, and constituent parts (mouth, eyes, nose, etc.).
  • the attribute information can be obtained by image analysis, but information input by the user in the transmission device 110 or the reception device 120 may be used.
  • the attribute information includes subject attribute information and part attribute information.
  • the material is constituted by a texture map.
  • the subject attribute information is attribute information of a person who is a subject such as “sex”, “age”, “race”, “skin quality”, and the like.
  • the part attribute information is attribute information that becomes identification information of each part of a human face such as eyes, nose, eyebrows, cheeks, and the like. Such attribute information can be acquired based on the image data received from the transmission apparatus 110 in the pre-processing or the real-time processing, or may be acquired based on the user input information.
  • This template database is correspondence data between attribute information and material.
  • the image processing unit 203 of the image processing apparatus 200 performs a process of generating a 3D image with a CG effect by real-time processing
  • the image processing unit 203 refers to the template database and receives the subject received from the transmission apparatus 110. It is possible to immediately obtain a material to be set for a part such as an eye, a nose, or a cheek (teak) detected from an image, for example, a photographed image of a person.
  • 3D image generation can be performed as real-time processing.
  • the shader is an algorithm for calculating a drawing color for each pixel (pixel) in the mesh.
  • the texture is acquired from the template database, and the shader is subjected to calculation processing for each frame to determine the drawing color for each pixel in the mesh. Will do.
  • FIG. 8 shows a configuration example of the template database 204 set differently from the template database 224 shown in FIG.
  • the template database 224 shown in FIG. 8 records texture maps and shaders as materials. If the template database having the setting shown in FIG. 8 is used, shader information can be acquired from the template database in addition to the texture. Textures and pixels in the mesh in units of frames and subject components (parts). Each drawing color can be determined.
  • the processing according to the flowchart shown in FIG. 9 is executed under the control of a data processing unit including a controller having a CPU having a program execution function, for example, according to a program stored in the storage unit of the image processing apparatus. Is done.
  • the processing of each step in the flow shown in FIG. 9 will be described sequentially.
  • Step S101 First, the image input unit 201 of the image processing apparatus 200 inputs photographed image information 137 and depth information that are generation sources of 3D images. Note that the processing of steps S101 to S109 shown in this flow is executed for each image frame constituting the photographic video of the subject transmitted from the transmission device 110 shown in FIG. 5, for example. That is, in the final step S109, the rendering of the 3D image to which the CG effect is added in units of image frames transmitted from the transmission device 110 is performed.
  • step S102 the attribute analysis unit 211b of the image information analysis unit 211 analyzes the attributes (gender, age, skin quality, etc.) of the person of the subject based on the input photographed image.
  • the attribute information acquisition process is performed by analyzing the captured image information 137 and the 3D model information transmitted from the transmission device 110.
  • Specific attribute information includes, for example, information on gender, age, race, skin quality, component parts (mouth, eyes, nose, etc.) and the like. These attribute information can be obtained by image analysis, but user input information may be used.
  • Step S103 the feature amount extraction unit 211a determines each part of the subject (person) (face, eyes, nose, eyebrows, and skin region) based on the feature amount of the captured image input in step S101. , Body parts, hair, clothes, etc.) corresponding section areas are set.
  • FIG. 10 shows examples of feature points such as eyes, nostrils, and eyebrows that are facial organs.
  • feature points 1 to 17 are feature points indicating the face outline
  • Feature points 18 to 22 and 23 to 27 are feature points indicating the eyebrows.
  • Feature points 28 to 36 are feature points indicating the nose.
  • Feature points 37 to 48 are feature points indicating the eyes.
  • Feature points 49 to 68 are feature points indicating the mouth. For example, these feature points are detected from the image, and segmented areas corresponding to the respective parts (face organs such as eyes, nostrils, eyebrows, skin areas, body parts, hair, clothes, etc.) are set.
  • Semantic Segmentation can be used to detect a region such as a face region, a hand, hair, and clothes and to set a segmented region.
  • Step S104 Next, in step S ⁇ b> 104, the mask image generation unit 213 a generates a mask image to be applied in order to perform material setting for each divided region based on the feature amount.
  • the mask image is a mask image for masking other regions other than the material setting region in the mesh-compatible material setting processing applied in the real-time processing.
  • detection of parts such as eyes, nose, cheeks, clothing, and other facial organs, feature point detection, and the like is performed from each of the captured images that differ from frame to frame received from the transmission device 110, and each part is detected.
  • the material setting process for each part is executed.
  • the mask image is an image applied to masking of subject component units (part units).
  • FIG. 11 shows the following figures.
  • a face mask is a mask applied when setting a material for a face area in a subject image.
  • this face mask the image area other than the face area is masked.
  • the material is applied only to the face area and not applied to other areas.
  • the hand mask is a mask applied when setting the material for the hand region in the subject image.
  • the image area other than the hand area is masked.
  • the material is applied only to the hand region and not applied to the other regions.
  • step S104 the mask image generation unit 213a generates a mask image to be applied for performing material setting for each divided region based on the feature amount, for example, a mask image as shown in FIG.
  • the mask image shown in FIG. 11 is an example, and various other mask images are generated according to the subject.
  • the mask image generation process may use a template image.
  • a template image For example, (1) face mask, (2) hand mask, (3) hair mask, (4) clothes mask, (5) eye mask, (6) nose mask, (7) mouth mask, (8) shown in FIG. ) Cheek mask, template images of each of these mask images are stored in the storage unit 204 in advance, and this template mask image is modified according to the subject image input from the transmission device and adapted to the input image A mask image can be generated.
  • FIG. 1 An example of eye mask image generation processing to which a template image is applied will be described with reference to FIG.
  • the mask image generation unit 213a selects a feature point near the eye region from the feature points in the captured image of the subject input via the image input unit 201 as the use feature point.
  • the feature points used in FIG. 12 (2) are feature points near the left eye area of the subject image. This feature point corresponds to the feature point described above with reference to FIG.
  • FIG. 12 (3) shows the rotation process
  • (4) shows the resizing process.
  • the rotation angle of the template image is calculated based on the line of feature points ⁇ 17, 29 ⁇ .
  • the template image in the region of the feature points ⁇ 17, 23, 24, 25, 26, 27, 29 ⁇ is resized to fit the input image.
  • resizing is performed 0.9 times in the X direction (horizontal direction) and 1.0 times in the Y direction (vertical direction).
  • FIG. 13 is a diagram for explaining an example of a nasal mask image generation process to which a template image is applied.
  • a template mask image for application to the nose as shown in FIG. 13A is stored in the storage unit 204 in advance.
  • the mask image generation unit 213a selects a feature point near the nose region as a use feature point from the feature points in the captured image of the subject input via the image input unit 201.
  • FIG. 13 (2) use feature points are feature points near the nose region of the subject image. This feature point corresponds to the feature point described above with reference to FIG.
  • FIG. 13 (3) shows the rotation process
  • (4) shows the resizing process.
  • the rotation angle of the template image is calculated based on the line of feature points ⁇ 37, 46 ⁇ .
  • the template image of the region of the feature points ⁇ 28, 29, 30, 31, 40, 43 ⁇ is resized to fit the input image.
  • resizing is performed 0.7 times in the X direction (horizontal direction) and 1.1 times in the Y direction (vertical direction).
  • FIG. 14 is a diagram illustrating an example of a cheek mask image generation process to which a template image is applied.
  • a template mask image for application to a cheek as shown in FIG. 14A is stored in the storage unit 204 in advance.
  • the mask image generation unit 213a selects a feature point in the vicinity of the cheek region as a use feature point from the feature points in the captured image of the subject input via the image input unit 201.
  • 14 (2) used feature points are feature points near the cheek area of the subject image. This feature point corresponds to the feature point described above with reference to FIG.
  • FIG. 14 (3) shows the rotation process
  • (4) shows the resizing process.
  • the rotation angle of the template image is calculated based on the line of feature points ⁇ 17, 29 ⁇ .
  • the template image in the region of the feature point ⁇ 17, 29, 55 ⁇ is resized so as to be adapted to the input image.
  • resizing is performed 0.8 times in the X direction (horizontal direction) and 1.0 times in the Y direction (vertical direction).
  • FIG. 15 is a diagram illustrating an example of a process for generating a mask image around the mouth to which a template image is applied. For example, a template mask image for application around the mouth as shown in FIG.
  • the mask image generation unit 213a selects a feature point in the vicinity of the mouth area as a feature point to be used from the feature points in the captured image of the subject input via the image input unit 201.
  • the used feature points in FIG. 15 (2) are feature points near the mouth area of the subject image. This feature point corresponds to the feature point described above with reference to FIG.
  • FIG. 15 (3) shows the rotation process
  • (4) shows the resizing process.
  • the rotation angle of the template image is calculated based on the line of feature points ⁇ 49, 55 ⁇ .
  • the template image in the region of the feature points ⁇ 9, 31, 49, 55 ⁇ is resized so as to be adapted to the input image.
  • resizing is performed 1.3 times in the X direction (horizontal direction) and 0.9 times in the Y direction (vertical direction).
  • FIG. 16 is a diagram illustrating a processing example for generating a lip mask image without using a template image.
  • the mask image generation unit 213a selects a feature point near the lip region from the feature points in the captured image of the subject input via the image input unit 201 as the use feature point.
  • FIG. 16 (2) use feature points are feature points near the lip region of the subject image. This feature point corresponds to the feature point described above with reference to FIG.
  • FIG. 16 (3) shows the upper lip mask image generation process
  • (4) shows the lower lip mask image generation process.
  • the upper lip mask image generation process is based on the contours of feature points ⁇ 49, 50, 51, 52, 53, 54, 55, 65, 64, 63, 62, 61 ⁇ .
  • an upper lip mask image is generated.
  • a lower lip mask image is generated based on the contour.
  • FIG. 17 is a diagram illustrating a processing example for generating a mouth mask image without using a template image.
  • the mask image generation unit 213a selects a feature point near the inner region of the mouth as a use feature point from the feature points in the captured image of the subject input via the image input unit 201.
  • FIG. 17 (2) use feature points are feature points near the inner region of the mouth of the subject image. This feature point corresponds to the feature point described above with reference to FIG.
  • FIG. 17 (3) shows the process of generating the mouth lip mask image.
  • the mouth mask is generated based on the contours of the feature points ⁇ 61, 62, 63, 64, 65, 66, 67, 68 ⁇ . Generate an image. By performing such processing, it is possible to generate an intraoral mask image suitable for the intraoral region of the captured image without using a template mask image.
  • mask images such as (1) face mask, (2) hand mask, (3) hair mask, (4) clothes mask, etc. are used according to the subject image with or without using the template image.
  • a mask image can be generated.
  • step S104 of the flow shown in FIG. 9 for example, the mask image generation process is executed by the process described above.
  • step S105 of the flowchart of FIG. 9 will be described.
  • Step S105 the mesh acquisition unit 212a sets a mesh in the 3D model corresponding to the captured image, and the mesh division unit 212b executes a mesh division process according to the mask image.
  • the mesh is a polygonal region such as a triangle or a quadrangle, which is a fine divided region of the three-dimensional model.
  • drawing processing and rendering of a three-dimensional image are performed.
  • rendering it is necessary to set an optimal material for each mesh.
  • Realistic 3D model data can be generated by setting a material that is close to the actual material of the mesh, specifically, a texture or shader, for the mesh that is a component of the 3D model. .
  • the mesh is acquired by applying a predetermined algorithm using the captured image input from the transmission device and the three-dimensional model data of the subject stored in the database in the preprocessing described above with reference to FIG. can do. Note that it is preferable to set the mesh in consideration of the setting of the final CG effect imparted three-dimensional image generated by the rendering process, for example, the setting condition of the light source position.
  • step S105 first, the mesh acquisition unit 212a sets a mesh on the three-dimensional model corresponding to the input photographed image, and the mesh division unit 212b executes mesh division processing according to the mask image generated in step S104. To do.
  • the mask image includes various mask images such as (1) face mask to (8) cheek mask. These are masks used in the material application process for each part. However, in many cases, the region of each part defined by the mask image does not match the segmented region defined by the mesh.
  • step S106 the model adding unit 212c installs the three-dimensional model stored in the storage unit (DB) 204 based on the feature amount information. For example, a process of installing a corneal model in front of the eyeball is executed.
  • the three-dimensional image generation process is basically executed as a process for setting a material for a mesh. For example, for a special part such as an eyeball, a process for pasting a three-dimensional model facilitated in advance is performed. Can increase reality. In step S106, such a three-dimensional model addition process is performed. Note that the three-dimensional model is stored in the storage unit (DB) 204 in advance. For example, it is possible to use the 3D model information received from the transmission device 110 in the pre-processing.
  • DB storage unit
  • the line-of-sight direction is set by setting a model in which a white highlight area is set in the black eye.
  • the highlight portion is set at an appropriate position within the black eye, for example, it is preferable to detect the line-of-sight direction of the captured image received from the transmission device and determine the highlight area setting position based on the detected line-of-sight direction.
  • the light source position is preferably set in front of the face image so that the highlight area in the black eye of the face image in the 3D image generated by rendering corresponds to the light source position of the displayed 3D image.
  • step S107 the texture map generator 213b generates a texture map (base color, shinyness, cavity, normal, etc.) necessary for each material according to the attribute analysis result and the template database.
  • a material close to the actual material of the mesh specifically, texture or shader is set for the mesh that is a component of the 3D image. To do.
  • this material setting process a realistic three-dimensional image can be generated.
  • the texture is image data that can be generated by combining a plurality of texture maps each having a different effect. As described above with reference to FIG. 2, for example, there are the following types of texture maps. (1) Base color map (2) Shininess map (3) Normal map (4) Cavity map (5) Metallic map
  • a base color map is color information that serves as a basis (picture).
  • a Shininess map is a texture map that controls the smoothness of a substance, and the specular (specular reflection) becomes sharper as the brightness increases. Black (0, 0) is complete diffuse reflection, and white (1, 0) is complete specular reflection. Specifically, it is the glossiness, and for example, it can express the difference in shine for each part of the face.
  • a normal map is a texture map that expresses fine irregularities, and can express fine irregularities of a face such as wrinkles and moles.
  • the cavity map is used when it is desired to suppress the intensity of specular (specular reflection). For example, minute shades such as pores and spots can be generated.
  • the metallic map is a texture map used when the degree of metal is controlled, and black (0, 0) corresponds to non-metal and white (1, 0) corresponds to metal. For example, when applied to a metal part, a metal texture can be expressed.
  • the texture is image data that can be generated by synthesizing a plurality of texture maps each having a different effect.
  • step S107 the texture which is the element of the material set to each mesh of the three-dimensional image generated by rendering is determined.
  • a template database 224 stored in the storage unit (DB) 204 is used.
  • the attribute information includes subject attribute information and part attribute information.
  • the material is constituted by a texture map.
  • the subject attribute information is attribute information of a person who is a subject such as “sex”, “age”, “race”, “skin quality”, and the like.
  • the part attribute information is attribute information that becomes identification information of each part of a human face such as eyes, nose, eyebrows, cheeks, and the like.
  • These attribute information is information acquired in step S102.
  • it can be acquired based on image data received from the transmission device 110 and based on user input information. May be obtained.
  • the template database is correspondence data between attribute information and material.
  • the image processing unit 203 of the image processing apparatus 200 performs a process of generating a 3D image with a CG effect by real-time processing
  • the image processing unit 203 refers to the template database and receives the subject received from the transmission apparatus 110. It is possible to immediately obtain a material to be set for a part such as an eye, a nose, or a cheek (teak) detected from an image, for example, a photographed image of a person.
  • a texture map is recorded as a material. That is, the setting of the texture map to be applied according to the attribute information (subject attribute and part attribute) is recorded. Specifically, for example, (a) the setting of a texture map to be pasted on the mesh of the area around the eye of the subject attribute of normal skin of a 20-35 year old white woman, (B) setting of a texture map to be pasted on the mesh of the nose muscle region; (C) setting of a texture map to be pasted on the mesh of the eyebrow region; (D) Setting of texture map to be pasted on the mesh of cheek area ... A texture map to be applied corresponding to the subject attribute and the part attribute is registered.
  • the texture is acquired from the template database, and for the shader, the calculation processing is executed for each frame, and the drawing color for each pixel in the mesh is calculated. A decision process is performed.
  • the template database 224 shown in FIG. 8 records texture maps and shaders as materials. If the template database having the setting shown in FIG. 8 is used, shader information can be acquired from the template database in addition to the texture. Textures and pixels in the mesh in units of frames and subject components (parts). Each drawing color can be determined.
  • the material to be set in the nose area it is possible to use a material set as default data in advance, but for example, processing is performed so as to change the material to have a texture with more emphasized nose muscles. Is also possible.
  • a material to be set on the cheek for example, it is possible to perform a process of changing so as to set a material having a texture that looks smoother.
  • Step S108 the rendering unit 214 performs rendering for applying the material to the 3D model.
  • step S107 using the texture map corresponding to the attribute information (subject attribute and part attribute) acquired from the template database 224, material setting, that is, pasting of the texture is performed on the mesh of each part. Furthermore, a shader that is a pixel-based drawing color determination algorithm is applied to perform a pixel-based drawing color determination process.
  • shader information can also be acquired from the template database in addition to the texture, and each texture and pixel in the mesh in frame units and subject component units (part units). The drawing color can be determined.
  • step S109 the display unit 205 displays the rendering result generated in step S108.
  • steps S101 to S109 is executed for each image frame input by the image input unit 201.
  • This process is executed as a real-time process. For example, an image captured on the transmission apparatus 110 side shown in FIG. 5 is displayed in real time as a three-dimensional image on which the CG effect is applied on the reception apparatus 120 side. Become.
  • One major element that enables real-time processing is a template database. That is, by using a template database in which texture maps to be applied corresponding to subject attributes and part attributes are used, subject component units (parts) in units of frames constituting a subject video transmitted from the transmission device 110. (Unit) optimal material setting can be performed in a short time, and 3D image generation can be executed as real-time processing.
  • An image processing apparatus 200 illustrated in FIG. 6 can input customization information of a three-dimensional image generated by rendering via a user input unit 202.
  • various setting information such as face makeup setting information, specifically, lipstick color, blusher color, application area, eyebrow setting, etc. can be input as customization information.
  • the image processing unit 203 of the image processing apparatus 200 can render a three-dimensional image to be displayed on the display unit 205 using customization information input via the user input unit 202.
  • processing such as setting the image input unit 201 as an imaging unit, generating a makeup 3D image for the face image captured by the imaging unit, and displaying the 3D image on the display unit 205.
  • processing such as setting the image input unit 201 as an imaging unit, generating a makeup 3D image for the face image captured by the imaging unit, and displaying the 3D image on the display unit 205.
  • processing such as setting the image input unit 201 as an imaging unit, generating a makeup 3D image for the face image captured by the imaging unit, and displaying the 3D image on the display unit 205.
  • processing is performed using a template database that is attribute information-material correspondence data that allows various customizations (modifications and changes).
  • a template database that is attribute information-material correspondence data that allows various customizations (modifications and changes).
  • the template database 224 includes This is correspondence data between customizable attribute information, which can be modified and changed by the user, and material.
  • Customizable attribute information includes subject attribute information and part attribute information.
  • the customizable material is constituted by a texture map.
  • the subject attribute information is, for example, customizable attribute information of a person who is a subject such as “sex”, “age”, “race”, “skin quality”, and the like.
  • the part attribute information is customizable information that becomes identification information of each part of a human face such as eyes, nose, eyebrows, cheeks, and the like.
  • the correspondence between the attribute information and the material can be set and changed based on user input information input from the user input unit 202.
  • the image processing unit 203 of the image processing apparatus 200 When the image processing unit 203 of the image processing apparatus 200 performs a process of generating a 3D image with a CG effect by real-time processing, the image processing unit 203 refers to the template database and receives the subject received from the transmission apparatus 110. It is possible to immediately obtain a material to be set for a part such as an eye, a nose, or a cheek (teak) detected from an image, for example, a photographed image of a person.
  • the shader is an algorithm for calculating a drawing color for each pixel (pixel) in the mesh.
  • the texture is acquired from the template database, and the shader is subjected to calculation processing for each frame to determine the drawing color for each pixel in the mesh. Will do.
  • FIG. 19 shows a configuration example of the template database 204 set differently from the template database 224 shown in FIG.
  • a template database 224 shown in FIG. 19 records a texture map and a shader as materials. If the template database having the settings shown in FIG. 19 is used, shader information can be acquired from the template database in addition to the texture. Textures and pixels in the mesh in units of frames and units of subject components (parts). Each drawing color can be determined.
  • processing using a template database in which various customizable attribute information and materials are associated with each other is performed.
  • a template database in which various customizable attribute information and materials are associated for example, it is not a 3D image that realistically reproduces a subject, but for the ideal skin quality and makeup.
  • Such a material can be applied, and a 3D image reflecting the effect of virtual makeup can be generated and displayed.
  • the flowchart illustrated in FIG. 20 is a flowchart illustrating a processing sequence for rendering a three-dimensional image displayed on the display unit 205 using customization information input via the user input unit 202.
  • the processing according to the flowchart shown in FIG. 20 is executed under the control of a data processing unit including a controller having a CPU having a program execution function, for example, according to a program stored in the storage unit of the image processing apparatus. Is done. The processing of each step in the flow shown in FIG. 20 will be described sequentially.
  • Step S201 First, in step S201, customization information (such as a CG effect) desired by the user is acquired from user input information input via the user input unit 202 of the image processing apparatus 200.
  • customization information such as a CG effect
  • Step S202 the image input unit 201 of the image processing apparatus 200 inputs a captured image (texture) that is a 3D image generation source. Note that the processing in steps S202 to S209 shown in this flow is executed for each image frame constituting the captured video of the subject input from the image input unit 201. That is, in the final step S209, rendering of the 3D image to which the CG effect is applied in units of input image frames is performed.
  • Steps S203 to S206 The processes in the next steps S203 to S206 are the same as the processes in steps S103 to S106 described above with reference to the flowchart shown in FIG.
  • step S203 based on the feature amount of the captured image input in step S202 by the feature amount extraction unit 211a, each part of the subject (person) (eyes, nose, eyebrows, skin region, body part which are facial organs) , Hair, clothes, etc.) corresponding division areas are set. For example, based on the feature points such as eyes, nostrils, and eyebrows that are the facial organs described above with reference to FIG. , Hair, clothes, etc.) corresponding division areas are set.
  • step S ⁇ b> 204 the mask image generation unit 213 a generates a mask image to be applied for performing material setting for each segment area based on the feature amount. For example, mask images corresponding to various parts described above with reference to FIG. 11 are generated.
  • the mesh acquisition unit 212a sets a mesh in the 3D model corresponding to the captured image
  • the mesh division unit 212b executes mesh division processing according to the mask image.
  • the mesh is a polygonal region such as a triangle or a quadrangle, which is a fine divided region of the three-dimensional model.
  • drawing processing and rendering of a three-dimensional image are performed.
  • rendering it is necessary to set an optimal material for each mesh.
  • Realistic 3D model data can be generated by setting a material that is close to the actual material of the mesh, specifically, a texture or shader, for the mesh that is a component of the 3D model. .
  • step S205 first, the mesh acquisition unit 212a sets a mesh on the three-dimensional model corresponding to the input photographed image, and the mesh division unit 212b executes mesh division processing according to the mask image generated in step S204. To do.
  • step S206 the model adding unit 212c installs the three-dimensional model stored in the storage unit (DB) 204 based on the feature amount information. For example, a process of installing a corneal model in front of the eyeball is executed. Note that the three-dimensional model is stored in the storage unit (DB) 204 in advance.
  • step S207 the texture map generation unit 213b displays a texture map (base color, shinyness, cavity, normal, etc.) necessary for each material, with reference to FIGS. 18 and 19, and a customizable template database. Generate according to
  • optimal material setting for each part can be performed in a short time for each frame constituting the subject video input through the image input unit 201.
  • 3D image generation can be executed as real-time processing.
  • step S207 a texture that is an element of a material set for each mesh of a three-dimensional image generated by rendering is determined.
  • template database 224 stored in the storage unit (DB) 204 that is, customizable attribute information and data corresponding to the material are used.
  • the user input information acquired in step S201 can be applied to the customization information.
  • a texture map is recorded as a material. That is, a texture map setting to be applied according to customizable attribute information is recorded. Specifically, for example, when applying customization information of normal skin of a white woman of 20 to 35 years old, corresponding to the customization information, (A) Texture map setting to be pasted on the mesh around the eye (B) setting of a texture map to be pasted on the mesh of the nose muscle region; (C) setting of a texture map to be pasted on the mesh of the eyebrow region; (D) Setting of texture map to be pasted on the mesh of cheek area ... A texture map corresponding to these customized attribute information is registered.
  • this template database it is possible to perform optimal material setting for each part in a frame unit constituting a subject video input from the image input unit in a short time, and execute 3D image generation as real-time processing. be able to.
  • the texture is acquired from the template database, and the shader is subjected to calculation processing for each frame, and the drawing color for each pixel in the mesh is calculated. A decision process is performed.
  • the template database 224 shown in FIG. 19 records texture maps and shaders as materials. If the template database having the setting shown in FIG. 19 is used, shader information can be acquired from the template database together with the texture, and the texture in the mesh and the drawing color for each pixel can be determined in units of frames and parts. Is possible.
  • Step S208 the rendering unit 214 performs rendering for applying a material to the 3D model.
  • material setting that is, texture pasting is performed on the mesh of each part.
  • a shader that is a pixel-based drawing color determination algorithm is applied to perform a pixel-based drawing color determination process.
  • step S209 the display unit 205 displays the rendering result generated in step S208.
  • steps S201 to S209 is executed for each image frame input by the image input unit 201. This process is executed as a real-time process.
  • One major element that enables real-time processing is a template database. That is, by using a template database in which texture maps corresponding to attribute information that can be modified and changed (customized) according to various user requests are used, the subject in units of frames constituting the subject video input from the image input unit 201 Optimal material setting for each component can be performed in a short time, and 3D image generation can be performed as real-time processing.
  • FIG. 21 illustrates a hardware configuration example of the image processing apparatus 200 illustrated in FIG. 6 and the image processing apparatus 300 corresponding to the transmission apparatus 110 and the reception apparatus 120 illustrated in FIGS. 3 to 5.
  • the image processing apparatus 300 may specifically be an information processing apparatus such as a PC (Personal Computer), a tablet PC, a smartphone, and a tablet terminal.
  • an image processing apparatus 100 includes a controller 301, a ROM (Read Only Memory) 302, a RAM (Random Access Memory) 303, an input / output interface 305, and a bus 304 that connects these components to each other.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the controller 301 appropriately accesses the RAM 303 or the like as necessary, and comprehensively controls each block of the image processing apparatus 300 while performing various arithmetic processes.
  • the controller 301 may be a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), or the like.
  • the ROM 302 is a non-volatile memory in which firmware such as an OS, a program, and various parameters to be executed by the controller 301 is fixedly stored.
  • a RAM 303 is used as a work area of the controller 301 and temporarily holds the OS, various applications being executed, and various data being processed.
  • the input / output interface 305 is connected to an input unit 306, an output unit 307, a storage unit 308, a communication unit 309, a drive 310 on which a removable medium 311 can be mounted, and the like.
  • the input / output interface 105 may be configured to be connectable to an external peripheral device via a USB (Universal Serial Bus) terminal, an IEEE terminal, or the like in addition to these elements.
  • USB Universal Serial Bus
  • the input unit 306 is an input unit including, for example, the image input unit 201 and the user input unit 202 of the image processing apparatus 200 illustrated in FIG.
  • the image input unit can be configured by, for example, an imaging unit.
  • the input unit 306 includes a pointing device such as a mouse, a keyboard, a touch panel, and other input devices.
  • the output unit 307 is configured by the display unit 205 of the image processing apparatus 200 shown in FIG.
  • the storage unit 308 corresponds to the storage unit (DB) 204 of the image processing apparatus 200 shown in FIG. For example, it is a non-volatile memory such as an HDD (Hard Disk Drive), a flash memory (SSD; Solid State Drive), or other solid-state memory.
  • the storage unit 308 stores an OS, various applications, and various data.
  • the storage unit 308 is also used as a storage area for input images, image information, generated output image groups, and the like.
  • the communication unit 309 is a NIC (Network Interface Card) for Ethernet (registered trademark), for example, and performs communication processing via a network.
  • NIC Network Interface Card
  • the drive 310 is used for data recording and reproduction processing using the removable medium 311.
  • the removable medium 311 is composed of, for example, a BD, DVD, CD, HDD, flash memory, or the like.
  • the technology disclosed in this specification can take the following configurations. (1) having an image processing unit that executes a three-dimensional image generation process based on an input image; The image processing unit Referring to a template database that is correspondence data between subject attribute information of the input image and a material that is a rendering element of the three-dimensional image, a material corresponding to the subject attribute is selected, and a three-dimensional image generation process is executed. Image processing device.
  • the input image is moving image data
  • the image processing unit The image processing apparatus according to (1), wherein a process for generating a new three-dimensional image is executed for each image frame constituting the moving image data.
  • the input image is moving image data
  • the image processing unit In each of the image frames constituting the moving image data, a mesh that is a constituent unit of a three-dimensional image and a setting of a material are updated to execute a process for generating a new three-dimensional image or (2) Image processing apparatus.
  • the template database A database in which the material of the subject unit of the subject is recorded;
  • the image processing unit The image processing apparatus according to any one of (1) to (3), wherein the mask image for each component is applied, material for each component is acquired from the template database, and material setting for each component is executed.
  • the input image includes a human face image;
  • the template database is It is a database in which material in units of constituent elements of a human face included in the input image is recorded,
  • the image processing unit Applying a mask image for each constituent element of a human face included in the input image, obtaining material for each constituent element from the template database, and executing material setting for each constituent element of the face (1) to (4)
  • the image processing apparatus according to any one of the above.
  • the template database Including texture as the material
  • the image processing unit The image processing apparatus according to any one of (1) to (5), wherein a texture corresponding to a subject attribute is selected from the template database and a three-dimensional image generation process is executed.
  • the template database includes a texture and a shader
  • the image processing unit The image processing apparatus according to any one of (1) to (6), wherein a texture and a shader corresponding to a subject attribute are selected from the template database and a three-dimensional image generation process is executed.
  • the image processing unit A feature amount extraction unit that extracts a feature amount from the input image; Based on the feature amount extracted by the feature amount extraction unit, the constituent elements of the subject are identified, The image processing apparatus according to any one of (1) to (7), wherein material setting is performed for each identified component unit.
  • the image processing unit A feature amount extraction unit that extracts a feature amount from the input image; Based on the feature amount extracted by the feature amount extraction unit, the constituent elements of the subject are identified, The image processing apparatus according to any one of (1) to (8), wherein mask image generation processing is performed for each identified component unit.
  • the image processing unit The image processing apparatus according to any one of (1) to (9), further including a mesh division unit that executes a division process of a mesh that is a material setting unit in addition to the constituent elements of the subject.
  • the attribute information of the subject is The image processing apparatus according to any one of (1) to (10), including at least one of sex, age, race, and skin quality.
  • the subject attribute information is: The image processing apparatus according to any one of (1) to (11), which is attribute information acquired by the input image analysis process or attribute information acquired by a user input.
  • the correspondence data between the attribute information and the material stored in the template database is data that can be customized by the user,
  • the image processing apparatus according to any one of (1) to (12), having a configuration capable of changing correspondence data between attribute information and material according to input information input via a user input unit.
  • the input image is: The image processing apparatus according to any one of (1) to (13), which is an image received via a network.
  • a transmission device that transmits an image
  • a receiving device that performs processing on an input image from the transmitting device, generates a three-dimensional image, and displays it on a display unit
  • the image processing unit of the receiving device includes: Referring to a template database that is correspondence data between the subject attribute information of the input image and the material that is a rendering element of the three-dimensional image, the material corresponding to the subject attribute is selected and the three-dimensional image generation processing is executed.
  • Image processing system Referring to a template database that is correspondence data between the subject attribute information of the input image and the material that is a rendering element of the three-dimensional image, the material corresponding to the subject attribute is selected and the three-dimensional image generation processing is executed.
  • the image is moving image data
  • the image processing unit of the receiving device includes: The image processing system according to (15), wherein for each image frame constituting the moving image data, a mesh that is a constituent unit of a three-dimensional image and a material setting are updated to generate a new three-dimensional image. .
  • the template database is A database in which the material of the subject unit of the subject is recorded;
  • the image processing unit of the receiving device includes: The image processing system according to (15) or (16), wherein the mask image for each component is applied, material for each component is acquired from the template database, and material setting for the component is executed.
  • the input image includes a human face image;
  • the template database is It is a database that records the material of each human face component.
  • the image processing unit Applying a mask image in units of constituent elements of a person's face included in the input image, obtaining material for each constituent element from the template database, and executing material setting in units of constituent elements of the face (15) to (17) The image processing system according to any one of the above.
  • An image processing method executed in the image processing apparatus includes: An image processing unit that executes a three-dimensional image generation process based on the input image; The image processing unit Referring to a template database that is correspondence data between subject attribute information of the input image and a material that is a rendering element of the three-dimensional image, a material corresponding to the subject attribute is selected, and a three-dimensional image generation process is executed. Image processing method.
  • a program for executing image processing in an image processing apparatus includes: An image processing unit that executes a three-dimensional image generation process based on the input image;
  • the program is stored in the image processing unit.
  • a material corresponding to the subject attribute is selected with reference to a template database that is correspondence data between the subject attribute information of the input image and the material that is a rendering element of the three-dimensional image, and a three-dimensional image generation process is executed. program.
  • the series of processes described in the specification can be executed by hardware, software, or a combined configuration of both.
  • the program recording the processing sequence is installed in a memory in a computer incorporated in dedicated hardware and executed, or the program is executed on a general-purpose computer capable of executing various processing. It can be installed and run.
  • the program can be recorded in advance on a recording medium.
  • the program can be received via a network such as a LAN (Local Area Network) or the Internet and installed on a recording medium such as a built-in hard disk.
  • the various processes described in the specification are not only executed in time series according to the description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary.
  • the system is a logical set configuration of a plurality of devices, and the devices of each configuration are not limited to being in the same casing.
  • an apparatus and a method capable of generating a 3D image based on an input image in real time are realized.
  • a processing process is performed on each image frame of the input image to generate a three-dimensional image.
  • a three-dimensional image is generated by selecting a material corresponding to the subject attribute with reference to a template database that is correspondence data between the attribute information of the subject of the input image and the material that is a rendering element of the three-dimensional image.
  • the material for each component of the human face is recorded, and the image processing unit applies the mask image for each component of the face, acquires the material for each component from the template database, Executes material setting for each face component.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Geometry (AREA)
  • Computing Systems (AREA)
  • Processing Or Creating Images (AREA)
  • Image Generation (AREA)
  • Studio Devices (AREA)

Abstract

リアルタイムでの入力画像に基づく3D画像生成を可能とした装置、方法を提供する。入力画像の各画像フレームに対する加工処理を実行して3次元画像を生成する。入力画像の被写体の属性情報と3次元画像のレンダリング要素であるマテリアルとの対応データであるテンプレートデータベースを参照して被写体属性に応じたマテリアルを選択して3次元画像を生成する。テンプレートデータベースは、人物の顔の構成要素単位のマテリアルが記録されており、画像処理部は、顔の構成要素単位のマスク画像を適用して、各構成要素に対するマテリアルをテンプレートデータベースから取得して、顔の構成要素単位でのマテリアル設定を実行する。

Description

画像処理装置、画像処理システム、および画像処理方法、並びにプログラム
 本開示は、画像処理装置、画像処理システム、および画像処理方法、並びにプログラムに関する。さらに詳細には、3次元(3D)画像のレンダリングを実行する画像処理装置、画像処理システム、および画像処理方法、並びにプログラムに関する。
 近年、コンピュータ・グラフィクス(CG:Computer Graphics)技術を用いた3次元(3D)画像生成技術が、映画やゲームなど様々な分野で利用されている。
 例えば、特許文献1(特開2012-185624号公報)には、低い計算コストで高品質な人物の顔を描画する3次元顔モデルデータ生成装置が開示されている。
 この特許文献1には、顔の表情データを取得した後に人物の顔の部分のみを切り出し、表情に応じて変形させた顔形状対応のテクスチャを貼り付ける処理を行うことで、高品質で違和感のない3次元顔画像を生成して表示する装置が開示されている。
 さらに、特許文献2(特開2010-113548号公報)には、テクスチャマッピング手法を採用したポリゴン3次元グラフィックス描画装置が記載されている。
 物体の反射に関わる係数をテクスチャデータに持たせることにより、1つのポリゴン内において複数の異なる反射を表現することを可能とし、より少ないモデルデータでさらに高度な物体の質感表現を可能とする装置を開示している。
特開2012-185624号公報 特開2010-113548号公報
 しかしながら、特許文献1に記載の技術は、人物映像から切り出した顔テクスチャを顔モデルに貼り付けてレンダリングする処理について記載しているが、例えば,特性の異なる部位ごとに反射特性を変更させるなどの考慮がされていないため、撮影時の照明環境と異なる条件下で表示した場合には,不自然な3D画像となる場合がある。
 一方、特許文献2に記載の技術は、テクスチャデータに反射係数等の物体の材質を示すマテリアルパラメータを保持させ、それらを活用したレンダリングを行うことで、きめ細かい質感表現を実現している。
 しかし、この特許文献2に記載の構成は、予めテクスチャデータに一つのマテリアルパラメータを対応付けて記録する構成であり、そのため、各テクスチャに対して一意な質感しか表現できないという問題がある。具体的には、例えば光源方向に応じた最適な質感表現ができないといった問題がある。
 本開示は、例えば上述の問題点に鑑みてなされたものであり、より自然なリアリティのある3次元(3D)画像の表示処理を実現する画像処理装置、画像処理システム、および画像処理方法、並びにプログラムを提供するものである。
 本開示の一実施例は、表示対象となる人物の撮影画像を入力し、その入力撮影画像(テクスチャ)から、人物の性別や年齢などの属性を分析し、さらに顔器官、肌領域、体部位、髪、衣服などの特徴量検出を行う。さらに、事前に用意されたテンプレートデータベースから被写体に適したマテリアル設定用のテクスチャマップと、マテリアルの適用範囲を指定するマスク画像を自動生成することで、任意の人物3D画像モデルデータに対し、適切なマテリアルをリアルタイムに自動設定し、リアリティのあるレンダリングを実現することを可能としている。
 また、本開示の一実施例は、人物の3次元(3D)画像の表示処理において、事前にユーザからどのようなCG効果を与えたいかのカスタマイズ情報を取得し、入力されたテクスチャ(撮影画像)から、顔器官、肌領域、体部位、髪、衣服などの特徴量検出を行う。その後、ユーザ選択に紐付くテンプレートデータベースからマテリアル設定用のテクスチャマップと、マテリアルの適用範囲を指定するマスク画像を自動生成することで、任意の人物3D画像モデルデータに対し、適切なマテリアルをリアルタイムに自動設定し、ユーザの好むレンダリングを実現することを可能としている。
 本開示の第1の側面は、
 入力画像に基づく3次元画像生成処理を実行する画像処理部を有し、
 前記画像処理部は、
 前記入力画像の被写体の属性情報と、3次元画像のレンダリング要素であるマテリアルとの対応データであるテンプレートデータベースを参照して被写体属性に応じたマテリアルを選択して3次元画像の生成処理を実行する画像処理装置にある。
 さらに、本開示の第2の側面は、
 画像を送信する送信装置と、
 前記送信装置からの入力画像に対する加工処理を実行して、3次元画像を生成して表示部に表示する受信装置を有し、
 前記受信装置の画像処理部は、
 前記入力画像の被写体の属性情報と、3次元画像のレンダリング要素であるマテリアルとの対応データであるテンプレートデータベースを参照して被写体属性に応じたマテリアルを選択して前記3次元画像の生成処理を実行する画像処理システムにある。
 さらに、本開示の第3の側面は、
 画像処理装置において実行する画像処理方法であり、
 前記画像処理装置は、
 入力画像に基づく3次元画像生成処理を実行する画像処理部を有し、
 前記画像処理部が、
 前記入力画像の被写体の属性情報と、3次元画像のレンダリング要素であるマテリアルとの対応データであるテンプレートデータベースを参照して被写体属性に応じたマテリアルを選択して3次元画像の生成処理を実行する画像処理方法にある。
 さらに、本開示の第4の側面は、
 画像処理装置において画像処理を実行させるプログラムであり、
 前記画像処理装置は、
 入力画像に基づく3次元画像生成処理を実行する画像処理部を有し、
 前記プログラムは、前記画像処理部に、
 前記入力画像の被写体の属性情報と、3次元画像のレンダリング要素であるマテリアルとの対応データであるテンプレートデータベースを参照して被写体属性に応じたマテリアルを選択して3次元画像の生成処理を実行させるプログラムにある。
 なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な画像処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、画像処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
 本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 本開示の一実施例の構成によれば、リアルタイムでの入力画像に基づく3D画像生成を可能とした装置、方法が実現される。
 具体的には、例えば、入力画像の各画像フレームに対する加工処理を実行して3次元画像を生成する。入力画像の被写体の属性情報と3次元画像のレンダリング要素であるマテリアルとの対応データであるテンプレートデータベースを参照して被写体属性に応じたマテリアルを選択して3次元画像を生成する。テンプレートデータベースは、人物の顔の構成要素単位のマテリアルが記録されており、画像処理部は、顔の構成要素単位のマスク画像を適用して、各構成要素に対するマテリアルをテンプレートデータベースから取得して、顔の構成要素単位でのマテリアル設定を実行する。
 本構成により、リアルタイムでの入力画像に基づく3D画像生成を可能とした装置、方法が実現される。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
3D画像のレンダリング処理とマテリアルについて説明する図である。 テクスチャマップについて説明する図である。 本開示の画像処理システムの構成例と処理例について説明する図である。 本開示の画像処理システムの構成例と処理例について説明する図である。 本開示の画像処理システムの構成例と処理例について説明する図である。 画像処理装置の構成例について説明する図である。 記憶部に格納されるデータとテンプレートデータベースの例について説明する図である。 記憶部に格納されるデータとテンプレートデータベースの例について説明する図である。 本開示の画像処理装置の実行する処理シーケンスについて説明するフローチャートを示す図である。 特徴点について説明する図である。 マスク画像の例について説明する図である。 マスク画像の生成処理例について説明する図である。 マスク画像の生成処理例について説明する図である。 マスク画像の生成処理例について説明する図である。 マスク画像の生成処理例について説明する図である。 マスク画像の生成処理例について説明する図である。 マスク画像の生成処理例について説明する図である。 記憶部に格納されるデータとテンプレートデータベースの例について説明する図である。 記憶部に格納されるデータとテンプレートデータベースの例について説明する図である。 本開示の画像処理装置の実行する処理シーケンスについて説明するフローチャートを示す図である。 画像処理装置多のハードウェア構成例について説明する図である。
 以下、図面を参照しながら本開示の画像処理装置、画像処理システム、および画像処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
 1.コンピュータ・グラフィクス(CG)処理の概要について
 2.画像処理システムの構成例について
 3.画像処理装置の構成例について
 4.画像処理装置の実行する処理について
 5.ユーザ入力情報に基づくカスタマイズを行った3D画像を生成する処理例について
 6.画像処理装置のハードウェア構成例について
 7.本開示の構成のまとめ
  [1.コンピュータ・グラフィクス(CG)処理の概要について]
 まず、コンピュータ・グラフィクス(CG:Computer Graphics)処理の概要について説明する。
 前述したように、近年、コンピュータ・グラフィクス(CG:Computer Graphics)技術を用いた3次元(3D)画像生成技術が、映画やゲームなど様々な分野で利用されている。
 3次元画像の描画処理として行われるレンダリングは、3次元モデルの分割領域である「メッシュ」に対する「マテリアル」の設定処理によって行われる。
 メッシュは、3次元モデルの細かな分割領域である三角形や四角形等の多角形領域である。
 このメッシュにマテリアルを設定することで、3次元画像の描画処理、レンダリングが行われる。
 「マテリアル」は、一般的には、物体の素材、材質のことであるが、3次元画像描画処理として行われるコンピュータ・グラフィックス(CG)においては、物体の特性としての光学的特性、材質感の定義情報であり、オブジェクトに設定する材質の意味を持つ。
 例えば、人物をレンダリングする場合、レンダリング対象となる要素には、人の肌、眼球、口、髪、衣服などがある。これらの各要素は、特性が異なる部位ごとに複数のメッシュに分割され、各メッシュに最適なマテリアルを設定、すなわち最適な光学的特性、材質感を設定することで、リアリティのある3次元モデルデータを生成することができる。
 なお、後段で説明する本開示の画像処理装置は、例えばネットワークを介して受信する被写体、例えば人物を撮影した映像に基づいてCG加工した3D画像を生成して表示する。
 この場合、人物の撮影映像は、毎フレームごとに撮影画像とメッシュが更新される。
 このフレーム単位で更新されるデータに対して,肌,眼球,唇,髪,衣服などの部位に適切なマテリアルを設定する処理を行ってリアルタイムでの3D画像の生成、表示を行う。
 例えば、動く人物に対するメッシュ設定処理として、統計的人体形状モデルであるSCAPE(Shape Completion and Animation of People)モデルを被写体画像にフィティングさせてメッシュ作成を行う方法が知られている。このメッシュ作成方式では,顔器官の位置等はベースモデルから取得され、ベースモデルに対応した3D画像が生成される。
 しかし、得られる情報がスクリーンスペースの画像である撮影画像(テクスチャ画像)とメッシュだけの場合は,フレームごとに様々なマテリアルを適用させる位置を推定する必要がある。本開示の処理では、スクリーンスペースの撮影画像から顔器官検出,特徴点検出,セマンティックセグメンテーション等を実行して,設定する各マテリアル単位のマスク画像を生成し,マテリアルの適用範囲を決定した上でマテリアルの設定処理を実行する。
 この本開示の具体的処理については後段で詳細に説明する。
 上述したように、「マテリアル」は、物体の特性としての光学的特性、材質感の定義情報である。
 「マテリアル」は、3次元モデルの各メッシュを構成するオブジェクト(物体)に設定する材質に相当する。例えば、
 3次元モデルが、金属、木材、人の肌、髪等の異なる物質によって構成されている場合、メッシュは、これらの物質単位で区分することが必要であり、各物質内のメッシュには、その物質の材質に一致する「マテリアル」を設定することが必要である。
 図1に示すように、「マテリアル」の要素として、「テクスチャ」と、「シェーダ」がある。
 「テクスチャ」は、メッシュに貼り付ける画像であり、
 「シェーダ」は、物体に光を当てたときに物体表面上に生じる明暗、即ち反射光の強度を計算するアルゴリズムであり、設定する光源やマテリアルに基づいて、メッシュ内の画素(ピクセル)ごとの描画色を計算するアルゴリズムである。
 基本的なシェーダとして、ランバートシェーダ、フォンシェーダ、ブリンシェーダなどがある。
 また、人物表現を対象としたシェーダに、肌シェーダ、髪シェーダ、眼球シェーダなどがある。
 3次元モデルの構成要素となるメッシュに対して、そのメッシュの実際の材質に近いマテリアル、具体的には、テクスチャやシェーダを設定することで、リアリティのある3次元モデルデータを生成することができる。
 テクスチャは、各々が異なる効果を持つ複数のテクスチャマップを合成して生成することが可能な画像データである。
 図2に、示すように、テクスチャマップには、例えば、以下の種類がある。
 (1)ベースカラーマップ(Base color map)
 (2)シャイニネスマップ(Shininess map)
 (3)ノーマルマップ(Normal map)
 (4)キャビティマップ(Cavity map)
 (5)メタリックマップ(Metallic map)
 各テクスチャマップの効果、表現について、図2を参照して説明する。
 (1)ベースカラーマップ(Base color map)は、基礎(絵柄)となる色情報である。
 (2)シャイニネスマップ(Shininess map)は、物質の滑らかさを制御するテクスチャマップであり、輝度が高い箇所ほどスペキュラ(鏡面反射)が鋭くなる。黒(0,0)が完全拡散反射であり、白(1,0)が完全鏡面反射である。
 具体的には、光沢度であり、例えば、顔の部位ごとの照りの差を表現することができる。
 (3)ノーマルマップ(Normal map)は、微細凹凸を表現するテクスチャマップであり、皺、ホクロなど顔の細かい凹凸を表現することができる。
 (4)キャビティマップ(Cavity map)は、スペキュラ(鏡面反射)の強さを抑制したいときに用いる。例えば、毛穴やシミなど微小な陰を生成することができる。
 (5)メタリックマップ(Metallic map)は、金属度合いの制御を行う場合に利用されるテクスチャマップであり、黒(0,0)が非金属、白(1,0)が金属に相当する。例えば、金具部分に適用すると金属の質感を表現することができる。
 このように、テクスチャは、各々が異なる効果を持つ複数のテクスチャマップを合成して生成することが可能な画像データである。
 図1、図2を参照して説明したように、3次元画像を描画(レンダリング)する場合、例えばポリゴン等の三角形や四角形等の多角形領域によって構成されるメッシュ単位で最適なマテリアルを設定することが必要となる。
 「マテリアル」の要素として、「テクスチャ」と、「シェーダ」があり、これらの「テクスチャ」と、「シェーダ」を、3次元モデルの構成要素単位の材質、さらに光源方向等を考慮して決定することで、現実感のある3次元画像の描画処理(レンダリング)を行うことができる。
 例えば、3次元画像として人の顔の肌の描画(レンダリング)を行う場合、顔の肌領域に対応するメッシュ領域に、人の肌特性に応じた最適なマテリアルを設定する。
 一般的には、このレンダリング処理において、どのテクスチャマップを使用して、どのようなCG効果を与えるかは、デザイナーが事前に様々な検討を行ってレンダリングを行う。
 最近のレンダリングエンジンの多くが物理ベース(PBR)なので、各マテリアルの設定は定量的に正しい値を設定することが可能であり、多くの3次元モデルをより現実に近い質感で再現できる。特に、金属系の表現は、本物と比較しても全く遜色はない。
 しかし、人物表現となると、肌の反射率一つ取っても部位によって変化し、正しい値を取得し設定することは非常に困難である。また、PBRの理念からは逸脱するが,正しい値を設定するだけでは、見栄えとして自然な表現を再現できないケースも存在するため、これらマテリアル設定の工夫が、3D表現の品質を大きく左右することになる。
 レンダリング処理に時間をかけ、様々なテクスチャ、シェーダを持つ様々なマテリアルを設定してみるといった試行錯誤を繰り返せば、より現実に近い3次元モデル画像の描画を行うことはできる。
 しかし、例えばネットワークを介して受信する映像に対して、リアルタイムでコンピュータ・グラフィック(CG)効果を付与した3次元画像モデルを描画しようとすると、各メッシュに設定するマテリアルの設定を極めて短時間で実行する必要があり、十分な検討を行うことができない。この結果、マテリアル設定が不適切となり、不自然な3D画像になってしまう場合が多い。
 本開示の処理は、このような問題を解決するものである。
 すなわち、例えばネットワークを介して受信する映像に対して、リアルタイムでコンピュータ・グラフィック(CG)効果を付与した3次元画像モデルを描画する場合に、リアリティの高い現実感のある自然な画像を生成することを可能とするものである。
 また、例えば、自身の顔に基づく3次元画像を表示部に表示して、この表示画像に対してコンピュータ・グラフィック(CG)効果を施すバーチャルメークアップ(Virtual Makeup)を可能とするものである。
 以下、本開示の構成について説明する。
  [2.画像処理システムの構成例について]
 次に、本開示の画像処理システムの構成例について説明する。
 なお、以下においては、システム構成例として、以下の2つの例について説明する。
 (a)送信装置側で撮影画像に基づく3Dモデルを生成して受信装置に送信し、受信装置側で3Dモデルを適用して表示用の3D画像を生成して表示するシステム構成
 (b)送信装置から撮影画像とデプスデータを受信装置に送信し、受信装置側で3Dモデルを生成して、生成した3Dモデルを適用して表示用の3D画像を生成して表示するシステム構成
 まず、図3を参照して、
 (a)送信装置側で撮影画像に基づく3Dモデルを生成して受信装置に送信し、受信装置側で3Dモデルを適用して表示用の3D画像を生成して表示するシステム構成について説明する。
 図3に示す画像処理システムは、送信装置110側で、複数のカメラ(マルチカメラ)で画像を撮影し、デプスデータ(距離情報)を生成し、撮影画像とデプスデータを利用して、撮影フレームごとに3Dモデリング処理を実行してテクスチャ付き3Dモデルを生成する構成である。
 送信装置110は、生成したフレームごとの3Dモデルを受信装置120に送信する。
 受信装置120は、受信した3Dモデルを利用して表示用の3D画像を生成して表示する。
 図3に示す画像処理システムの構成と処理について説明する。
 図3に示す画像処理システムは、送信装置110と、受信装置120を有する。
 送信装置110は撮影した被写体画像から3Dモデルを生成し、ネットワーク30を介して受信装置120に送信する。
 受信装置120は、送信装置110から受信する被写体画像に対して、コンピュータ・グラフィックス(CG)処理を施した3次元(3D)画像を生成して表示部124に3D画像30を表示する。
 送信装置110においては、カメラを有する画像取得部111が、被写体10の入力映像を撮影する。
 画像取得部111は複数のカメラ(RGB,デプス)によって構成され、被写体10を様々な角度から撮影したRGB画像,デプス画像を取得する。
 すなわち、被写体10の3次元画像を生成するために必要となる様々な角度から画像を撮影する。
 画像取得部111の撮影画像は、3次元モデル情報生成部113、送信情報生成部114に入力される。
 3次元モデル情報生成部113は、被写体10の撮影画像に基づいて、被写体の3次元モデル情報を生成する。
 3次元モデル情報生成部113の生成する3次元モデル情報には、図3中に送信データ130として示すデータ中の、メッシュデータ131、テクスチャ情報132、UVマップ133が含まれる。
 メッシュデータ131は、先に説明したように、3次元モデルの細かな分割領域である三角形や四角形等の多角形領域である。
 このメッシュにマテリアルを設定することで、3次元画像の描画処理、レンダリングが行われる。
 テクスチャ情報132は、メッシュデータ131に貼り付けるテクスチャの素材情報である。
 UVマップ133は、メッシュデータにテクスチャを貼り付ける処理、いわゆるテクスチャマッビングを行う際に必要となる座標情報である。
 送信情報生成部114は、3次元モデル情報生成部113の生成する3次元モデル情報(メッシュデータ131、テクスチャ情報132、UVマップ133)の他、被写体10の属性情報134、特徴点情報135を生成して、通信部115を介して送信する。
 属性情報134は、具体的には、例えば性別、年齢、人種、肌質、構成パーツ(口、眼、鼻等)の情報である。なお、これらの属性情報は画像解析によって行うことも可能であるが、送信装置110においてユーザが入力した情報を用いてもよい。
 特徴点情報135は、例えば被写体10の目、鼻、頬、衣服等の顔器官等の部位を示す特徴点等である。これは、特徴点抽出は、画像取得部111の撮影画像に基づいて実行される。
 このように、送信情報生成部114は、3次元モデル情報生成部113の生成する3次元モデル情報(メッシュデータ131、テクスチャ情報132、UVマップ133)の他、被写体10の属性情報134、特徴点情報135を、通信部115、ネットワーク20を介して受信装置120に送信する。
 なお、属性情報134については、被写体10が同一である場合は、一度のみの送信でよい。その他の情報は、画像フレームの送信ごとに逐次送信する。
 受信装置120は、送信装置110から、上記の各データを受信して、画像処理部122において、受信データを適用して、送信装置110から受信する被写体10の画像(テクスチャ)に対して、コンピュータ・グラフィックス(CG)処理による加工処理を施した3次元画像を生成して表示部124に3D画像30を表示する。
 なお、受信装置120における3次元画像のリアルタイム表示処理を行う場合、その事前処理として、被写体10の基本となる3次元画像の生成やデータベース123に対する格納処理等を行う。
 この事前処理において、リアルタイム処理に必要となる様々なデータが、データベース123に格納された後、リアルタイム処理による3次元画像表示処理を行う。
 リアルタイム処理では、送信装置110から受信する被写体画像に対して、リアルタイムでコンピュータ・グラフィックス(CG)処理による加工処理を施した3次元画像を生成して表示部に3D画像30を表示する処理が行われる。
 このリアルタイム処理では、例えば被写体の属性情報に応じた最適なマテリアルの設定行い、より自然な3次元画像を生成して表示する。
 なお、図3に示す本開示の画像処理システムの構成例は、送信装置110側において、3次元モデル情報(メッシュデータ131、テクスチャ情報132、UVマップ133)を生成して、受信装置120に送信する構成であるが、3次元モデル情報の生成処理を受信装置120側において実行するシステム構成としてもよい。
 図4を参照して、
 (b)送信装置から撮影画像とデプスデータを受信装置に送信し、受信装置側で3Dモデルを生成して、生成した3Dモデルを適用して表示用の3D画像を生成して表示するシステム構成
 について説明する。
 図4に示す画像処理システムは、送信装置110側で、複数のカメラ(マルチカメラ)で画像(RGB、デプス)を撮影し、撮影フレームごとに撮影画像とデプスデータを受信装置120に送信する。
 受信装置120は、受信した撮影画像とデプスデータを利用して、撮影フレームごとに3Dモデリング処理を実行してテクスチャ付き3Dモデルを生成する。
 さらに、受信装置120は、生成した3Dモデルを利用して表示用の3D画像を生成して表示する。
 図4に示す画像処理システムの構成と処理について説明する。
 図4に示す画像処理システムは、送信装置110と、受信装置120を有する。
 送信装置110は被写体画像を撮影し、ネットワーク30を介して受信装置120に送信する。
 受信装置120は、送信装置110から受信する被写体画像に対して、コンピュータ・グラフィックス(CG)処理を施した3次元(3D)画像を生成して表示部124に3D画像30を表示する。
 送信装置110においては、カメラを有する画像取得部111が、被写体10の入力映像を撮影する。
 画像取得部111は複数のカメラによって構成され、被写体10を様々な角度から撮影した画像を取得する。
 すなわち、被写体10の3次元画像を生成するために必要となる様々な角度から画像を撮影する。
 画像取得部111の撮影画像は、送信情報生成部114に入力される。
 送信情報生成部114は、画像取得部111の取得した撮影画像情報137、デプス情報136、さらに、被写体10の属性情報134、特徴点情報135を生成して、通信部115を介して送信する。
 なお、属性情報134については、被写体10が同一である場合は、一度のみの送信でよい。その他の情報は、画像フレームの送信ごとに逐次送信する。
 受信装置120は、送信装置110から、上記の各データを受信して、画像処理部122において、受信データを適用して、送信装置110から受信する被写体10の画像(テクスチャ)に対して、コンピュータ・グラフィックス(CG)処理による加工処理を施した3次元画像を生成して表示部124に3D画像30を表示する。
 図4に示す構成において、受信装置120の画像処理部122は、3次元モデル情報生成部を含む構成である。すなわち、画像処理部122は、被写体10の撮影画像に基づいて、被写体の3次元モデル情報を生成する。
 画像処理部122の生成する3次元モデル情報には、先に図3を参照して説明したメッシュデータ、テクスチャ情報、UVマップが含まれる。
 メッシュデータ131は、先に説明したように、3次元モデルの細かな分割領域で
ある三角形や四角形等の多角形領域である。
 このメッシュにマテリアルを設定することで、3次元画像の描画処理、レンダリングが行われる。
 なお、受信装置120における3次元画像のリアルタイム表示処理を行う場合、その事前処理として、被写体10の基本となる3次元画像の生成やデータベース123に対する格納処理等を行う。
 この事前処理において、リアルタイム処理に必要となる様々なデータが、データベース123に格納された後、リアルタイム処理による3次元画像表示処理を行う。
 リアルタイム処理では、送信装置110から受信する被写体画像に対して、リアルタイムでコンピュータ・グラフィックス(CG)処理による加工処理を施した3次元画像を生成して表示部に3D画像30を表示する処理が行われる。
 このリアルタイム処理では、例えば被写体の属性情報に応じた最適なマテリアルの設定行い、より自然な3次元画像を生成して表示する。
 図4に示す受信装置120側の画像処理部122に、3次元モデル情報生成部を設定した構成を適用した具体的な処理例について、図5を参照して説明する。
 なお、以下では、受信装置120側の画像処理部122に3次元モデル情報生成部を設定した構成を適用した処理例について説明するが、以下で説明する処理は、図3を参照して説明した送信装置110側に3Dモデル情報生成部を設けた構成例においても、処理の実行主体が異なるのみであり、同様の処理が適用可能である。
 図5に示すように、受信装置120は、送信装置110から、
 撮影画像情報137、
 デプス情報136、
 属性情報134、
 特徴点情報135、
 これらの情報を入力する。
 画像処理部122は、例えば以下の処理を実行する。
 (a1)3次元(3D)モデルの生成、修正(影(Shadow)や反射(Specular)の除去等)
 (a2)マスクイメージ生成
 (a3)被写体属性情報取得
 (a4)被写体属性対応テンプレートデータベースの作成
 画像処理部122は、例えば上記の処理を実行する。
 (a1)3Dモデルの生成、修正(影(Shadow)や反射(Specular)の除去等)とは、送信装置110から受信する被写体10の撮影画像に基づいて、被写体の3次元モデル情報を生成し、テクスチャ情報を修正する処理である。
 生成する3次元モデル情報には、メッシュデータ、テクスチャ情報、UVマップが含まれる。
 メッシュデータは、先に説明したように、3次元モデルの細かな分割領域である三角形や四角形等の多角形領域である。
 このメッシュにマテリアルを設定することで、3次元画像の描画処理、レンダリングが行われる。
 テクスチャ情報132は、メッシュデータ131に貼り付けるテクスチャの素材情報である。
 UVマップは、メッシュデータにテクスチャを貼り付ける処理、いわゆるテクスチャマッビングを行う際に必要となる座標情報である。
 さらに、画像処理部122は、必要に応じて、生成したテクスチャ情報の修正(影(Shadow)や反射(Specular)の除去等)を行う。
 受信装置120は、生成した3Dモデルに対して、メッシュ単位のマテリアルの設定、すなわちメッシュ単位のテクスチャの貼り付けやシェーダによる画素値設定等のCG処理を施して表示用の3D画像を生成する。
 しかし、受信装置から入力する撮影画像に基づいて生成されたテクスチャ画像は、被写体10の撮影時の環境光による影や反射等が含まれる場合がある。このような余分な濃淡情報が含まれる画像をベースとしてマテリアル設定、すなわちテクスチャ貼り付け等のCG加工を行うと撮影時の影や反射が反映されてしまい、不自然な画像が生成されとしまう場合がある。
 このような問題が発生するのを防止する処理として、テクスチャ画像の修正が行われる。
 (a2)マスクイメージ生成は、メッシュ単位のマテリアル設定を行う場合のマテリアル設定対象以外の領域を隠すためのマスクイメージの生成処理である。
 例えば人物の3D画像モデルをCG処理によって生成する場合、人物の肌、髪等、パーツ単位で異なるマテリアルを設定することが必要となる。
 このようなマテリアル設定範囲を規定するためのマスクイメージを生成する。
 具体的なマスクイメージの例とマテリアル設定例については後述する。
 (a3)被写体属性情報取得処理は、送信装置110において撮影された被写体の属性情報を取得する処理である。
 具体的な属性情報は、例えば性別、年齢、人種、肌質、構成パーツ(口、眼、鼻等)の情報である。なお、これらの属性情報は画像解析によって行うことも可能であるが、送信装置110においてユーザが入力した情報を用いてもよい。
 (a4)被写体属性対応テンプレートデータベースの作成処理は、上述した被写体の属性情報とテクスチャ等のマテリアル情報を対応付けたデータベースである。
 このテンプレートデータベースを、送信装置120のデータベース123内に格納することで、リアルタイムでの3D画像モデルの生成処理を高速に行うことができる。
 具体的なテンプレートデータベースの例については後述する。
 このように、図5に示す受信装置120の画像処理部122は、以下の処理を行う。
 (a1)3Dモデルの生成、テクスチャ画像の修正(影(Shadow)や反射(Specular)の除去等)
 (a2)マスクイメージ生成
 (a3)被写体属性情報取得
 (a4)被写体属性対応テンプレートデータベースの作成
 画像処理部122による上記処理の結果として生成されるデータは、記憶部としてデータベース123に格納される。
 図5に示すように、データベース123には、以下の各情報が格納される。
 (b1)マスクイメージ
 (b2)被写体属性情報
 (b3)被写体属性対応テンプレートデータベース
 これらのデータは、図5に示す受信装置120の画像処理部122が、送信装置110から受信するデータに基づいて生成したデータである。
 データベースに所定のデータが格納されると、リアルタイム処理、すなわち、送信装置110から送信される被写体画像等のデータを受信装置120が受信し、その受信データに対してリアルタイムでCG処理を施して表示用の3D画像を生成して表示部に表示するリアルタイム処理が実行される。
 リアルタイム処理では、送信装置110側の画像取得部111が、被写体10のリアルタイム画像を撮影する。
 画像取得部111の撮影画像は、送信情報生成部114に入力される。
 送信情報生成部114は、
 撮影画像情報137、
 デプス情報136、
 属性情報134、
 特徴点情報135、
 これらの情報を通信部115、ネットワーク20を介して受信装置120に送信する。
 なお、前述したように、属性情報134は、被写体10の変更がない場合は、一度のみの送信でよい。
 受信装置120は、送信装置110からに有力する上記情報を用いて、表示部124に表示する出力映像である3D画像を生成して表示する。
 なお、リアルタイム処理では、被写体の現在の撮影画像を利用して、事前処理において取得しデータベース123に格納済みの情報を適用して、CG加工した3D画像を生成して表示する処理を行う。
  [3.画像処理装置の構成例について]
 次に、3D画像生成処理を行う画像処理装置、すなわち、図5に示す受信装置120の具体的な構成について、図6以下を参照して説明する。
 図6は、画像処理装置、すなわち図5に示す受信装置120に相当する画像処理装置200の構成例を示す図である。
 図6に示すように、画像処理装置200は、画像入力部(通信部)201、ユーザ入力部(ユーザIF)202、画像処理部203、記憶部(DB)204、表示部205を有する。
 画像入力部(通信部)201は、図4、図5に示す受信装置120の通信部121に相当する。
 ユーザ入力部(ユーザIF)202は、図4、図5に示す受信装置120には示されていないが、受信装置120に構成された入力部である。
 画像処理部203は、図4、図5に示す受信装置120の画像処理部122に相当する。
 記憶部(DB)204は、図4、図5に示す受信装置120のデータベース123に相当する。
 表示部205は、図4、図5に示す受信装置120の表示部124に相当する。
 図6に示すように、画像処理部203は、画像情報解析部211、メッシュ編集部212、マテリアル適用部213、レンダリング部214を有する。
 画像情報解析部211には、特徴量抽出部211a、属性解析部211bが含まれる。
 メッシュ編集部212には、メッシュ取得部212a、メッシュ分割部212b、モデル追加部212cが含まれる。
 マテリアル適用部213には、マスク画像生成部213a、テクスチャマップ生成部213bが含まれる。
 記憶部(DB)204には、先に図4を参照して説明した事前処理によって送信装置110から取得したデータや画像処理部203の処理によって生成されたデータが格納される。さらに、図5を参照して説明したリアルタイム処理において、画像処理部203が生成するデータも格納される。
 記憶部(DB)204の格納データの例を図7に示す。
 図7に示すように、記憶部(DB)204には、マスク画像222、被写体属性情報223、テンプレートデータベース224等が格納される。
 マスク画像222は、リアルタイム処理において適用するメッシュ対応のマテリアル設定処理において、マテリアル設定領域以外のその他の領域をマスキングするためのマスク画像である。
 本開示の処理では、送信装置110から受信する毎フレーム異なる撮影画像の各々から、目、鼻、頬、衣服等の顔器官等の部位の検出や,特徴点検出等を実行して,各部位に設定するマテリアル単位のマスク画像を生成し,マテリアルの適用範囲を決定した上で、各部位に対するマテリアル設定処理を実行する。
 マスク画像222は、各被写体構成要素単位(部位単位)のマスキングに適用する画像である。
 具体的なマスク画像の例と適用処理については後段で説明する。
 被写体属性情報223は、先に図5を参照して説明した処理において取得される情報である。
 具体的な属性情報は、例えば性別、年齢、人種、肌質、構成パーツ(口、眼、鼻等)の情報である。なお、これらの属性情報は画像解析によって行うことも可能であるが、送信装置110、あるいは受信装置120においてユーザが入力した情報を用いてもよい。
 テンプレートデータベース224は、図7に示すように、
 属性情報と、マテリアルとの対応データである。
 属性情報には、被写体属性情報と、部位属性情報が含まれる。
 マテリアルは、テクスチャマップによって構成される。
 被写体属性情報は、例えば、「性別」、「年齢」、「人種」、「肌質」等の被写体である人物の属性情報である。
 部位属性情報は、例えば、目、鼻、眉毛、頬(チーク)等の人の顔の各部位の識別情報となる属性情報である。
 これらの属性情報は、事前処理、またはリアルタイム処理において、送信装置110から受信する画像データに基づいて取得可能であり、また、ユーザ入力情報に基づいて取得してもよい。
 このテンプレートデータベースは、属性情報とマテリアルとの対応データである。
 画像処理装置200の画像処理部203が、リアルタイム処理によりCG効果を施した3D画像を生成する処理を行う場合、画像処理部203は、このテンプレートデータベースを参照して、送信装置110から受信する被写体画像、例えば人物の撮影画像から検出された人の目、鼻、頬(チーク)等の部位に設定すべきマテリアルを即座に取得することができる。
 すなわち、このテンプレートデータベースを利用することで、送信装置110から送信される被写体映像を構成するフレーム単位で、被写体構成要素単位(部位単位)の最適なマテリアル設定を短時間で行うことが可能となり、3D画像生成をリアルタイム処理として実行することができる。
 なお、図7に示すテンプレートデータベース224の構成では、マテリアルとしてテクスチャマップのみを記録しており、シェーダについては記録していない。
 シェーダは、前述したように、メッシュ内の画素(ピクセル)ごとの描画色を計算するアルゴリズムである。図7に示す設定のテンプレートデータベースを利用した処理を行う場合、テクスチャはテンプレートデータベースから取得し、シェーダについては、フレーム単位でその都度計算処理を実行してメッシュ内のピクセル単位の描画色の決定処理を行うことになる。
 図7に示すテンプレートデータベース224と異なる設定としたテンプレートデータベース204の構成例を図8に示す。
 図8に示すテンプレートデータベース224は、マテリアルとしてテクスチャマップとシェーダを記録している。
 図8に示す設定のテンプレートデータベースを利用すれば、テクスチャに併せてシェーダの情報もテンプレートデータベースから取得することが可能であり、フレーム単位、被写体構成要素単位(部位単位)でメッシュ内のテクスチャ、ピクセルごとの描画色の決定が可能となる。
  [4.画像処理装置の実行する処理について]
 次に、リアルタイムでの3D画像生成処理を行う画像処理装置、すなわち、図6を参照して説明した構成を有する画像処理装置200(=図5の受信装置120)の実行する具体的な処理について、図9以下を参照して説明する。
 図9は、画像処理装置、すなわち、図6に示す画像処理装置200(=図5の受信装置120)の実行する処理のシーケンスを説明するフローチャートである。
 以下、このフローチャートに従って、図6に示す画像処理装置200(=図5の受信装置120)の実行する処理の具体例について説明する。
 なお、図9に示すフローチャートに従った処理は、例えば、画像処理装置の記憶部に格納されたプログラムに従って、プログラム実行機能を持つCPU等を備えたコントローラからなるデータ処理部の制御の下に実行される。
 図9に示すフローの各ステップの処理について、順次、説明する。
  (ステップS101)
 まず、画像処理装置200の画像入力部201が、3D画像の生成元となる撮影画像情報137,デプス情報を入力する。
 なお、このフローに示すステップS101~S109の処理は、例えば図5に示す送信装置110から送信される被写体の撮影映像を構成する画像フレームごとに実行される。
 すなわち、最終的なステップS109では、送信装置110から送信される画像フレーム単位でCG効果を付与した3D画像のレンダリングが行われることになる。
  (ステップS102)
 次に、ステップS102において、画像情報解析部211の属性解析部211bが、入力撮影画像に基づいて、被写体の人物の属性(性別、年齢、肌質等)を分析する。
 なお、この処理は、事前に行っておくことも可能であり、リアルタイム処理として行ってもよい。
 先に説明したように、属性情報取得処理は、送信装置110から送信される撮影画像情報137や、3Dモデル情報を解析して行う。
 具体的な属性情報には、例えば性別、年齢、人種、肌質、構成パーツ(口、眼、鼻等)の情報等が含まれる。なお、これらの属性情報は画像解析によって行うことも可能であるが、ユーザ入力情報を用いてもよい。
  (ステップS103)
 次に、ステップS103において、特徴量抽出部211aが、ステップS101で入力した撮影画像の特徴量に基づいて、被写体(人)の各部位(顔器官である目、鼻口、眉や、肌領域、体部位、髪、衣服等)対応の区分領域を設定する。
 図10に顔器官である目、鼻口、眉等の特徴点の例を示す。
 図10に示す例において、特徴点1~17は顔輪郭を示す特徴点であり、
 特徴点18~22、23~27が眉を示す特徴点である。
 特徴点28~36が鼻を示す特徴点である。
 特徴点37~48が目を示す特徴点である。
 特徴点49~68が口を示す特徴点である。
 例えば画像からこれらの特徴点を検出して、各部位(顔器官である目、鼻口、眉や、肌領域、体部位、髪、衣服等)対応の区分領域を設定する。
 なお、区分領域の設定には、上記の特徴点に基づく処理の他、従来から知られるセマンティックセグメンテーション(Semantic Segmentation)も利用可能である。
 例えば、顔領域、手、髪、衣服等の領域検出や区分領域の設定にはセマンティックセグメンテーション(Semantic Segmentation)の利用が可能である。
  (ステップS104)
 次に、ステップS104において、マスク画像生成部213aが、特徴量に基づく区分領域単位のマテリアル設定を行うために適用するマスク画像を生成する。
 前述したように、マスク画像は、リアルタイム処理において適用するメッシュ対応のマテリアル設定処理において、マテリアル設定領域以外のその他の領域をマスキングするためのマスク画像である。
 本開示の処理では、送信装置110から受信する毎フレーム異なる撮影画像の各々から、目、鼻、頬、衣服等の顔器官等の部位の検出や,特徴点検出等を実行して,各部位に設定するマテリアル単位のマスク画像を生成し,マテリアルの適用範囲を決定した上で、各部位に対するマテリアル設定処理を実行する。
 マスク画像は、被写体構成要素単位(部位単位)のマスキングに適用する画像である。
 マスク画像の例について図11を参照して説明する。
 図11には、以下の各図を示している。
 (A)入力画像
 (1)~(8)各区分領域単位のマスク画像
 例えば、(1)顔マスクは、被写体画像中の顔領域に対するマテリアル設定時に適用するマスクである。この顔マスクにより、顔領域以外の画像領域は、マスキングされることになる。この顔マスクを利用したマテリアル設定処理を行うことで、マテリアルは顔領域のみに適用され、その他の領域には適用されない。
 同様に、(2)手マスクは、被写体画像中の手領域に対するマテリアル設定時に適用するマスクである。この手マスクにより、手領域以外の画像領域は、マスキングされることになる。この手マスクを利用したマテリアル設定処理を行うことで、マテリアルは手領域のみに適用され、その他の領域には適用されない。
 以下、(3)髪マスク、(4)衣服マスク、(5)目マスク、(6)鼻マスク、(7)口マスク、(8)頬(チーク)マスクについても同様であり、各マスクは、マイリアル設定対象領域以外の画像領域を全てマスキングする構成を持つマスク画像である。
 ステップS104では、マスク画像生成部213aが、特徴量に基づく区分領域単位のマテリアル設定を行うために適用するマスク画像、すなわち例えば図11に示すようなマスク画像を生成する。
 なお、図11に示すマスク画像は一例であり、その他、被写体に応じて様々なマスク画像を生成する。
 マスク画像の生成処理には、テンプレート画像を利用する構成としてもよい。例えば、図11に示す(1)顔マスク、(2)手マスク、(3)髪マスク、(4)衣服マスク、(5)目マスク、(6)鼻マスク、(7)口マスク、(8)頬(チーク)マスク、これらの各マスク画像のテンプレート画像を予め記憶部204に格納しておき、このテンプレートマスク画像を、送信装置から入力する被写体画像に応じて修正して、入力画像に適合したマスク画像を生成することができる。
 テンプレート画像を適用した目マスク画像の生成処理例について、図12を参照して説明する。
 例えば、図12(1)に示すような目に適用するためのテンプレートマスク画像が予め記憶部204に格納されている。
 マスク画像生成部213aは、画像入力部201を介して入力した被写体の撮影画像内の特徴点から目の領域付近の特徴点を使用特徴点として選択する。図12(2)使用特徴点は、被写体画像の左目領域近傍の特徴点である。
 この特徴点は、先に図10を参照して説明した特徴点に対応する。
 この特徴点に基づいて、(1)に示すテンプレートマスク画像を、撮影画像の目の領域に適合させる回転処理と、リサイズ処理を行う。
 図12(3)が回転処理であり、(4)がリサイズ処理を示している。
 図12(3)に示すように、特徴点{17,29}のラインに基づいて、テンプレート画像の回転角度を算出する。
 さらに、図12(4)に示すように、特徴点{17,23,24,25,26,27,29}の領域のテンプレート画像を入力画像に適合するようにリサイズする。本例では、X方向(水平方向)に0.9倍、Y方向(垂直方向)に1.0倍のリサイズを行う。
 このような処理を行うことで、(1)に示すテンプレートマスク画像を利用して、撮影画像の目の領域に適合した目マスク画像を生成することができる。
 図13は、テンプレート画像を適用した鼻マスク画像の生成処理例について説明する図である。
 例えば、図13(1)に示すような鼻に適用するためのテンプレートマスク画像が予め記憶部204に格納されている。
 マスク画像生成部213aは、画像入力部201を介して入力した被写体の撮影画像内の特徴点から鼻の領域付近の特徴点を使用特徴点として選択する。図13(2)使用特徴点は、被写体画像の鼻領域近傍の特徴点である。
 この特徴点は、先に図10を参照して説明した特徴点に対応する。
 この特徴点に基づいて、(1)に示すテンプレートマスク画像を、撮影画像の鼻領域に適合させる回転処理と、リサイズ処理を行う。
 図13(3)が回転処理であり、(4)がリサイズ処理を示している。
 図13(3)に示すように、特徴点{37,46}のラインに基づいて、テンプレート画像の回転角度を算出する。
 さらに、図13(4)に示すように、特徴点{28,29,30,31,40,43}の領域のテンプレート画像を入力画像に適合するようにリサイズする。本例では、X方向(水平方向)に0.7倍、Y方向(垂直方向)に1.1倍のリサイズを行う。
 このような処理を行うことで、(1)に示すテンプレートマスク画像を利用して、撮影画像の鼻領域に適合した鼻マスク画像を生成することができる。
 図14は、テンプレート画像を適用した頬(チーク)マスク画像の生成処理例について説明する図である。
 例えば、図14(1)に示すような頬(チーク)に適用するためのテンプレートマスク画像が予め記憶部204に格納されている。
 マスク画像生成部213aは、画像入力部201を介して入力した被写体の撮影画像内の特徴点から頬(チーク)の領域付近の特徴点を使用特徴点として選択する。図14(2)使用特徴点は、被写体画像の頬(チーク)領域近傍の特徴点である。
 この特徴点は、先に図10を参照して説明した特徴点に対応する。
 この特徴点に基づいて、(1)に示すテンプレートマスク画像を、撮影画像の頬(チーク)領域に適合させる回転処理と、リサイズ処理を行う。
 図14(3)が回転処理であり、(4)がリサイズ処理を示している。
 図14(3)に示すように、特徴点{17,29}のラインに基づいて、テンプレート画像の回転角度を算出する。
 さらに、図14(4)に示すように、特徴点{17,29,55}の領域のテンプレート画像を入力画像に適合するようにリサイズする。本例では、X方向(水平方向)に0.8倍、Y方向(垂直方向)に1.0倍のリサイズを行う。
 このような処理を行うことで、(1)に示すテンプレートマスク画像を利用して、撮影画像の頬(チーク)領域に適合した頬(チーク)マスク画像を生成することができる。
 図15は、テンプレート画像を適用した口周りマスク画像の生成処理例について説明する図である。
 例えば、図15(1)に示すような口周りに適用するためのテンプレートマスク画像が予め記憶部204に格納されている。
 マスク画像生成部213aは、画像入力部201を介して入力した被写体の撮影画像内の特徴点から口周りの領域付近の特徴点を使用特徴点として選択する。図15(2)使用特徴点は、被写体画像の口周り領域近傍の特徴点である。
 この特徴点は、先に図10を参照して説明した特徴点に対応する。
 この特徴点に基づいて、(1)に示すテンプレートマスク画像を、撮影画像の口周り領域に適合させる回転処理と、リサイズ処理を行う。
 図15(3)が回転処理であり、(4)がリサイズ処理を示している。
 図15(3)に示すように、特徴点{49,55}のラインに基づいて、テンプレート画像の回転角度を算出する。
 さらに、図15(4)に示すように、特徴点{9,31,49,55}の領域のテンプレート画像を入力画像に適合するようにリサイズする。本例では、X方向(水平方向)に1.3倍、Y方向(垂直方向)に0.9倍のリサイズを行う。
 このような処理を行うことで、(1)に示すテンプレートマスク画像を利用して、撮影画像の口周り領域に適合した口周りマスク画像を生成することができる。
 また、テンプレート画像を利用しないマスク画像生成処理も可能である。
 図16は、テンプレート画像を利用せずに唇マスク画像を生成する処理例について説明する図である。
 マスク画像生成部213aは、画像入力部201を介して入力した被写体の撮影画像内の特徴点から唇領域付近の特徴点を使用特徴点として選択する。図16(2)使用特徴点は、被写体画像の唇領域近傍の特徴点である。
 この特徴点は、先に図10を参照して説明した特徴点に対応する。
 この特徴点に基づいて、唇マスク画像を生成する。
 図16(3)が上唇マスク画像の生成処理であり、(4)が下唇マスク画像の生成処理を示している。
 図16(3)に示すように、上唇マスク画像の生成処理においては、特徴点{49,50,51,52,53,54,55,65,64,63,62,61}の輪郭に基づいて、上唇マスク画像を生成する。
 また、図16(4)に示すように、下唇マスク画像の生成処理においては、特徴点{49,60,59,58,57,56,55,65,64,63,62,61}の輪郭に基づいて、下唇マスク画像を生成する。
 このような処理を行うことで、テンプレートマスク画像を利用することなく、撮影画像の唇領域に適合した唇マスク画像を生成することができる。
 図17は、テンプレート画像を利用せずに口の中マスク画像を生成する処理例について説明する図である。
 マスク画像生成部213aは、画像入力部201を介して入力した被写体の撮影画像内の特徴点から口の中領域付近の特徴点を使用特徴点として選択する。図17(2)使用特徴点は、被写体画像の口の中領域近傍の特徴点である。
 この特徴点は、先に図10を参照して説明した特徴点に対応する。
 この特徴点に基づいて、口の中マスク画像を生成する。
 図17(3)が口の中唇マスク画像の生成処理を示している。
 図17(3)に示すように、口の中マスク画像の生成処理においては、特徴点{61,62,63,64,65,66,67,68}の輪郭に基づいて、口の中マスク画像を生成する。
 このような処理を行うことで、テンプレートマスク画像を利用することなく、撮影画像の口の中領域に適合した口の中マスク画像を生成することができる。
 その他の(1)顔マスク、(2)手マスク、(3)髪マスク、(4)衣服マスク等、これらの各マスク画像についても、テンプレート画像を利用、または利用せずに被写体画像に応じたマスク画像を生成することができる。
 このように、図9に示すフローのステップS104では、例えば、上述した処理によってマスク画像生成処理が実行される。
 図9のフローチャートのステップS105以下の処理について説明する。
  (ステップS105)
 ステップS105において、メッシュ取得部212aが、撮影画像対応の3Dモデルにメッシュを設定し、メッシュ分割部212bが、マスク画像に応じたメッシュ分割処理を実行する。
 前述したように、メッシュは、3次元モデルの細かな分割領域である三角形や四角形等の多角形領域である。
 このメッシュにマテリアルを設定することで、3次元画像の描画処理、レンダリングが行われる。3次元画像を描画(レンダリング)する場合、メッシュ単位で最適なマテリアルを設定することが必要となる。
 3次元モデルの構成要素となるメッシュに対して、そのメッシュの実際の材質に近いマテリアル、具体的には、テクスチャやシェーダを設定することで、リアリティのある3次元モデルデータを生成することができる。
 メッシュは、送信装置から入力される撮影画像と、先に図4を参照して説明した事前処理においてデータベースに格納された被写体の3次元モデルデータを利用して、既定のアルゴリズムを適用して取得することができる。なお、レンダリング処理によって生成する最終的なCG効果付与3次元画像の設定、例えば光源位置の設定条件等を考慮してメッシュ設定を行うことが好ましい。
 ステップS105では、まず、メッシュ取得部212aが、入力撮影画像に対応する3次元モデル上にメッシュを設定し、さらにメッシュ分割部212bが、ステップS104で生成したマスク画像に応じたメッシュ分割処理を実行する。
 マスク画像には、先に図11を参照して説明したように、例えば、(1)顔マスク~(8)頬マスク等、様々なマスク画像がある。これらは、各部位に対するマテリアル適用処理において利用するマスクである。
 しかし、マスク画像が既定する各部位の領域と、メッシュによって規定される区分領域は、多くの場合一致しない。
 例えば1つの三角形領域である1つのメッシュ領域が、目マスクによってマスクされない目の領域(=目対応のマテリアル適用領域)と、目マスクによってマスクされる目以外の領域(=目対応のマテリアル非適用領域)の両方に広がっているといったことがある。
 マテリアル設定は、メッシュ単位で実行するので、このようなメッシュが存在すると、目の領域と目以外の領域に同じマテリアルの設定処理がなされてしまう。
 このような事態を防止するため、メッシュをマスク画像に応じて再分割して、マスク画像よってマスクされないマテリアル適用領域と、マスク画像よってマスクされるマテリアル非適用領域とを分割した新たなメッシュ設定を行うことが必要となる。
 この処理を、メッシュ分割部212bが実行する。
 すなわち、ステップS104で生成したマスク画像に応じたメッシュ分割処理を実行する。
  (ステップS106)
 次に、ステップS106において、モデル追加部212cが、特徴量情報に基づいて、記憶部(DB)204に格納された3次元モデルを設置する。例えば、眼球の前に角膜モデルを設置する処理などを実行する。
 3次元画像の生成処理は、基本的にはメッシュに対してマテリアルを設定する処理として実行するが、例えば、眼球等の特殊な部位については、予め容易された3次元モデルを貼り付ける処理を行った方がリアリティを増すことができる。
 ステップS106では、このような3次元モデル追加処理を行う。
 なお、3次元モデルは、記憶部(DB)204に予め格納されている。例えば事前処理において、送信装置110から受信した3次元モデル情報を利用することが可能である。
 例えば、眼球の前に角膜モデルを設置する処理を行う場合は、黒目の中に白いハイライト領域を設定したモデルを設定することで、視線方向が設定される。
 黒目内の適切な位置にハイライト部分を設定するためには、例えば送信装置から受信する撮影画像の視線方向を検出し、検出した視線方向に基づいてハイライト領域設定位置を決定することが好ましい。
 また、レンダリングによって生成した3D画像内の顔画像の黒目内のハイライト領域と、表示した3D画像の光源位置とが対応するように、光源位置は、顔画像の前方に設定することが好ましい。
  (ステップS107)
 次に、ステップS107において、テクスチャマップ生成部213bが、各マテリアルに必要なテクスチャマップ(ベースカラー、シャイニネス、キャビティ、ノーマル等)を、属性解析結果と、テンプレートデータベースに従って生成する。
 先に説明したように、3次元画像の生成処理を行う場合、3次元画像の構成要素であるメッシュに対して、そのメッシュの実際の材質に近いマテリアル、具体的には、テクスチャやシェーダを設定する。このマテリアル設定処理によりリアリティのある3次元画像を生成することができる。
 テクスチャは、各々が異なる効果を持つ複数のテクスチャマップを合成して生成することが可能な画像データである。
 先に図2を参照して説明したように、テクスチャマップには、例えば、以下の種類がある。
 (1)ベースカラーマップ(Base color map)
 (2)シャイニネスマップ(Shininess map)
 (3)ノーマルマップ(Normal map)
 (4)キャビティマップ(Cavity map)
 (5)メタリックマップ(Metallic map)
 (1)ベースカラーマップ(Base color map)は、基礎(絵柄)となる色情報である。
 (2)シャイニネスマップ(Shininess map)は、物質の滑らかさを制御するテクスチャマップであり、輝度が高い箇所ほどスペキュラ(鏡面反射)が鋭くなる。黒(0,0)が完全拡散反射であり、白(1,0)が完全鏡面反射である。
 具体的には、光沢度であり、例えば、顔の部位ごとの照りの差を表現することができる。
 (3)ノーマルマップ(Normal map)は、微細凹凸を表現するテクスチャマップであり、皺、ホクロなど顔の細かい凹凸を表現することができる。
 (4)キャビティマップ(Cavity map)は、スペキュラ(鏡面反射)の強さを抑制したいときに用いる。例えば、毛穴やシミなど微小な陰を生成することができる。
 (5)メタリックマップ(Metallic map)は、金属度合いの制御を行う場合に利用されるテクスチャマップであり、黒(0,0)が非金属、白(1,0)が金属に相当する。例えば、金具部分に適用すると金属の質感を表現することができる。
 このように、テクスチャは、各々が異なる効果を持つ複数のテクスチャマップを合成して生成することが可能な画像データである。
 ステップS107では、レンダリングによって生成する3次元画像の各メッシュに設定するマテリアルの要素であるテクスチャを決定する。
 このテクスチャの決定処理には、記憶部(DB)204に格納されたテンプレートデータベース224を利用する。
 テンプレートデータベース224は、先に図7を参照して説明したように、
 属性情報と、マテリアルとの対応データである。
 属性情報には、被写体属性情報と、部位属性情報が含まれる。
 マテリアルは、テクスチャマップによって構成される。
 被写体属性情報は、例えば、「性別」、「年齢」、「人種」、「肌質」等の被写体である人物の属性情報である。
 部位属性情報は、例えば、目、鼻、眉毛、頬(チーク)等の人の顔の各部位の識別情報となる属性情報である。
 これらの属性情報は、ステップS102において取得される情報である。例えば、先に図4を参照して説明した事前処理、図5を参照して説明したリアルタイム処理において、送信装置110から受信する画像データに基づいて取得可能であり、また、ユーザ入力情報に基づいて取得してもよい。
 図7に示すようにテンプレートデータベースは、属性情報とマテリアルとの対応データである。
 画像処理装置200の画像処理部203が、リアルタイム処理によりCG効果を施した3D画像を生成する処理を行う場合、画像処理部203は、このテンプレートデータベースを参照して、送信装置110から受信する被写体画像、例えば人物の撮影画像から検出された人の目、鼻、頬(チーク)等の部位に設定すべきマテリアルを即座に取得することができる。
 図7に示すテンプレートデータベース224の構成では、マテリアルとしてテクスチャマップを記録している。
 すなわち、属性情報(被写体属性と部位属性)に応じて適用するテクスチャマップの設定が記録されている。
 具体的には、例えば、20~35才の白人女性の普通肌という被写体属性の
 (a)目の周りの領域のメッシュに貼り付けるテクスチャマップの設定、
 (b)鼻筋の領域のメッシュに貼り付けるテクスチャマップの設定、
 (c)眉毛の領域のメッシュに貼り付けるテクスチャマップの設定、
 (d)頬(チーク)の領域のメッシュに貼り付けるテクスチャマップの設定、
   ・・・・・
 これら被写体属性と部位属性に対応して適用すべきテクスチャマップが登録されている。
 このテンプレートデータベースを利用することで、送信装置110から送信される被写体映像を構成するフレーム単位で、被写体構成要素単位(部位単位)の最適なマテリアル設定を短時間で行うことが可能となり、3D画像生成をリアルタイム処理として実行することができる。
 なお、図7に示す設定のテンプレートデータベースを利用した処理を行う場合、テクスチャはテンプレートデータベースから取得し、シェーダについては、フレーム単位でその都度計算処理を実行してメッシュ内のピクセル単位の描画色の決定処理を行うことになる。
 前述したように、図8に示すテンプレートデータベース224は、マテリアルとしてテクスチャマップとシェーダを記録している。
 図8に示す設定のテンプレートデータベースを利用すれば、テクスチャに併せてシェーダの情報もテンプレートデータベースから取得することが可能であり、フレーム単位、被写体構成要素単位(部位単位)でメッシュ内のテクスチャ、ピクセルごとの描画色の決定が可能となる。
 なお、図7や図8に示すテンプレートデータベースを利用したマテリアル設定を行う場合、ユーザの好みに応じたテンプレートデータベースの設定変更を行うことも可能である。
 例えば、鼻領域に設定するマテリアルとして、予めデフォルトデータとして設定されたマテリアルを利用する構成も可能であるが、例えば鼻筋をより強調したテクスチャを持つマテリアルを設定するように変更するといった処理を行うことも可能である。
 あるいは頬(チーク)に設定するマテリアルとして、例えば、より滑らかな肌質に見えるテクスチャを持つマテリアルを設定するように変更するといった処理を行うことも可能である。
  (ステップS108)
 ステップS108では、レンダリング部214が、3Dモデルに対して、マテリアルを適用させるレンダリングを実行する。
 この処理は、ステップS107において、テンプレートデータベース224から取得される属性情報(被写体属性と部位属性)対応のテクスチャマップを利用して、各部位のメッシュにマテリアル設定、すなわちテクスチャの貼り付けを行う。さらに、ピクセル単位の描画色の決定アルゴリズムであるシェーダを適用してピクセル単位の描画色の決定処理を行う。
 なお、図8に示すテンプレートデータベース224を利用した場合は、テクスチャに併せてシェーダの情報もテンプレートデータベースから取得可能であり、フレーム単位、被写体構成要素単位(部位単位)でメッシュ内のテクスチャ、ピクセルごとの描画色の決定が可能となる。
  (ステップS109)
 最後に、ステップS109において、表示部205がステップS108で生成したレンダリング結果を表示する。
 なお、ステップS101~S109の処理は、画像入力部201が入力する画像フレームごとに実行する。
 この処理は、リアルタイム処理として実行され、例えば、図5に示す送信装置110側で撮影された画像が、リアルタイムで、受信装置120側でCG効果の施された3次元画像として表示されることになる。
 このリアルタイム処理を実現可能としている一つの大きな要素は、テンプレートデータベースである。
 すなわち、被写体属性と部位属性に対応して適用すべきテクスチャマップが登録されたテンプレートデータベースを利用することで、送信装置110から送信される被写体映像を構成するフレーム単位で、被写体構成要素単位(部位単位)の最適なマテリアル設定を短時間で行うことが可能となり、3D画像生成をリアルタイム処理として実行することができる。
  [5.ユーザ入力情報に基づくカスタマイズを行った3D画像を生成する処理例について]
 次に、ユーザ入力情報に基づくカスタマイズを行った3D画像を生成する処理例について説明する。
 図6に示す画像処理装置200は、ユーザ入力部202を介して、レンダリングによって生成する3次元画像のカスタマイズ情報を入力することが可能である。
 例えば、顔の化粧設定情報、具体的には、口紅の色、頬紅の色、塗布領域、眉の設定等の様々な設定情報をカスタマイズ情報として入力可能である。
 画像処理装置200の画像処理部203は、ユーザ入力部202を介して入力されるカスタマイズ情報を利用して表示部205に表示する3次元画像のレンダリングを行うことができる。
 例えば、画像入力部201を撮像部として設定し、撮像部の撮影した自分の顔画像に対して、メーキャップを施した3D画像を生成して表示部205に表示するといった処理を行うことが可能である。
 このような処理において、被写体をリアルに再現した3D画像ではなく、自分の理想となる肌質や、メイクになるようなマテリアルを適用することで、プリクラの美肌や、バーチャルメーキャップの効果を反映した3D画像を生成して表示するといった処理が可能となる。
 本実施例では、様々なカスタマイズ(修正、変更)を許容した属性情報-マテリアル対応データであるテンプレートデータベースを利用した処理を行う。
 本実施例において適用するテンプレートデータベースの例について、図18を参照して説明する。
 テンプレートデータベース224は、図18に示すように、
 ユーザによる修正、変更可能な情報であるカスタマイズ可能な属性情報と、マテリアルとの対応データである。
 カスタマイズ可能な属性情報には、被写体属性情報と、部位属性情報が含まれる。
 カスタマイズ可能なマテリアルは、テクスチャマップによって構成される。
 被写体属性情報は、例えば、「性別」、「年齢」、「人種」、「肌質」等の被写体である人物のカスタマイズ可能な属性情報である。
 部位属性情報は、例えば、目、鼻、眉毛、頬(チーク)等の人の顔の各部位の識別情報となるカスタマイズ可能な情報である。
 帆編実施例において、属性情報とマテリアルとの対応関係は、ユーザ入力部202から入力するユーザ入力情報に基づいて設定、変更が可能である。
 画像処理装置200の画像処理部203が、リアルタイム処理によりCG効果を施した3D画像を生成する処理を行う場合、画像処理部203は、このテンプレートデータベースを参照して、送信装置110から受信する被写体画像、例えば人物の撮影画像から検出された人の目、鼻、頬(チーク)等の部位に設定すべきマテリアルを即座に取得することができる。
 すなわち、このテンプレートデータベースを利用することで、画像入力部201を介して入力する被写体映像を構成するフレーム単位で、被写体構成要素単位(部位単位)の最適なマテリアル設定を短時間で行うことが可能となり、3D画像生成をリアルタイム処理として実行することができる。
 なお、図18に示すテンプレートデータベース224の構成では、マテリアルとしてテクスチャマップのみを記録しており、シェーダについては記録していない。
 シェーダは、前述したように、メッシュ内の画素(ピクセル)ごとの描画色を計算するアルゴリズムである。図18に示す設定のテンプレートデータベースを利用した処理を行う場合、テクスチャはテンプレートデータベースから取得し、シェーダについては、フレーム単位でその都度計算処理を実行してメッシュ内のピクセル単位の描画色の決定処理を行うことになる。
 図18に示すテンプレートデータベース224と異なる設定としたテンプレートデータベース204の構成例を図19に示す。
 図19に示すテンプレートデータベース224は、マテリアルとしてテクスチャマップとシェーダを記録している。
 図19に示す設定のテンプレートデータベースを利用すれば、テクスチャに併せてシェーダの情報もテンプレートデータベースから取得することが可能であり、フレーム単位、被写体構成要素単位(部位単位)でメッシュ内のテクスチャ、ピクセルごとの描画色の決定が可能となる。
 本実施例では、このように様々なカスタマイズ可能な属性情報とマテリアルとを対応付けたテンプレートデータベースを利用した処理を行う。
 このように、様々なカスタマイズ可能な属性情報とマテリアルとを対応付けたテンプレートデータベースを利用することで、例えば、被写体をリアルに再現した3D画像ではなく、自分の理想となる肌質や、メイクになるようなマテリアルの適用が可能であり、バーチャルメーキャップの効果を反映した3D画像を生成して表示することが可能となる。
 図20に示すフローチャートは、ユーザ入力部202を介して入力されるカスタマイズ情報を利用して表示部205に表示する3次元画像のレンダリングを行う処理シーケンスを説明するフローチャートである。
 以下、このフローチャートに従って、図6に示す画像処理装置200(=図5の受信装置120)の実行するユーザ入力情報を反映した3次元画像生成処理の具体例について説明する。
 なお、図20に示すフローチャートに従った処理は、例えば、画像処理装置の記憶部に格納されたプログラムに従って、プログラム実行機能を持つCPU等を備えたコントローラからなるデータ処理部の制御の下に実行される。
 図20に示すフローの各ステップの処理について、順次、説明する。
  (ステップS201)
 まず、ステップS201において、画像処理装置200のユーザ入力部202を介して入力されるユーザ入力情報から、ユーザの希望するカスタマイズ情報(CG効果等)を取得する。
  (ステップS202)
 次に、画像処理装置200の画像入力部201が、3D画像の生成元となる撮影画像(テクスチャ)を入力する。
 なお、このフローに示すステップS202~S209の処理は、画像入力部201から入力する被写体の撮影映像を構成する画像フレームごとに実行される。
 すなわち、最終的なステップS209では、入力画像フレーム単位でCG効果を付与した3D画像のレンダリングが行われることになる。
  (ステップS203~S206)
 次のステップS203~S206の処理は、先に図9に示すフローチャートを参照して説明したステップS103~S106の処理と同様の処理である。
 すなわち、以下の処理を実行する。
 ステップS203において、特徴量抽出部211aが、ステップS202で入力した撮影画像の特徴量に基づいて、被写体(人)の各部位(顔器官である目、鼻口、眉や、肌領域、体部位、髪、衣服等)対応の区分領域を設定する。
 例えば、先に図10を参照して説明した顔器官である目、鼻口、眉等の特徴点に基づいて、各部位(顔器官である目、鼻口、眉や、肌領域、体部位、髪、衣服等)対応の区分領域を設定する。
 次に、ステップS204において、マスク画像生成部213aが、特徴量に基づく区分領域単位のマテリアル設定を行うために適用するマスク画像を生成する。
 例えば、先に図11を参照して説明した様々な部位対応のマスク画像を生成する。
 さらに、ステップS205において、メッシュ取得部212aが、撮影画像対応の3Dモデルにメッシュを設定し、メッシュ分割部212bが、マスク画像に応じたメッシュ分割処理を実行する。
 前述したように、メッシュは、3次元モデルの細かな分割領域である三角形や四角形等の多角形領域である。
 このメッシュにマテリアルを設定することで、3次元画像の描画処理、レンダリングが行われる。3次元画像を描画(レンダリング)する場合、メッシュ単位で最適なマテリアルを設定することが必要となる。
 3次元モデルの構成要素となるメッシュに対して、そのメッシュの実際の材質に近いマテリアル、具体的には、テクスチャやシェーダを設定することで、リアリティのある3次元モデルデータを生成することができる。
 ステップS205では、まず、メッシュ取得部212aが、入力撮影画像に対応する3次元モデル上にメッシュを設定し、さらにメッシュ分割部212bが、ステップS204で生成したマスク画像に応じたメッシュ分割処理を実行する。
 次に、ステップS206において、モデル追加部212cが、特徴量情報に基づいて、記憶部(DB)204に格納された3次元モデルを設置する。例えば、眼球の前に角膜モデルを設置する処理などを実行する。
 なお、3次元モデルは、記憶部(DB)204に予め格納されている。
  (ステップS207)
 次に、ステップS207において、テクスチャマップ生成部213bが、各マテリアルに必要なテクスチャマップ(ベースカラー、シャイニネス、キャビティ、ノーマル等)を、図18、図19を参照して説明したカスタマイズ可能なテンプレートデータベースに従って生成する。
 図18、図19を参照して説明したカスタマイズ可能なテンプレートデータベースを利用することで、画像入力部201を介して入力する被写体映像を構成するフレーム単位で、部位単位の最適なマテリアル設定を短時間で行うことが可能となり、3D画像生成をリアルタイム処理として実行することができる。
 ステップS207では、レンダリングによって生成する3次元画像の各メッシュに設定するマテリアルの要素であるテクスチャを決定する。
 このテクスチャの決定処理には、記憶部(DB)204に格納されたテンプレートデータベース224、すなわちカスタマイズ可能な属性情報と、マテリアルとの対応データを利用する。
 カスタマイズ情報は、ステップS201において取得されるユーザ入力情報が適用可能である。
 例えば、図18に示すテンプレートデータベース224の構成では、マテリアルとしてテクスチャマップを記録している。
 すなわち、カスタマイズ可能な属性情報に応じて適用するテクスチャマップの設定が記録されている。
 具体的には、例えば、20~35才の白人女性の普通肌というカスタマイズ情報を適用した場合、そのカスタマイズ情報に対応する、
 (a)目の周りの領域のメッシュに貼り付けるテクスチャマップの設定、
 (b)鼻筋の領域のメッシュに貼り付けるテクスチャマップの設定、
 (c)眉毛の領域のメッシュに貼り付けるテクスチャマップの設定、
 (d)頬(チーク)の領域のメッシュに貼り付けるテクスチャマップの設定、
   ・・・・・
 これらのカスタマイズされた属性情報対応のテクスチャマップが登録されている。
 このテンプレートデータベースを利用することで、画像入力部から入力する被写体映像を構成するフレーム単位で、部位単位の最適なマテリアル設定を短時間で行うことが可能となり、3D画像生成をリアルタイム処理として実行することができる。
 なお、図18に示す設定のテンプレートデータベースを利用した処理を行う場合、テクスチャはテンプレートデータベースから取得し、シェーダについては、フレーム単位でその都度計算処理を実行してメッシュ内のピクセル単位の描画色の決定処理を行うことになる。
 前述したように、図19に示すテンプレートデータベース224は、マテリアルとしてテクスチャマップとシェーダを記録している。
 図19に示す設定のテンプレートデータベースを利用すれば、テクスチャに併せてシェーダの情報もテンプレートデータベースから取得することが可能であり、フレーム単位、部位単位でメッシュ内のテクスチャ、ピクセルごとの描画色の決定が可能となる。
  (ステップS208)
 ステップS208では、レンダリング部214が、3Dモデルに対して、マテリアルを適用させるレンダリングを実行する。
 この処理は、ステップS207において、テンプレートデータベース224から取得されるカスタマイズされた属性情報対応のテクスチャマップを利用して、各部位のメッシュにマテリアル設定、すなわちテクスチャの貼り付けを行う。さらに、ピクセル単位の描画色の決定アルゴリズムであるシェーダを適用してピクセル単位の描画色の決定処理を行う。
  (ステップS209)
 最後に、ステップS209において、表示部205がステップS208で生成したレンダリング結果を表示する。
 なお、ステップS201~S209の処理は、画像入力部201が入力する画像フレームごとに実行する。
 この処理は、リアルタイム処理として実行される。
 このリアルタイム処理を実現可能としている一つの大きな要素は、テンプレートデータベースである。
 すなわち、様々なユーザ要求によって修正、変更(カスタマイズ)可能な属性情報対応のテクスチャマップが登録されたテンプレートデータベースを利用することで、画像入力部201から入力する被写体映像を構成するフレーム単位で、被写体構成要素単位の最適なマテリアル設定を短時間で行うことが可能となり、3D画像生成をリアルタイム処理として実行することができる。
  [6.画像処理装置のハードウェア構成例について]
 次に、図21を参照して図6に示す画像処理装置200や、図3~図5に示す送信装置110、受信装置120のハードウェア構成例について説明する。
 図21は、図6に示す画像処理装置200や、図3~図5に示す送信装置110、受信装置120に相当する画像処理装置300のハードウェア構成例を示している。
 画像処理装置300は、例えば、具体的には、PC(Personal Computer)、タブレットPC、スマートフォン、タブレット端末等の情報処理装置であってもよい。
 同図において、画像処理装置100は、コントローラ301、ROM(Read Only Memory)302、RAM(Random Access Memory)303、入出力インタフェース305、および、これらを互いに接続するバス304を備える。
 コントローラ301は、必要に応じてRAM303等に適宜アクセスし、各種演算処理を行いながら画像処理装置300の各ブロック全体を統括的に制御する。コントローラ301は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)等であってもよい。ROM302は、コントローラ301に実行させるOS、プログラムや各種パラメータなどのファームウェアが固定的に記憶されている不揮発性のメモリである。RAM303は、コントローラ301の作業用領域等として用いられ、OS、実行中の各種アプリケーション、処理中の各種データを一時的に保持する。
 入出力インタフェース305には、入力部306、出力部307、記憶部308、通信部309、および、リムーバブルメディア311を装着可能なたドライブ310等が接続される。
 なお、入出力インタフェース105は、これらの各要素の他、USB(Universal Serial Bus)端子やIEEE端子等を介して外部周辺機器と接続可能に構成されてもよい。
 入力部306は、例えば、図6に示す画像処理装置200の画像入力部201、ユーザ入力部202等を含む入力部である。画像入力部は、例えば撮像部等によって構成可能である。
 入力部306には、例えばマウス等のポインティングデバイス、キーボード、タッチパネル、その他の入力装置も含まれる。
 出力部307は、図6に示す画像処理装置200の表示部205によって構成される。
 記憶部308は、図6に示す画像処理装置200の記憶部(DB)204に相当する。例えばHDD(Hard Disk Drive)や、フラッシュメモリ(SSD;Solid State Drive)、その他の固体メモリ等の不揮発性メモリである。記憶部308には、OSや各種アプリケーション、各種データが記憶される。記憶部308は、また、入力画像や、画像情報、生成した出力画像群等の記憶領域としても利用される。
 通信部309は、例えばEthernet(登録商標)用のNIC(Network Interface Card)であり、ネットワークを介した通信処理を担う。
 ドライブ310は、リムーバブルメディア311を利用したデータ記録、再生処理に利用される。
 リムーバブルメディア311は、例えばBD、DVD、CD、HDD、フラッシュメモリ等によって構成される。
  [7.本開示の構成のまとめ]
 以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
 なお、本明細書において開示した技術は、以下のような構成をとることができる。
 (1) 入力画像に基づく3次元画像生成処理を実行する画像処理部を有し、
 前記画像処理部は、
 前記入力画像の被写体の属性情報と、3次元画像のレンダリング要素であるマテリアルとの対応データであるテンプレートデータベースを参照して被写体属性に応じたマテリアルを選択して3次元画像の生成処理を実行する画像処理装置。
 (2) 前記入力画像は、動画像データであり、
 前記画像処理部は、
 前記動画像データを構成する画像フレームごとに新たな3次元画像の生成処理を実行する(1)に記載の画像処理装置。
 (3) 前記入力画像は、動画像データであり、
 前記画像処理部は、
 前記動画像データを構成する画像フレームごとに、3次元画像の構成単位であるメッシュと、マテリアルの設定を更新して新たな3次元画像の生成処理を実行するゅぬょまたは(2)に記載の画像処理装置。
 (4) 前記テンプレートデータベースは、
 前記被写体の構成要素単位のマテリアルが記録されているデータベースであり、
 前記画像処理部は、
 前記構成要素単位のマスク画像を適用して、各構成要素に対するマテリアルを前記テンプレートデータベースから取得して構成要素単位のマテリアル設定を実行する(1)~(3)いずれかに記載の画像処理装置。
 (5) 前記入力画像は人物の顔画像を含み、
 前記テンプレートデータベースは、
 前記入力画像に含まれる人物の顔の構成要素単位のマテリアルが記録されているデータベースであり、
 前記画像処理部は、
 前記入力画像に含まれる人物の顔の構成要素単位のマスク画像を適用して、各構成要素に対するマテリアルを前記テンプレートデータベースから取得して、顔の構成要素単位のマテリアル設定を実行する(1)~(4)いずれかに記載の画像処理装置。
 (6) 前記テンプレートデータベースは、
 前記マテリアルとしてテクスチャを含み、
 前記画像処理部は、
 前記テンプレートデータベースから、被写体属性に応じたテクスチャを選択して3次元画像の生成処理を実行する(1)~(5)いずれかに記載の画像処理装置。
 (7) 前記テンプレートデータベースは、
 前記マテリアルとしてテクスチャとシェーダを含み、
 前記画像処理部は、
 前記テンプレートデータベースから、被写体属性に応じたテクスチャとシェーダを選択して3次元画像の生成処理を実行する(1)~(6)いずれかに記載の画像処理装置。
 (8) 前記画像処理部は、
 前記入力画像から特徴量を抽出する特徴量抽出部を有し、
 特徴量抽出部の抽出した特徴量に基づいて、被写体の構成要素を識別し、
 識別された構成要素単位のマテリアル設定を行う(1)~(7)いずれかに記載の画像処理装置。
 (9) 前記画像処理部は、
 前記入力画像から特徴量を抽出する特徴量抽出部を有し、
 特徴量抽出部の抽出した特徴量に基づいて、被写体の構成要素を識別し、
 識別された構成要素単位のマスク画像生成処理を行う(1)~(8)いずれかに記載の画像処理装置。
 (10) 前記画像処理部は、
 被写体の構成要素に併せて、マテリアル設定単位となるメッシュの分割処理を実行するメッシュ分割部を有する(1)~(9)いずれかに記載の画像処理装置。
 (11) 前記被写体の属性情報は、
 性別、年齢、人種、肌質の少なくともいずれかを含む(1)~(10)いずれかに記載の画像処理装置。
 (12) 前記被写体の属性情報は、
 前記入力画像の解析処理によって取得される属性情報、またはユーザ入力によって取得される属性情報である(1)~(11)いずれかに記載の画像処理装置。
 (13) 前記テンプレートデータベースに格納された属性情報とマテリアルとの対応データは、ユーザによるカスタマイズ可能なデータであり、
 ユーザ入力部を介して入力される入力情報に応じて、属性情報とマテリアルとの対応データを変更することができる構成を有する(1)~(12)いずれかに記載の画像処理装置。
 (14) 前記入力画像は、
 ネットワークを介して受信する画像である(1)~(13)いずれかに記載の画像処理装置。
 (15) 画像を送信する送信装置と、
 前記送信装置からの入力画像に対する加工処理を実行して、3次元画像を生成して表示部に表示する受信装置を有し、
 前記受信装置の画像処理部は、
 前記入力画像の被写体の属性情報と、3次元画像のレンダリング要素であるマテリアルとの対応データであるテンプレートデータベースを参照して被写体属性に応じたマテリアルを選択して前記3次元画像の生成処理を実行する画像処理システム。
 (16) 前記画像は、動画像データであり、
 前記受信装置の画像処理部は、
 前記動画像データを構成する画像フレームごとに、3次元画像の構成単位であるメッシュと、マテリアルの設定を更新して新たな3次元画像の生成処理を実行する(15)に記載の画像処理システム。
 (17) 前記テンプレートデータベースは、
 前記被写体の構成要素単位のマテリアルが記録されているデータベースであり、
 前記受信装置の画像処理部は、
 前記構成要素単位のマスク画像を適用して、各構成要素に対するマテリアルを前記テンプレートデータベースから取得して構成要素単位のマテリアル設定を実行する(15)または(16)に記載の画像処理システム。
 (18) 前記入力画像は人物の顔画像を含み、
 前記テンプレートデータベースは、
 人物の顔の構成要素単位のマテリアルが記録されているデータベースであり、
 前記画像処理部は、
 前記入力画像に含まれる人物の顔の構成要素単位のマスク画像を適用して、各構成要素に対するマテリアルを前記テンプレートデータベースから取得して、顔の構成要素単位のマテリアル設定を実行する(15)~(17)いずれかに記載の画像処理システム。
 (19) 画像処理装置において実行する画像処理方法であり、
 前記画像処理装置は、
 入力画像に基づく3次元画像生成処理を実行する画像処理部を有し、
 前記画像処理部が、
 前記入力画像の被写体の属性情報と、3次元画像のレンダリング要素であるマテリアルとの対応データであるテンプレートデータベースを参照して被写体属性に応じたマテリアルを選択して3次元画像の生成処理を実行する画像処理方法。
 (20) 画像処理装置において画像処理を実行させるプログラムであり、
 前記画像処理装置は、
 入力画像に基づく3次元画像生成処理を実行する画像処理部を有し、
 前記プログラムは、前記画像処理部に、
 前記入力画像の被写体の属性情報と、3次元画像のレンダリング要素であるマテリアルとの対応データであるテンプレートデータベースを参照して被写体属性に応じたマテリアルを選択して3次元画像の生成処理を実行させるプログラム。
 また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
 なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 以上、説明したように、本開示の一実施例の構成によれば、リアルタイムでの入力画像に基づく3D画像生成を可能とした装置、方法が実現される。
 具体的には、例えば、入力画像の各画像フレームに対する加工処理を実行して3次元画像を生成する。入力画像の被写体の属性情報と3次元画像のレンダリング要素であるマテリアルとの対応データであるテンプレートデータベースを参照して被写体属性に応じたマテリアルを選択して3次元画像を生成する。テンプレートデータベースは、人物の顔の構成要素単位のマテリアルが記録されており、画像処理部は、顔の構成要素単位のマスク画像を適用して、各構成要素に対するマテリアルをテンプレートデータベースから取得して、顔の構成要素単位でのマテリアル設定を実行する。
 本構成により、リアルタイムでの入力画像に基づく3D画像生成を可能とした装置、方法が実現される。
 110 送信装置
 111 画像取得部
 113 3次元モデル情報生成部
 114 送信情報生成部
 115 通信部
 120 受信装置
 121 通信部
 122 画像処理部
 123 データベース
 124 表示部
 200 画像処理装置
 201 画像入力部
 202 ユーザ入力部
 203 画像処理部
 204 記憶部
 205 表示部
 211 画像情報解析部
 211a 特徴量抽出部
 211b 属性解析部
 212 メッシュ編集部
 212a メッシュ取得部
 212b メッシュ分割部
 212c モデル追加部
 213 マテリアル適用部
 213a マスク画像生成部
 213b テクスチャマップ生成部
 214 レンダリング部
 222 マスク画像
 223 被写体属性情報
 224 テンプレートデータベース
 301 コントローラ
 302 ROM
 303 RAM
 304 バス
 305 入出力インタフェース
 306 入力部
 307 出力部
 308 記憶部
 309 通信部
 310 ドライブ
 311 リムーバブルメディア

Claims (20)

  1.  入力画像に基づく3次元画像生成処理を実行する画像処理部を有し、
     前記画像処理部は、
     前記入力画像の被写体の属性情報と、3次元画像のレンダリング要素であるマテリアルとの対応データであるテンプレートデータベースを参照して被写体属性に応じたマテリアルを選択して3次元画像の生成処理を実行する画像処理装置。
  2.  前記入力画像は、動画像データであり、
     前記画像処理部は、
     前記動画像データを構成する画像フレームごとに新たな3次元画像の生成処理を実行する請求項1に記載の画像処理装置。
  3.  前記入力画像は、動画像データであり、
     前記画像処理部は、
     前記動画像データを構成する画像フレームごとに、3次元画像の構成単位であるメッシュと、マテリアルの設定を更新して新たな3次元画像の生成処理を実行する請求項1に記載の画像処理装置。
  4.  前記テンプレートデータベースは、
     前記被写体の構成要素単位のマテリアルが記録されているデータベースであり、
     前記画像処理部は、
     前記構成要素単位のマスク画像を適用して、各構成要素に対するマテリアルを前記テンプレートデータベースから取得して構成要素単位のマテリアル設定を実行する請求項1に記載の画像処理装置。
  5.  前記入力画像は人物の顔画像を含み、
     前記テンプレートデータベースは、
     前記入力画像に含まれる人物の顔の構成要素単位のマテリアルが記録されているデータベースであり、
     前記画像処理部は、
     前記入力画像に含まれる人物の顔の構成要素単位のマスク画像を適用して、各構成要素に対するマテリアルを前記テンプレートデータベースから取得して、顔の構成要素単位のマテリアル設定を実行する請求項1に記載の画像処理装置。
  6.  前記テンプレートデータベースは、
     前記マテリアルとしてテクスチャを含み、
     前記画像処理部は、
     前記テンプレートデータベースから、被写体属性に応じたテクスチャを選択して3次元画像の生成処理を実行する請求項1に記載の画像処理装置。
  7.  前記テンプレートデータベースは、
     前記マテリアルとしてテクスチャとシェーダを含み、
     前記画像処理部は、
     前記テンプレートデータベースから、被写体属性に応じたテクスチャとシェーダを選択して3次元画像の生成処理を実行する請求項1に記載の画像処理装置。
  8.  前記画像処理部は、
     前記入力画像から特徴量を抽出する特徴量抽出部を有し、
     特徴量抽出部の抽出した特徴量に基づいて、被写体の構成要素を識別し、
     識別された構成要素単位のマテリアル設定を行う請求項1に記載の画像処理装置。
  9.  前記画像処理部は、
     前記入力画像から特徴量を抽出する特徴量抽出部を有し、
     特徴量抽出部の抽出した特徴量に基づいて、被写体の構成要素を識別し、
     識別された構成要素単位のマスク画像生成処理を行う請求項1に記載の画像処理装置。
  10.  前記画像処理部は、
     被写体の構成要素に併せて、マテリアル設定単位となるメッシュの分割処理を実行するメッシュ分割部を有する請求項1に記載の画像処理装置。
  11.  前記被写体の属性情報は、
     性別、年齢、人種、肌質の少なくともいずれかを含む請求項1に記載の画像処理装置。
  12.  前記被写体の属性情報は、
     前記入力画像の解析処理によって取得される属性情報、またはユーザ入力によって取得される属性情報である請求項1に記載の画像処理装置。
  13.  前記テンプレートデータベースに格納された属性情報とマテリアルとの対応データは、ユーザによるカスタマイズ可能なデータであり、
     ユーザ入力部を介して入力される入力情報に応じて、属性情報とマテリアルとの対応データを変更することができる構成を有する請求項1に記載の画像処理装置。
  14.  前記入力画像は、
     ネットワークを介して受信する画像である請求項1に記載の画像処理装置。
  15.  画像を送信する送信装置と、
     前記送信装置からの入力画像に対する加工処理を実行して、3次元画像を生成して表示部に表示する受信装置を有し、
     前記受信装置の画像処理部は、
     前記入力画像の被写体の属性情報と、3次元画像のレンダリング要素であるマテリアルとの対応データであるテンプレートデータベースを参照して被写体属性に応じたマテリアルを選択して前記3次元画像の生成処理を実行する画像処理システム。
  16.  前記画像は、動画像データであり、
     前記受信装置の画像処理部は、
     前記動画像データを構成する画像フレームごとに、3次元画像の構成単位であるメッシュと、マテリアルの設定を更新して新たな3次元画像の生成処理を実行する請求項15に記載の画像処理システム。
  17.  前記テンプレートデータベースは、
     前記被写体の構成要素単位のマテリアルが記録されているデータベースであり、
     前記受信装置の画像処理部は、
     前記構成要素単位のマスク画像を適用して、各構成要素に対するマテリアルを前記テンプレートデータベースから取得して構成要素単位のマテリアル設定を実行する請求項15に記載の画像処理システム。
  18.  前記入力画像は人物の顔画像を含み、
     前記テンプレートデータベースは、
     人物の顔の構成要素単位のマテリアルが記録されているデータベースであり、
     前記画像処理部は、
     前記入力画像に含まれる人物の顔の構成要素単位のマスク画像を適用して、各構成要素に対するマテリアルを前記テンプレートデータベースから取得して、顔の構成要素単位のマテリアル設定を実行する請求項15に記載の画像処理システム。
  19.  画像処理装置において実行する画像処理方法であり、
     前記画像処理装置は、
     入力画像に基づく3次元画像生成処理を実行する画像処理部を有し、
     前記画像処理部が、
     前記入力画像の被写体の属性情報と、3次元画像のレンダリング要素であるマテリアルとの対応データであるテンプレートデータベースを参照して被写体属性に応じたマテリアルを選択して3次元画像の生成処理を実行する画像処理方法。
  20.  画像処理装置において画像処理を実行させるプログラムであり、
     前記画像処理装置は、
     入力画像に基づく3次元画像生成処理を実行する画像処理部を有し、
     前記プログラムは、前記画像処理部に、
     前記入力画像の被写体の属性情報と、3次元画像のレンダリング要素であるマテリアルとの対応データであるテンプレートデータベースを参照して被写体属性に応じたマテリアルを選択して3次元画像の生成処理を実行させるプログラム。
PCT/JP2018/016827 2017-05-31 2018-04-25 画像処理装置、画像処理システム、および画像処理方法、並びにプログラム WO2018221092A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020197033622A KR20200014280A (ko) 2017-05-31 2018-04-25 화상 처리 장치, 화상 처리 시스템, 및 화상 처리 방법, 그리고 프로그램
CN201880034107.4A CN110663066A (zh) 2017-05-31 2018-04-25 图像处理装置、图像处理系统、图像处理方法和程序
US16/606,844 US20200082595A1 (en) 2017-05-31 2018-04-25 Image processing apparatus, image processing system, and image processing method as well as program
EP18810322.0A EP3633624A4 (en) 2017-05-31 2018-04-25 IMAGE PROCESSING DEVICE, IMAGE PROCESSING SYSTEM, IMAGE PROCESSING METHOD, AND PROGRAM
JP2019522035A JPWO2018221092A1 (ja) 2017-05-31 2018-04-25 画像処理装置、画像処理システム、および画像処理方法、並びにプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017107471 2017-05-31
JP2017-107471 2017-05-31

Publications (1)

Publication Number Publication Date
WO2018221092A1 true WO2018221092A1 (ja) 2018-12-06

Family

ID=64455981

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/016827 WO2018221092A1 (ja) 2017-05-31 2018-04-25 画像処理装置、画像処理システム、および画像処理方法、並びにプログラム

Country Status (6)

Country Link
US (1) US20200082595A1 (ja)
EP (1) EP3633624A4 (ja)
JP (1) JPWO2018221092A1 (ja)
KR (1) KR20200014280A (ja)
CN (1) CN110663066A (ja)
WO (1) WO2018221092A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021517676A (ja) * 2019-03-06 2021-07-26 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド 画像処理方法及び装置、画像デバイス並びに記憶媒体
CN113223131A (zh) * 2021-04-16 2021-08-06 完美世界(北京)软件科技发展有限公司 一种模型的渲染方法、装置、存储介质以及计算设备
JP2022534458A (ja) * 2020-04-29 2022-08-01 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 画像処理の方法及び装置
JP7498195B2 (ja) 2019-04-30 2024-06-11 ロレアル 複数のオブジェクトを追跡するための畳み込みニューラルネットワークを用いた画像処理

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10534962B2 (en) * 2017-06-17 2020-01-14 Matterport, Inc. Automated classification based on photo-realistic image/model mappings
US11250612B1 (en) 2018-07-12 2022-02-15 Nevermind Capital Llc Methods and apparatus rendering images using point clouds representing one or more objects
WO2021150880A1 (en) * 2020-01-22 2021-07-29 Stayhealthy, Inc. Augmented reality custom face filter
KR20210119743A (ko) * 2020-03-25 2021-10-06 건국대학교 산학협력단 인공 지능 기반 가상 현실 유괴범 캐릭터 생성 방법 및 장치
CN111489311B (zh) * 2020-04-09 2023-08-08 北京百度网讯科技有限公司 一种人脸美化方法、装置、电子设备及存储介质
CN111861954A (zh) * 2020-06-22 2020-10-30 北京百度网讯科技有限公司 编辑人脸的方法、装置、电子设备和可读存储介质
CN111881850A (zh) * 2020-07-30 2020-11-03 云知声智能科技股份有限公司 口红试色方法、装置及设备
US11887241B2 (en) * 2020-12-23 2024-01-30 Adobe Inc. Learning 2D texture mapping in volumetric neural rendering
CN112712580A (zh) * 2020-12-31 2021-04-27 北京居理科技有限公司 一种物体渲染方法
US11403831B1 (en) * 2021-01-14 2022-08-02 Microsoft Technology Licensing, Llc Efficient color theming of background images in web-based mixed reality environments
US11354860B1 (en) * 2021-01-26 2022-06-07 Qualcomm Incorporated Object reconstruction using media data
WO2024106565A1 (ko) * 2022-11-16 2024-05-23 전준혁 2d 얼굴 이미지로부터 3d 얼굴 모델을 생성하는 시스템 및 방법
KR102592890B1 (ko) * 2023-06-13 2023-10-24 (주)디오비스튜디오 이미지 재구성을 위한 인공지능 학습 모델 학습 방법 및 장치

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05165923A (ja) * 1991-12-16 1993-07-02 Hitachi Ltd 立体形状モデリング方式
JPH0883352A (ja) * 1994-09-13 1996-03-26 Canon Inc 画像処理装置及び方法
JP2003044118A (ja) * 2001-07-31 2003-02-14 Amada Co Ltd 板金加工製品の3次元検査・利用方法及びそのシステム
JP2008234199A (ja) * 2007-03-19 2008-10-02 Micronet Co Ltd 3次元コンピュータ図形生成装置及び3次元コンピュータ図形生成プログラム
JP2010113548A (ja) 2008-11-06 2010-05-20 Fujitsu Ltd グラフィックス装置
JP2012185624A (ja) 2011-03-04 2012-09-27 Nippon Telegr & Teleph Corp <Ntt> 三次元顔モデルデータ生成装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100138648A (ko) * 2009-06-25 2010-12-31 삼성전자주식회사 영상 처리 장치 및 방법
GB2543893A (en) * 2015-08-14 2017-05-03 Metail Ltd Methods of generating personalized 3D head models or 3D body models

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05165923A (ja) * 1991-12-16 1993-07-02 Hitachi Ltd 立体形状モデリング方式
JPH0883352A (ja) * 1994-09-13 1996-03-26 Canon Inc 画像処理装置及び方法
JP2003044118A (ja) * 2001-07-31 2003-02-14 Amada Co Ltd 板金加工製品の3次元検査・利用方法及びそのシステム
JP2008234199A (ja) * 2007-03-19 2008-10-02 Micronet Co Ltd 3次元コンピュータ図形生成装置及び3次元コンピュータ図形生成プログラム
JP2010113548A (ja) 2008-11-06 2010-05-20 Fujitsu Ltd グラフィックス装置
JP2012185624A (ja) 2011-03-04 2012-09-27 Nippon Telegr & Teleph Corp <Ntt> 三次元顔モデルデータ生成装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3633624A4

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021517676A (ja) * 2019-03-06 2021-07-26 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド 画像処理方法及び装置、画像デバイス並びに記憶媒体
JP6990773B2 (ja) 2019-03-06 2022-01-12 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド 画像処理方法及び装置、画像デバイス並びに記憶媒体
US11238569B2 (en) 2019-03-06 2022-02-01 Beijing Sensetime Technology Development Co., Ltd. Image processing method and apparatus, image device, and storage medium
JP7498195B2 (ja) 2019-04-30 2024-06-11 ロレアル 複数のオブジェクトを追跡するための畳み込みニューラルネットワークを用いた画像処理
JP2022534458A (ja) * 2020-04-29 2022-08-01 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 画像処理の方法及び装置
JP7183414B2 (ja) 2020-04-29 2022-12-05 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 画像処理の方法及び装置
CN113223131A (zh) * 2021-04-16 2021-08-06 完美世界(北京)软件科技发展有限公司 一种模型的渲染方法、装置、存储介质以及计算设备
CN113223131B (zh) * 2021-04-16 2022-05-31 完美世界(北京)软件科技发展有限公司 一种模型的渲染方法、装置、存储介质以及计算设备

Also Published As

Publication number Publication date
KR20200014280A (ko) 2020-02-10
EP3633624A4 (en) 2020-05-20
JPWO2018221092A1 (ja) 2020-04-02
EP3633624A1 (en) 2020-04-08
CN110663066A (zh) 2020-01-07
US20200082595A1 (en) 2020-03-12

Similar Documents

Publication Publication Date Title
WO2018221092A1 (ja) 画像処理装置、画像処理システム、および画像処理方法、並びにプログラム
US9552668B2 (en) Generation of a three-dimensional representation of a user
JP5463866B2 (ja) 画像処理装置および画像処理方法、並びにプログラム
CN109690617B (zh) 用于数字化妆镜的系统和方法
Chai et al. Single-view hair modeling for portrait manipulation
US9058765B1 (en) System and method for creating and sharing personalized virtual makeovers
US20200020173A1 (en) Methods and systems for constructing an animated 3d facial model from a 2d facial image
CN110390632B (zh) 基于妆容模板的图像处理方法、装置、存储介质及终端
US20100189357A1 (en) Method and device for the virtual simulation of a sequence of video images
US10013796B2 (en) Rendering glasses shadows
CN113628327B (zh) 一种头部三维重建方法及设备
KR102390252B1 (ko) 이미지 데이터에 가상 조명 조정들을 제공하기 위한 기술
CN110688948A (zh) 视频中人脸性别变换方法、装置、电子设备和存储介质
JP2005216131A (ja) 化粧シミュレーション装置、化粧シミュレーション方法、化粧シミュレーションプログラム
WO2014076744A1 (ja) 画像処理装置および画像処理方法
JP2021144582A (ja) メイクアップシミュレーション装置、メイクアップシミュレーション方法及びプログラム
US10803677B2 (en) Method and system of automated facial morphing for eyebrow hair and face color detection
JP2000151985A (ja) 画像処理方法及び記録媒体
KR102131923B1 (ko) 가상 피팅을 위한 실시간 3d 아바타 생성 방법 및 시스템
JP5526239B2 (ja) デジタルピクチャを生成するための方法、デバイス、およびコンピュータ可読媒体
CN114155569B (zh) 一种化妆进度检测方法、装置、设备及存储介质
Madračević et al. 3D modeling from 2D images
JP2003030684A (ja) 顔3次元コンピュータグラフィック生成方法及び装置及び顔3次元コンピュータグラフィック生成プログラム及び顔3次元コンピュータグラフィック生成プログラムを格納した記憶媒体
US9251570B1 (en) Smart image enhancements
US20230101374A1 (en) Augmented reality cosmetic design filters

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18810322

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019522035

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 20197033622

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2018810322

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2018810322

Country of ref document: EP

Effective date: 20200102