WO2022009607A1 - 画像処理装置、および画像処理方法、並びにプログラム - Google Patents

画像処理装置、および画像処理方法、並びにプログラム Download PDF

Info

Publication number
WO2022009607A1
WO2022009607A1 PCT/JP2021/022294 JP2021022294W WO2022009607A1 WO 2022009607 A1 WO2022009607 A1 WO 2022009607A1 JP 2021022294 W JP2021022294 W JP 2021022294W WO 2022009607 A1 WO2022009607 A1 WO 2022009607A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
style
data
unit
dimensional
Prior art date
Application number
PCT/JP2021/022294
Other languages
English (en)
French (fr)
Inventor
達雄 藤原
マシュー ローレンソン
ハーム クローニー
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2022009607A1 publication Critical patent/WO2022009607A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics

Definitions

  • This disclosure relates to an image processing device, an image processing method, and a program. More specifically, the present invention relates to an image processing apparatus, an image processing system, and a program that execute a three-dimensional (3D) model generation process and an image style conversion process.
  • 3D three-dimensional
  • CG Computer Graphics
  • Patent Document 1 Japanese Unexamined Patent Publication No. 2018-136632 discloses a configuration in which a two-dimensional image is input to artificial intelligence to estimate the three-dimensional shape of a subject included in the two-dimensional image.
  • This disclosed configuration uses the training result generated by machine learning using the teacher data representing the three-dimensional shape of the sample subject and the learning data including the two-dimensional image obtained by capturing the three-dimensional shape of the sample subject. It is an estimation. Therefore, there is a problem that both the teacher data representing the three-dimensional shape of the sample subject and the two-dimensional image of the sample subject are required in advance.
  • One embodiment of the present disclosure has been made in view of the above-mentioned problems, for example, and has a simpler configuration to generate a three-dimensional image (three-dimensional model) using a two-dimensional image taken by a normal camera. It provides an image processing device, an image processing method, and a program that enable the operation.
  • a style transfer process for changing an image style is performed on a two-dimensional image taken by a normal camera or a three-dimensional image (three-dimensional model) generated based on the two-dimensional image. It provides an image processing apparatus capable of generating an image of a different style, for example, a three-dimensional image having a different image style, and outputting the image to a display unit, an image processing method, and a program.
  • the first aspect of this disclosure is A style determination unit that determines the style data to be applied to the image style change process, It has an image conversion unit that generates a style conversion image in which the image style of the input image is changed by applying the style data determined in the style determination unit.
  • the style determination unit The style data is determined according to the theme of the image content that outputs the style-converted image, and the style data is determined.
  • the image conversion unit It is in an image processing device that generates a style-converted image by applying style data determined according to the theme of the display content.
  • the second aspect of the present disclosure is It is an image processing method executed in an image processing device.
  • a style determination step in which the style determination unit determines the style data to be applied to the image style change process
  • the image conversion unit has an image conversion step of applying the style data determined in the style determination step to generate a style conversion image in which the image style of the input image is changed.
  • the style determination step is This is a step of determining style data according to the theme of the image content that outputs the style-converted image.
  • the image conversion step is It is an image processing method which is a step of generating a style-converted image by applying style data determined according to the theme of the display content.
  • the third aspect of the present disclosure is A program that executes image processing in an image processing device.
  • a style determination step that causes the style determination unit to determine the style data to be applied to the image style change process.
  • the image conversion unit is made to execute an image conversion step of applying the style data determined in the style determination step to generate a style conversion image in which the image style of the input image is changed.
  • the style determination step is This is a step of determining style data according to the theme of the image content that outputs the style-converted image.
  • the image conversion step is The program is a step of applying style data determined according to the theme of the display content to generate a style-converted image.
  • the program of the present disclosure is, for example, a program that can be provided by a storage medium or a communication medium provided in a computer-readable format to an information processing device or a computer system capable of executing various program codes.
  • a program can be provided by a storage medium or a communication medium provided in a computer-readable format to an information processing device or a computer system capable of executing various program codes.
  • system is a logical set configuration of a plurality of devices, and the devices of each configuration are not limited to those in the same housing.
  • a device and a method capable of changing an image style to a style matching the theme of the content to which the image is output and outputting the image are realized.
  • a style determination unit that determines the style data to be applied to the image style change processing, and a style conversion image in which the image style of the input image is changed by applying the style data determined by the style determination unit. It has an image conversion unit to generate.
  • the style determination unit determines the style data according to the theme of the image content that outputs the style conversion image, and the image conversion unit applies the style data determined according to the theme of the display content to generate the style conversion image. do.
  • (Embodiment 1) Image processing device for generating a three-dimensional image (three-dimensional model) based on a two-dimensional image 3-1-1.
  • (Processing 2) Restoration processing of a 3D image (3D model) from a 2D image to which a learning model (depth embedded image data) stored in the storage unit is applied, and display processing 3-2.
  • (Embodiment 2) Image processing device that executes style transfer processing for input images 3-2-1.
  • the image processing device of the embodiment of the present disclosure is a process of generating and displaying an augmented reality (AR) image which is an image displayed by superimposing a real object image observable in real space and a virtual object. I do.
  • AR augmented reality
  • Games are often played within a particular theme setting. Specifically, it is often done in game-specific theme settings such as 18th century settings and horror settings.
  • an augmented reality image that combines a camera shot image of the user or the room where the user is located and a character appearing in the game. Is generated and displayed on a game machine such as a smartphone.
  • Such images taken by the camera include everyday objects (tables, chairs, etc.) in the user's room. Images of such everyday objects (tables, chairs, etc.) deviate from the game theme (18th century settings, horror settings, etc.), and images of such everyday objects appear on the display screen. When displayed, the atmosphere of the game is spoiled.
  • an image of an everyday object (object) included in a camera shot image is converted into an image of an object (object) that matches the theme of the game, and the converted image is included in an AR image that is a game image. Display on.
  • the game is a game with the theme of the inside of an 18th century castle
  • the "image of the chair” in the room taken by the camera of the user's game machine is used in the 18th century castle. It can be converted into a "luxury chair image” and displayed in the AR image used as a game image.
  • image conversion process can be realized by, for example, a process called “style transfer” or “style conversion”. The style transfer process will be described later.
  • the image processing device of the present disclosure performs image conversion processing to which the style transfer is applied to the object (object) included in the image captured by the camera, and the object (object) included in the image captured by the camera is used as the game theme.
  • the process of converting to a matching object image is performed and displayed in the AR image.
  • the process of changing the appearance of the object included in the image taken by the camera is performed in this way.
  • the image taken by the camera in the room in which the user is located becomes an image with reduced sharpness.
  • the AR image which is a game image there arises a problem that it becomes difficult to recognize the object (object) included in the image taken by the camera.
  • the image processing device of the present disclosure converts the "blurred image” in the room taken by the camera of the user's game machine into a "clear image” according to the game theme, and this conversion is performed. Display the image in the AR image.
  • AR image augmented reality image
  • the captured image of is a two-dimensional image.
  • a three-dimensional image (three-dimensional model) is generated based on the two-dimensional image taken by the camera, and the generated three-dimensional image is displayed in the AR image.
  • the entire AR image is displayed as a three-dimensional image, and the atmosphere and quality of the game are not impaired, and the user can enjoy the game with a sense of reality.
  • the image processing apparatus of the present disclosure executes, for example, the following processing as processing for an object included in the actual image displayed in the AR image.
  • (1) Change the appearance of the real object output to the AR image according to a specific style or theme.
  • (2) When the real object to be output to the AR image is a two-dimensional image, the two-dimensional image is converted into a three-dimensional image.
  • a two-dimensional image is taken by a camera, 3D data such as depth data is embedded in the taken two-dimensional image, and a three-dimensional image is generated using the two-dimensional image in which the 3D data such as the depth data is embedded.
  • the style transfer image style conversion
  • the game theme is executed for the generated 3D image, and the 3D image after the style transfer is displayed in the AR image which is the game image. For example, such processing is possible.
  • An image displayed by superimposing a real object and an image that can be observed in the real space and a virtual object image is called an augmented reality (AR) image.
  • the image processing apparatus of the present disclosure executes, for example, a process of generating such an AR image and outputting it to a display unit.
  • FIG. 1 shows a portable display device such as a smartphone 10 as an example of an image processing device that displays an AR image.
  • the smartphone 10 shown in FIG. 1 has a display unit and a camera 11. An example of a display image of the display unit is shown on the right side of FIG. 1.
  • Observation image example 1 is composed of a camera-captured image 12 composed of a real object captured by the camera 11 displayed on the display unit of the smartphone 10. The virtual object is not displayed in this image example 1.
  • observation image example 2 is an image example in which a virtual object image 13 such as a character image is displayed together with a camera-captured image 12 composed of a real object composed of the camera-captured image 12.
  • This image example 2 is an image in which the user can observe both a real object and a virtual object.
  • the virtual object image 13 such as the character image shown in the observation image example 2 is a character appearing in a game application being executed in a portable display device such as a smartphone 10, and is registered in the program of the game application. It is a character image.
  • the user can observe the camera-photographed image displayed on the display unit (display) of the smartphone 10, that is, the AR image in which the real object image 12 and the virtual object image 13 such as a character are displayed together, as if the character. You can experience the feeling as if a virtual object such as the one exists in the real world.
  • FIG. 2 shows a head-mounted display (HMD) type light-transmitting AR image display device 20 as an example of an AR image display device.
  • the user wears a head-mounted display (HMD) type light-transmitting AR image display device 20 so as to cover the user's eyes.
  • HMD head-mounted display
  • the light transmission type AR image display device 20 has a light transmission type display unit (display).
  • the light-transmitting display unit (display) is attached to the user so as to be set at a position in front of the user.
  • the user can observe the external real object as it is through the light transmission type display unit (display) of the light transmission type AR image display device 20. Further, a virtual object, for example, a virtual object image such as a character image is displayed on the light transmission type display unit (display).
  • the user can observe the external real object and the virtual object image such as a character together through the light transmission type AR image display device 20, and it is as if the virtual object such as a character exists in the real world. You can experience such a feeling.
  • FIG. 2 shows an example of an image that the user can observe through the light transmission type AR image display device 20.
  • Observation image example 1 is composed of a transmission observation image 21 composed of an external real object observed via a light transmission type AR image display device 20. The virtual object is not displayed in this image example 1.
  • observation image example 2 a virtual object image 22 such as a character image is displayed together with a transmission observation image 21 composed of an external real object observed via a light transmission type AR image display device 20.
  • This image example 2 is an AR image in which the user can observe both a real object and a virtual object.
  • AR image augmented reality image
  • the captured image of is a two-dimensional image.
  • a three-dimensional image (three-dimensional model) is generated based on the two-dimensional image taken by the camera, and the generated three-dimensional image is displayed in the AR image.
  • the entire AR image is displayed as a three-dimensional image, and the atmosphere and quality of the game are not impaired, and the user can enjoy the game with a sense of reality.
  • the distance information (depth) of the object that is the subject included in the two-dimensional image taken by the camera is acquired, and the acquired depth data is used for each pixel unit of the two-dimensional image or a predetermined pixel set unit.
  • the distance information (depth) of the object that is the subject included in the two-dimensional image taken by the camera is acquired, and the acquired depth data is used for each pixel unit of the two-dimensional image or a predetermined pixel set unit.
  • a three-dimensional image is generated from this image.
  • a method for acquiring the distance information (depth) of an object that is a subject included in a two-dimensional image a ToF (Time of Flat) method for measuring the transmission / reception time of light such as infrared light is used. If, for example, a stereo camera or a 3D camera can be used, the acquired data of these cameras can also be used.
  • AR image augmented reality image
  • a game machine such as a smartphone
  • the atmosphere of the game is spoiled.
  • the present disclosure converts, for example, an image of an everyday object (object) included in a camera-taken image into an image of an object (object) that matches the theme of the game, and the present invention thereof.
  • the converted image is displayed in the AR image which is a game image.
  • the "image of the chair” in the room taken by the camera of the user's game machine can be used inside the 18th century castle. It is converted into a "luxury chair image” and displayed on the AR image used as this converted image game image.
  • the style transfer process is an image style conversion method using machine learning, and is a method of converting an original image into an image having a style different from that of the original image.
  • This style transfer process is described in, for example, Non-Patent Document 1 "https://en.wikipedia.org/wiki/Neural_Style_Transfer”.
  • GAN Generative Adversarial Networks
  • a three-dimensional image (three-dimensional model) generation process is performed from the two-dimensional image.
  • the image processing apparatus of the present disclosure uses a learning model generated by a learning process using a hostile generation network (GAN: Generative Adversarial Networks) in the process of generating a three-dimensional image (three-dimensional model) from the two-dimensional image. ..
  • GAN Generative Adversarial Networks
  • the hostile generation network is an unsupervised learning process that performs a learning process of input data, for example, an image without using "teacher data" which is correct answer data.
  • GAN Generative Adversarial Network
  • A Generator network that generates a large number of sample data (sample images) for learning
  • Judgment unit Discriminator
  • the "(a) generator network” is less likely to be determined as “fake” by the "(b) decision minator network", and the "sample data (sample image) closer to the real thing". Can be generated.
  • the image processing apparatus of the present disclosure uses, for example, a two-dimensional image taken by a camera as a sample image generated in "(a) generator network", and distance data (depth) of an object included in the two-dimensional image. Is used as data for determining whether a two-dimensional image, which is a sample image, is genuine or fake in the "(b) Discriminator network”.
  • the distance data (depth) of one object is a sample image generated in the "(a) Generator network", that is, a two-dimensional image. If it is determined whether or not it is depth data and it is determined that it is depth data of a two-dimensional image, it is determined that the sample image generated by "(a) Genator network" is genuine. Execute the process.
  • the two-dimensional image which is a sample image and the depth data of the two-dimensional image are divided into "(a) generator network” and "(b) unsupervised learning network”, and these are divided.
  • (A) (b) Performs learning processing (unsupervised learning processing) in which two networks compete with each other.
  • the learning model generated as a result of this learning process is stored in the storage unit as a "learning model (depth-embedded two-dimensional image data)".
  • this learning model depth embedded 2D image data
  • this learning model is applied to generate a 3D image (3D model) corresponding to the input 2D image.
  • Example 1 Image processing device that generates a three-dimensional image (three-dimensional model) based on a two-dimensional image
  • Example 2 Image processing device that executes style transfer processing for an input image
  • Example 3 Input two-dimensional image
  • Example 1 An image processing device that generates a three-dimensional image (three-dimensional model) based on a two-dimensional image) First, as (Example 1), an image processing device that generates a three-dimensional image (three-dimensional model) based on a two-dimensional image will be described.
  • FIG. 3 shows a configuration example of the image processing apparatus 100 of the first embodiment.
  • the image processing apparatus 100 of the first embodiment has a data acquisition unit 110, a data processing unit 130, a data output unit 140, a depth embedding learning processing unit 150, and a storage unit 160.
  • the data acquisition unit 110 has a two-dimensional image acquisition unit 111 having a two-dimensional camera 112, a three-dimensional sensor 114, and a depth data (3D data) acquisition unit 113 having an infrared (IR) light output unit 115.
  • a two-dimensional image acquisition unit 111 having a two-dimensional camera 112
  • a three-dimensional sensor 114 having a depth data (3D data) acquisition unit 113 having an infrared (IR) light output unit 115.
  • IR infrared
  • the data processing unit 130 has a three-dimensional model restoration unit 131 and a rendering unit 132.
  • the data output unit 140 has a display unit 141.
  • the depth embedded learning processing unit 150 has a cycle GAN learning algorithm execution unit 151.
  • the storage unit 160 has a learning data storage unit 161 and a learning model (depth embedded image data) storage unit 162.
  • the two-dimensional image acquisition unit 111 of the data acquisition unit 110 captures a two-dimensional image using the two-dimensional camera 112.
  • the depth data (3D data) acquisition unit 113 has a three-dimensional sensor 114 and an infrared (IR) light output unit 115, and is a distance of a subject (object) included in a two-dimensional image taken by a two-dimensional camera 112. Calculate (depth).
  • the infrared (IR) light output unit 115 of the depth data (3D data) acquisition unit 113 outputs infrared light (IR light).
  • the three-dimensional sensor 114 of the depth data (3D data) acquisition unit 113 measures the transmission / reception interval of infrared light (IR light) by the infrared (IR) light output unit 115, and measures the distance (depth) to the subject. .. That is, ToF (Time of Flight), which is the transmission / reception time of infrared light (IR light), is measured, and the distance (depth) of the subject is calculated based on the distance to the subject.
  • ToF Time of Flight
  • the 3D model restoration unit 131 of the data processing unit 130 inputs a 2D image taken by the 2D camera 112 of the 2D image acquisition unit 111 to generate a 3D image (3D model) based on the input 2D image. Generate.
  • the learning model (depth embedded image data) generated by the learning process using the cycle GAN (Generative Advanced Network), that is, the learning model of the storage unit 160 (depth embedded image data) and the stored data of the storage unit 162. Is used to generate a three-dimensional image (3D model).
  • GAN Geneative Advanced Network
  • the rendering unit 132 of the data processing unit 130 performs drawing processing (rendering) of the image to be displayed on the display unit 141.
  • the display unit 141 of the data output unit 140 performs display processing of an image or the like.
  • various display devices such as a 2D image display device, a 3D image display device, and an AR image display device (transparent type, non-transparent type) can be used depending on the embodiment.
  • the cycle GAN learning algorithm execution unit 151 of the depth embedded learning processing unit 150 generates learning data to be used for the 3D image (3D model) restoration processing from the 2D image executed by the 3D model restoration unit 131. Specifically, a learning process using a cycle GAN (Generative Adversarial Networks) is executed to generate a learning model (depth embedded image data). The generated learning model (depth embedded image data) is stored in the learning model (depth embedded image data) storage unit 162 of the storage unit 160.
  • a cycle GAN Geneative Adversarial Networks
  • the storage unit 160 has a learning data storage unit 161 and a learning model (depth embedded image data) storage unit 162.
  • the learning data storage unit 161 stores learning data to be applied to the learning process executed by the cycle GAN learning algorithm execution unit 151 of the depth embedded learning processing unit 150. Specifically, for example, it is the depth data of the two-dimensional image acquired by the two-dimensional image acquisition unit 111 and the object (subject) included in the two-dimensional image, and the depth data acquired by the depth data (3D data) acquisition unit 113. Is stored.
  • the cycle GAN learning algorithm execution unit 151 of the depth embedded learning processing unit 150 applies the learning data stored in the learning data storage unit 161 to perform learning. As a result of processing, the generated data is stored. That is, the cycle GAN learning algorithm execution unit 151 of the learning processing unit 150 applies the learning data stored in the learning data storage unit 161 to execute the learning process using the cycle GAN (Generative Adversarial Networks).
  • the generated learning model (depth embedded image data) is stored.
  • the processing executed by using the image processing apparatus 100 shown in FIG. 3 includes the following two processings.
  • these two processes will be sequentially described.
  • Process 1 is a process mainly executed by the cycle GAN learning algorithm execution unit 151 of the depth embedding learning processing unit 150.
  • the cycle GAN learning algorithm execution unit 151 of the depth embedded learning processing unit 150 generates learning data to be used for the 3D image (3D model) restoration processing from the 2D image executed by the 3D model restoration unit 131.
  • the cycle GAN learning algorithm execution unit 151 of the depth embedded learning processing unit 150 acquires the learning data stored in the learning data storage unit 161 of the storage unit 160, and the cycle using the learning data.
  • a learning model (depth embedded image data) is generated by executing a learning process according to a GAN (Generative Advanced Network) algorithm.
  • the generated learning model (depth embedded image data) is stored in the learning model (depth embedded image data) storage unit 162 of the storage unit 160.
  • the following data are input to and recorded in the learning data storage unit 161.
  • Each of the data (a) and (b) is recorded in association with the learning data storage unit 161.
  • the cycle GAN learning algorithm execution unit 151 of the depth embedded learning processing unit 150 acquires each of the above data (a) and (b) stored in the learning data storage unit 161 and uses the acquired data to cycle.
  • a learning model depth embedded image data is generated by executing a learning process according to a GAN (Generative Adversarial Networks) algorithm.
  • cycle GAN Geneative Adversarial Networks
  • each of the above data (a) and (b) stored in the learning data storage unit 161 that is, (A) Two-dimensional image 201 acquired by the two-dimensional image acquisition unit 111, (B) Depth data (3D data) 202, which is depth data of an object (subject) included in the two-dimensional image and is acquired by the depth data (3D data) acquisition unit 113. An example of each of these data is shown.
  • the cycle GAN learning algorithm execution unit 151 “(A) The two-dimensional image acquired by the two-dimensional image acquisition unit 111” is used as a sample image generated by “(A) the generator network”, and further, “(b) the object included in the above two-dimensional image”. Whether the two-dimensional image (sample image) is genuine in the "(B) Discriminator network" of the depth data of the (subject) and the depth data acquired by the depth data (3D data) acquisition unit 113. Performs unsupervised learning processing used as data for determining the authenticity of a fake.
  • the distance data (depth) of one object is a sample image generated in the "(A) Generator network", that is, a two-dimensional image.
  • the two-dimensional image (sample image) generated by "(A) Generator network” is the real one. The process of determining that is is executed.
  • the two-dimensional image which is a sample image and the depth data of the two-dimensional image are divided into "(A) generator network” and "(B) unsupervised learning network”, and these are divided.
  • (A) (B) Performs learning processing (unsupervised learning processing) in which two networks compete with each other.
  • the learning model generated as a result of this learning process is stored in the storage unit as a "learning model (depth-embedded two-dimensional image data)". That is, as shown in FIG. 6, a learning model (depth-embedded two-dimensional image data) is generated as a result of learning processing according to the cycle GAN (Generative Adversarial Networks) algorithm executed by the cycle GAN learning algorithm execution unit 151. This learning model (depth-embedded two-dimensional image data) is stored in the learning model (depth-embedded two-dimensional image data) storage unit 162 of the storage unit 160.
  • GAN Geneative Adversarial Networks
  • this learning model (depth embedded 2D image data) is applied to generate a 3D image (3D model) corresponding to the input 2D image.
  • Process 2 is a process mainly executed by the three-dimensional model restoration unit 131 and the rendering unit 132 of the data processing unit 130.
  • the 3D model restoration unit 131 of the data processing unit 130 inputs the 2D image 221 taken by the 2D camera 112 of the 2D image acquisition unit 111, and inputs the 2D image 221 to the input 2D image 221. Generates a based 3D image (3D model).
  • GAN Geneative Advanced Network
  • a three-dimensional image (3D model) is generated using the data.
  • the storage data of the learning model (depth embedded image data) storage unit 162 of the storage unit 160 is, as described above, the two-dimensional image which is a sample image and the depth data of the two-dimensional image, "(A) generation unit. It was generated by a cycle GAN learning process (unsupervised learning process) in which (A) and (B) two networks are made to compete with each other by dividing them into a "(Genator) network” and a "(B) decision unit (Discriminator) network”. Data (learning model).
  • the three-dimensional model restoration unit 131 of the data processing unit 130 applies the learning model (depth embedded image data) 222 generated by the cycle GAN learning process (learning process without teacher) to the two-dimensional image acquisition unit 111.
  • learning model depth embedded image data
  • Optimal depth data corresponding to the two-dimensional image 221 taken by the camera 112 is acquired, and the acquired depth data is used to generate a three-dimensional image (three-dimensional model) corresponding to the two-dimensional image 221.
  • the acquisition process of the optimum depth data that is, the optimum learning model (depth embedded image data) from the learning model (depth embedded image data) storage unit 162 is executed by, for example, one of the following methods.
  • a. The user displays and confirms the depth embedded image data, selects the depth embedded image data having the highest similarity to the input two-dimensional image, and specifies and selects the ID set for the selected depth embedded image data. get.
  • b. An automatic image similarity determination program is applied to select the depth-embedded image data having the highest similarity to the input two-dimensional image.
  • the optimum depth data corresponding to the input two-dimensional image 221, that is, the optimum learning model (depth embedded image data) is acquired.
  • the 3D image (3D model) generated by the 3D model restoration unit 131 of the data processing unit 130 is output to the rendering unit 132.
  • the rendering unit 132 of the data processing unit 130 performs drawing processing (rendering) of the image to be displayed on the display unit 141 based on the three-dimensional image (three-dimensional model) generated by the three-dimensional model restoration unit 131.
  • drawing processing rendering
  • the three-dimensional image (three-dimensional model) generated by the three-dimensional model restoration unit 131 based on the two-dimensional image taken by the two-dimensional camera 112 is displayed on the display unit 141 of the data output unit 140.
  • FIG. 8 shows a configuration example of the image processing apparatus 200 of the second embodiment.
  • the image processing apparatus 200 of the second embodiment has a data acquisition unit 110, a data processing unit 130, a data output unit 140, and a storage unit 160.
  • the data acquisition unit 110 has a two-dimensional image acquisition unit 111 having a two-dimensional camera 112, a three-dimensional sensor 114, and a depth data (3D data) acquisition unit 113 having an infrared (IR) light output unit 115.
  • a two-dimensional image acquisition unit 111 having a two-dimensional camera 112
  • a three-dimensional sensor 114 having a depth data (3D data) acquisition unit 113 having an infrared (IR) light output unit 115.
  • IR infrared
  • the data processing unit 130 includes a rendering unit 132, a style determination unit 133, an image conversion unit 134, and an image conversion program 135.
  • the data output unit 140 has a display unit 141.
  • the storage unit 160 includes a scene data storage unit 163 and a style data storage unit 164.
  • the two-dimensional image acquisition unit 111 of the data acquisition unit 110 captures a two-dimensional image using the two-dimensional camera 112.
  • the depth data (3D data) acquisition unit 113 has a three-dimensional sensor 114 and an infrared (IR) light output unit 115, and is a distance of a subject (object) included in a two-dimensional image taken by a two-dimensional camera 112. Calculate (depth).
  • the infrared (IR) light output unit 115 of the depth data (3D data) acquisition unit 113 outputs infrared light (IR light).
  • the three-dimensional sensor 114 of the depth data (3D data) acquisition unit 113 measures the transmission / reception interval of infrared light (IR light) by the infrared (IR) light output unit 115, and measures the distance (depth) to the subject. .. That is, ToF (Time of Flight), which is the transmission / reception time of infrared light (IR light), is measured, and the distance (depth) of the subject is calculated based on the distance to the subject.
  • ToF Time of Flight
  • the rendering unit 132 of the data processing unit 130 performs drawing processing (rendering) of the image to be displayed on the display unit 141.
  • the style determination unit 133 performs a style data determination process to be applied to the image conversion process executed by the image conversion unit 134.
  • Various style data are stored in the style data storage unit 164.
  • the image conversion unit 134 applies the style data determined by the style determination unit 133 to an input image, for example, an input image such as a two-dimensional image taken by the two-dimensional camera 112 or a subject (object) included in the two-dimensional image. Generate a style-changed image with the image style changed.
  • the image conversion unit 134 changes the subject (object) included in the two-dimensional image taken by the two-dimensional camera 112 to an image having an 18th century style or a horror image style.
  • This style is, for example, a style according to the theme of the game program output to the display unit 141.
  • the style determination unit 133 performs the style data determination process to be applied to the image conversion process executed by the image conversion unit 134.
  • the style determination unit 133 determines the style data according to the theme of the display content that outputs the style change image.
  • the style determination unit 133 automatically selects the optimum style data according to the theme information of the game program output to the display unit 141. Specifically, for example, the theme information recorded as attribute information in the game program is acquired and analyzed, and the optimum style data is selected based on the theme analysis result.
  • various style data stored in the style data storage unit 164 may be output to the display unit 141, and the user may select the style data according to the theme of the display content from the output unit 141.
  • the image conversion unit 134 of the data processing unit 130 performs "style transfer processing" which is an image style change processing of an input image, for example, a two-dimensional image taken by a two-dimensional camera 112. That is, the two-dimensional image is converted into an image having a style according to the style data determined by the style determination unit 133.
  • the image conversion program 135 is applied to this image conversion process.
  • the image conversion program 135 is an execution program of the style transfer algorithm.
  • the image conversion unit 134 uses this image conversion program 135 to change the style of the two-dimensional image that is the input image. That is, it is converted into an image having a style according to the style data determined by the style determination unit 133.
  • the image conversion unit 134 of the data processing unit 130 first inputs the two-dimensional image captured by the two-dimensional camera 112. Further, the style data determined by the style determination unit 133 is acquired from the style data storage unit 164. Further, the style data determined by the style determination unit 133 is applied to the subject (object) included in the input two-dimensional image to generate a style change transmission image for output to the display unit 141.
  • the image style conversion process in the image conversion unit 134 is performed by applying the image conversion program (style transfer algorithm) 135.
  • style transfer process As described above, there is a "style transfer process" as an algorithm for performing an image style change process.
  • the style transfer process is an image style conversion method using machine learning, and is a method of converting an original image into an image having a style different from that of the original image.
  • the image conversion unit 134 applies an image conversion program (style transfer algorithm) 135 to execute style transfer (image style conversion processing) for the input image, and generates a style conversion image for output to the display unit 141. ..
  • the image conversion program 135 is an execution program of the style transfer algorithm applied to the style transfer process, which is the image style conversion process in the image conversion unit 134.
  • image conversion processing By performing image conversion processing using the image conversion program 135, that is, style transfer processing, for example, it is possible to convert an image of a room in a house taken by a camera into an image having an atmosphere inside a castle. It will be possible. Alternatively, it is possible to perform processing such as converting an image of a vinyl bag into an image of a luxury bag.
  • this image conversion process that is, style transfer
  • machine learning process the original images of various objects and the images after style transfer corresponding to the original images, for example, the object images of the 18th century are recorded in association with each other.
  • This is stored in the style data storage unit 164 as style data.
  • style data By applying various style data stored in the style data storage unit 164, it is possible to perform a style transfer process for converting various input images into images of different styles.
  • the image conversion program 135 is an execution program of the style transfer algorithm, which is an algorithm for changing the image style, and is used for the image conversion process in the image conversion unit 134 as described above.
  • the rendering unit 132 performs a process of rendering the image generated by the image conversion unit 134 on the display unit 141.
  • the display unit 141 of the data output unit 140 performs display processing of an image or the like.
  • various display devices such as a 2D image display device, a 3D image display device, and an AR image display device (transparent type, non-transparent type) can be used depending on the embodiment.
  • the storage unit 160 includes a scene data storage unit 163 and a style data storage unit 164.
  • the scene data storage unit 163 is depth data of a two-dimensional image taken by the two-dimensional camera 112 and an object (subject) included in the two-dimensional image, and is a depth data (3D data) acquisition unit 113. Depth data acquired by is stored.
  • the style data storage unit 164 contains various style data such as 18th century chairs, desks, castles, horror monsters, youkai, Western-style buildings, Japanese-style buildings, luxury bags, animals, paintings, and various other objects. Style data is stored.
  • the processing executed by using the image processing apparatus 200 shown in FIG. 8 includes the following two processings.
  • Process 1 is a process mainly executed by the style determination unit 133 of the data processing unit 130.
  • the style determination unit 133 of the data processing unit 130 determines a style to be applied to the style transfer (style conversion) of the subject (object) included in the input image, for example, the two-dimensional image captured by the two-dimensional camera 112. For example, 18th century style and horror style. This style is, for example, a style according to the theme of the game program output to the display unit 141.
  • a determination by user input a method of automatically selecting according to the theme information of the game program output to the display unit 141, or the like is used.
  • the scene data storage unit 163 is depth data of a two-dimensional image 231 taken by the two-dimensional camera 112 and an object (subject) included in the two-dimensional image.
  • the depth data (3D data) 232 acquired by the data (3D data) acquisition unit 113 is stored.
  • the style determination unit 133 of the data processing unit 130 acquires scene data 233 having either scene data stored in the scene data storage unit 163, that is, a two-dimensional image or depth data (3D data) corresponding to the two-dimensional image. And determine the style to apply to the style transfer (style conversion).
  • the style determination process can be determined by user input of the scene selection instruction data 234 via the input unit 170. Further, a method of automatically selecting according to the theme information of the game program output to the display unit 141 may be applied. Specifically, for example, the style determination unit 133 acquires and analyzes the theme information recorded as attribute information in the game program, and determines the optimum style data based on the theme analysis result.
  • the training data is associated with one of a certain image set, and the style determination unit 133 inputs 3D data such as depth data to be converted, and selects and determines the optimum style for the input data.
  • the configuration may be determined according to an application such as a game application being output to or scheduled to be output to the display unit 141, or mode information set in the application.
  • the style determination unit 133 may be configured to verify the image data of the AR content output to the display unit 141 and select and determine a style suitable for the theme of the image data. For example, when the image data of the AR content of the output destination includes an image in which a plurality of long chairs are lined up, it is determined that the image is a theater, and the style suitable for the theater is determined.
  • Process 2 is a process mainly executed by the image conversion unit 134 of the data processing unit 130, and is an image conversion process using the image conversion program 135.
  • the image conversion unit 134 of the data processing unit 130 is a target for changing the style of the image, that is, a two-dimensional image 241 to which the style transfer processing is applied, and depth data corresponding to the two-dimensional image 241. (3D data) 242 is input from the data acquisition unit 110.
  • the image conversion unit 134 inputs the style data 244 to be applied to the style transfer process (image style change process) determined by the style determination unit 133 from the style data storage unit 164.
  • the style determination process in the style determination unit 133 can be determined by the user input of the scene selection instruction data 234 via the input unit 170 shown in FIG. Further, a method of automatically selecting according to the theme information of the game program output to the display unit 141 and a method of using learning data generated by machine learning can be applied.
  • the image conversion unit 134 applies the image conversion program (style transfer algorithm) 135 to the input two-dimensional image 241 and the subject (object) included in the depth data (3D data) 242 corresponding to the two-dimensional image 241. Then, style transfer (style change processing) is executed, and a converted image (style converted image) for output to the display unit 141 is generated.
  • style transfer style change processing
  • the image conversion unit 134 can also generate a two-dimensional image in which the image style is changed by performing a style transfer process using only the input two-dimensional image 241 and also has a depth corresponding to the two-dimensional image 241. It is also possible to generate a three-dimensional image in which the style is changed by the style transfer process to which the data (3D data) 242 is applied.
  • the three-dimensional style data 244 used for style transfer applied to the image determined by the style determination unit 133 is acquired from the style data storage unit 164. Perform processing.
  • the rendering unit 132 performs a process of rendering the image generated by the image conversion unit 134 on the display unit 141.
  • the display unit 141 of the data output unit 140 performs display processing of the rendered image in the rendering unit 132.
  • the image after the style transfer is displayed on the display unit 141.
  • the game displayed on the display unit 141 is a game with the theme of the inside of a castle in the 18th century
  • the "image of the chair” in the room taken by the camera of the user's game machine. Is converted into a "luxury chair image” as used in a castle in the 18th century, and this converted image is displayed in the AR image used as a game image.
  • FIG. 11 shows an example of (a) a two-dimensional image taken by the two-dimensional camera 112 of the two-dimensional image acquisition unit 111 and (b) a display image (image after style transfer processing) including an object image generated by style transfer. Is shown.
  • Example 3 An image processing device that executes a 3D image (3D model) generation process based on an input 2D image and a style transfer process) Next, as (Example 3), an image processing device that executes a three-dimensional image (three-dimensional model) generation process based on an input two-dimensional image and a style transfer process will be described.
  • FIG. 12 shows a configuration example of the image processing apparatus 300 of the third embodiment.
  • the image processing apparatus 300 of the third embodiment has a data acquisition unit 110, a data processing unit 130, a data output unit 140, a depth embedding learning processing unit 150, and a storage unit 160.
  • the data acquisition unit 110 has a two-dimensional image acquisition unit 111 having a two-dimensional camera 112, a three-dimensional sensor 114, and a depth data (3D data) acquisition unit 113 having an infrared (IR) light output unit 115.
  • a two-dimensional image acquisition unit 111 having a two-dimensional camera 112
  • a three-dimensional sensor 114 having a depth data (3D data) acquisition unit 113 having an infrared (IR) light output unit 115.
  • IR infrared
  • the data processing unit 130 includes a three-dimensional model restoration unit 131, a rendering unit 132, a style determination unit 133, an image conversion unit 134, and an image conversion program 135.
  • the data output unit 140 has a display unit 141.
  • the depth embedded learning processing unit 150 has a cycle GAN learning algorithm execution unit 151.
  • the storage unit 160 includes a learning data storage unit 161, a learning model (depth embedded image data) storage unit 162, a scene data storage unit 163, and a style data storage unit 164.
  • the two-dimensional image acquisition unit 111 of the data acquisition unit 110 captures a two-dimensional image using the two-dimensional camera 112.
  • the depth data (3D data) acquisition unit 113 has a three-dimensional sensor 114 and an infrared (IR) light output unit 115, and is a distance of a subject (object) included in a two-dimensional image taken by a two-dimensional camera 112. Calculate (depth).
  • the infrared (IR) light output unit 115 of the depth data (3D data) acquisition unit 113 outputs infrared light (IR light).
  • the three-dimensional sensor 114 of the depth data (3D data) acquisition unit 113 measures the transmission / reception interval of infrared light (IR light) by the infrared (IR) light output unit 115, and measures the distance (depth) to the subject. .. That is, ToF (Time of Flight), which is the transmission / reception time of infrared light (IR light), is measured, and the distance (depth) of the subject is calculated based on the distance to the subject.
  • ToF Time of Flight
  • the 3D model restoration unit 131 of the data processing unit 130 inputs a 2D image taken by the 2D camera 112 of the 2D image acquisition unit 111 to generate a 3D image (3D model) based on the input 2D image. Generate.
  • the learning model (depth embedded image data) generated by the learning process using the cycle GAN (Generative Advanced Network), that is, the learning model of the storage unit 160 (depth embedded image data) and the stored data of the storage unit 162. Is used to generate a three-dimensional image (3D model).
  • GAN Geneative Advanced Network
  • the rendering unit 132 performs drawing processing (rendering) of the image to be displayed on the display unit 141.
  • the style determination unit 133 determines a style to be applied to the style transfer (style conversion) of the subject (object) included in the input image, for example, the two-dimensional image taken by the two-dimensional camera 112. For example, 18th century style and horror style. This style is, for example, a style according to the theme of the game program output to the display unit 141.
  • a determination by user input a method of automatically selecting according to the theme information of the game program output to the display unit 141, or the like is used.
  • the image conversion unit 134 performs style transfer processing of an input image, for example, a two-dimensional image taken by a two-dimensional camera 112. That is, the two-dimensional image is converted into an image having a style according to the style data determined by the style determination unit 133.
  • the image conversion program 135 is applied to this image conversion process.
  • the image conversion program 135 is an execution program of the style transfer algorithm.
  • the image conversion unit 134 uses this image conversion program 135 to change the style of the two-dimensional image that is the input image. That is, it is converted into an image having a style according to the style data determined by the style determination unit 133. For example, a style conversion is performed such that the image of the "chair” in the room of the user (game player) is changed to the style of the "luxury chair of the 18th century".
  • the display unit 141 of the data output unit 140 performs display processing of an image or the like.
  • various display devices such as a 2D image display device, a 3D image display device, and an AR image display device (transparent type, non-transparent type) can be used depending on the embodiment.
  • the cycle GAN learning algorithm execution unit 151 of the depth embedded learning processing unit 150 generates learning data to be used for the 3D image (3D model) restoration processing from the 2D image executed by the 3D model restoration unit 131. Specifically, a learning process using a cycle GAN (Generative Adversarial Networks) is executed to generate a learning model (depth embedded image data). The generated learning model (depth embedded image data) is stored in the learning model (depth embedded image data) storage unit 162 of the storage unit 160.
  • a cycle GAN Geneative Adversarial Networks
  • the storage unit 160 includes a learning data storage unit 161, a learning model (depth embedded image data) storage unit 162, a scene data storage unit 163, and a style data storage unit 164.
  • the learning data storage unit 161 stores learning data applied to the learning process executed by the cycle GAN learning algorithm execution unit 151 of the depth embedded learning processing unit 150. Specifically, for example, it is the depth data of the two-dimensional image acquired by the two-dimensional image acquisition unit 111 and the object (subject) included in the two-dimensional image, and the depth data acquired by the depth data (3D data) acquisition unit 113. Is stored.
  • the cycle GAN learning algorithm execution unit 151 of the depth embedded learning processing unit 150 applies the learning data stored in the learning data storage unit 161 to perform learning. As a result of processing, the generated data is stored. That is, the cycle GAN learning algorithm execution unit 151 of the learning processing unit 150 applies the learning data stored in the learning data storage unit 161 to execute the learning process using the cycle GAN (Generative Adversarial Networks).
  • the generated learning model (depth embedded image data) is stored.
  • the scene data storage unit 163 is depth data of a two-dimensional image taken by the two-dimensional camera 112 and an object (subject) included in the two-dimensional image, and is a depth data (3D data) acquisition unit 113. Depth data acquired by is stored.
  • the style data storage unit 164 contains various style data such as 18th century chairs, desks, castles, horror monsters, youkai, Western-style buildings, Japanese-style buildings, luxury bags, animals, paintings, and various other objects. Style data is stored.
  • FIG. 13 is a flowchart illustrating a sequence of processing executed by using the image processing apparatus 300 shown in FIG. 12
  • the processing according to this flow can be executed by the data processing unit 130 of the image processing apparatus 300 according to the program stored in the storage unit of the image processing apparatus 300.
  • the data processing unit 130 of the image processing device 300 includes a CPU having a program execution function, and executes processing according to a flow according to a program stored in the storage unit.
  • Step S101 First, the data processing unit 130 of the image processing apparatus 300 inputs a two-dimensional image (camera-captured image) in step S101. Specifically, for example, a two-dimensional image taken by the two-dimensional camera 112 of the two-dimensional image acquisition unit 111 shown in FIG. 12 is input.
  • Step S102 the data processing unit 130 of the image processing device 300 utilizes the learning model (depth embedded image data) 162 stored in the storage unit 160 to obtain a three-dimensional image (3) based on the input two-dimensional image. Dimensional model) is generated.
  • learning model depth embedded image data
  • This process is a process executed by the three-dimensional model restoration unit 131 of the data processing unit 130.
  • the 3D model restoration unit 131 of the data processing unit 130 inputs a 2D image taken by the 2D camera 112 of the 2D image acquisition unit 111, and a 3D image (3D model) based on the input 2D image. To generate.
  • the learning model (depth embedded image data) generated by the learning process using the cycle GAN (Generative Advanced Network), that is, the learning model of the storage unit 160 (depth embedded image data) and the stored data of the storage unit 162. Is used to generate a three-dimensional image (3D model).
  • GAN Geneative Advanced Network
  • the storage data of the learning model (depth embedded image data) storage unit 162 of the storage unit 160 is, as described above, the two-dimensional image which is a sample image and the depth data of the two-dimensional image, "(A) generation unit. It was generated by a cycle GAN learning process (unsupervised learning process) in which (A) and (B) two networks are made to compete with each other by dividing them into a "(Genator) network” and a "(B) decision unit (Discriminator) network”. Data (learning model).
  • the 3D model restoration unit 131 of the data processing unit 130 applies a learning model (depth embedded image data) generated by the cycle GAN learning process (learning process without teacher) to the 2D camera of the 2D image acquisition unit 111.
  • a learning model depth embedded image data
  • Optimal depth data corresponding to the two-dimensional image taken by 112 is acquired, and the acquired depth data is used to generate a three-dimensional image (three-dimensional model) corresponding to the two-dimensional image.
  • the process of acquiring the optimum depth data that is, the optimum learning model (depth embedded image data) from the learning model (depth embedded image data) storage unit 162 is executed by, for example, one of the following methods.
  • a. The user displays and confirms the depth embedded image data, selects the depth embedded image data having the highest similarity to the input two-dimensional image, and specifies and selects the ID set for the selected depth embedded image data. get.
  • b. An automatic image similarity determination program is applied to select the depth-embedded image data having the highest similarity to the input two-dimensional image.
  • the optimum depth data corresponding to the input two-dimensional image 221, that is, the optimum learning model (depth embedded image data) is acquired, and the acquired depth data is used to obtain two-dimensional.
  • Step S103 the data processing unit 130 of the image processing apparatus 300 applies to the style transfer process, which is the image style conversion process executed for the three-dimensional image (three-dimensional model) generated in step S102 in step S103. To determine.
  • This process is executed by the style determination unit 133 of the data processing unit 130.
  • the style determination process in the style determination unit 133 the determination process by user input of the scene selection instruction data via the input unit 170 shown in FIG. 9 is possible. Further, it may be determined by applying a method of automatically selecting according to the theme information of the game program output to the display unit 141 or a method of using learning data generated by machine learning.
  • step S104 the data processing unit 130 of the image processing apparatus 300 applies the style determined in step S103 to the three-dimensional image (three-dimensional model) generated in step S102 to change the image style. That is, the style transfer process is executed. That is, an image conversion process (style transfer algorithm) to which the style data stored in the storage unit is applied is executed to generate a style conversion three-dimensional image (three-dimensional model).
  • This process is a process executed by the image conversion unit 134 of the data processing unit 130.
  • the image conversion unit 134 executes an image style change process, that is, a style transfer process, in which the style determined in step S103 is applied to the three-dimensional image (three-dimensional model) generated in step S102.
  • This style transfer process is performed by applying an image conversion program (style transfer algorithm) 135.
  • step S105 the data processing unit 130 of the image processing device 300 outputs the style-converted three-dimensional image (three-dimensional model) generated in step S104 to the display unit 141.
  • This process is performed by the rendering process of the display image by the rendering unit 132 of the data processing unit 130.
  • the generation processing of the 3D image (3D model) based on the input 2D image is executed in advance, and then the style change processing of the 3D image (3D model) is executed. It was a sequence of performing style transfer.
  • a style transfer which is a style change process, is executed in advance for a sequence different from this processing sequence, for example, an input 2D image, and then a 3D image (3D model) based on the 2D image after the style change. It may be used as a screen to execute the generation process of.
  • a flowchart of this processing sequence is shown in FIG. The processing of each step of the flow shown in FIG. 14 will be described.
  • Step S201 First, the data processing unit 130 of the image processing apparatus 300 inputs a two-dimensional image (camera-captured image) in step S201. Specifically, for example, a two-dimensional image taken by the two-dimensional camera 112 of the two-dimensional image acquisition unit 111 shown in FIG. 12 is input.
  • step S202 the data processing unit 130 of the image processing apparatus 300 determines a style to be applied to the style transfer process, which is the image style conversion process executed for the two-dimensional image input in step S201.
  • This process is executed by the style determination unit 133 of the data processing unit 130.
  • the style determination process in the style determination unit 133 the determination process by user input of the scene selection instruction data via the input unit 170 shown in FIG. 9 is possible. Further, it may be determined by applying a method of automatically selecting according to the theme information of the game program output to the display unit 141 or a method of using learning data generated by machine learning.
  • step S203 the data processing unit 130 of the image processing apparatus 300 performs an image style change process, that is, a style transfer process, in which the style determined in step S202 is applied to the two-dimensional image input in step S201. Run. That is, an image conversion process (style transfer algorithm) to which the style data stored in the storage unit is applied is executed to generate a style conversion two-dimensional image.
  • an image conversion process style transfer algorithm
  • This process is a process executed by the image conversion unit 134 of the data processing unit 130.
  • the image conversion unit 134 executes an image style change process, that is, a style transfer process, in which the style determined in step S202 is applied to the two-dimensional image input in step S201.
  • This style transfer process is performed by applying an image conversion program (style transfer algorithm) 135.
  • Step S204 the data processing unit 130 of the image processing device 300 uses the learning model (depth embedded image data) 162 stored in the storage unit 160 to perform style conversion based on the style conversion two-dimensional image. Generate a 3D image (3D model).
  • This process is a process executed by the three-dimensional model restoration unit 131 of the data processing unit 130.
  • the three-dimensional model restoration unit 131 of the data processing unit 130 inputs the style-converted two-dimensional image generated in step S203, and generates a three-dimensional image (three-dimensional model) based on the input style-converted two-dimensional image.
  • the learning model (depth embedded image data) generated by the learning process using the cycle GAN (Generative Advanced Network), that is, the learning model of the storage unit 160 (depth embedded image data) and the stored data of the storage unit 162. Is used to generate a three-dimensional image (3D model).
  • GAN Geneative Advanced Network
  • the storage data of the learning model (depth embedded image data) storage unit 162 of the storage unit 160 is, as described above, the two-dimensional image which is a sample image and the depth data of the two-dimensional image, "(A) generation unit. It was generated by a cycle GAN learning process (unsupervised learning process) in which (A) and (B) two networks are made to compete with each other by dividing them into a "(Genator) network” and a "(B) decision unit (Discriminator) network”. Data (learning model).
  • the 3D model restoration unit 131 of the data processing unit 130 applies the learning model (depth embedded image data) 222 generated by the cycle GAN learning process (unsupervised learning process) to correspond to the input style conversion 2D image.
  • the optimum depth data is acquired, and the acquired depth data is used to generate a three-dimensional image (three-dimensional model) corresponding to the input style-converted two-dimensional image.
  • the process of acquiring the optimum depth data that is, the optimum learning model (depth embedded image data) from the learning model (depth embedded image data) storage unit 162 is executed by, for example, one of the following methods.
  • a. The user displays and confirms the depth embedded image data, selects the depth embedded image data having the highest similarity to the input two-dimensional image, and specifies and selects the ID set for the selected depth embedded image data. get.
  • b. An automatic image similarity determination program is applied to select the depth-embedded image data having the highest similarity to the input two-dimensional image.
  • the optimum depth data corresponding to the input two-dimensional image 221, that is, the optimum learning model (depth embedded image data) is acquired, and the acquired depth data is used to obtain two-dimensional.
  • step S205 the data processing unit 130 of the image processing apparatus 300 outputs the style-converted three-dimensional image (three-dimensional model) generated in step S204 to the display unit 141.
  • This process is performed by the rendering process of the display image by the rendering unit 132 of the data processing unit 130.
  • An image processing device that generates two parallax images, a left-eye image and a right-eye image for observing a three-dimensional image.
  • (2) Generates various three-dimensional images (three-dimensional models) based on various two-dimensional images.
  • FIG. 15 shows a configuration example of an image processing device 400 that generates two parallax images, an image for the left eye and an image for the right eye for observing a three-dimensional image.
  • the image processing device 400 shown in FIG. 15 has a data acquisition unit 110, a data processing unit 130, a data output unit 140, and a storage unit 160.
  • the data acquisition unit 110 has a two-dimensional image acquisition unit 111 having a two-dimensional camera 112, a three-dimensional sensor 114, and a depth data (3D data) acquisition unit 113 having an infrared (IR) light output unit 115.
  • a two-dimensional image acquisition unit 111 having a two-dimensional camera 112
  • a three-dimensional sensor 114 having a depth data (3D data) acquisition unit 113 having an infrared (IR) light output unit 115.
  • IR infrared
  • the data processing unit 130 has a three-dimensional model restoration unit 131 and a parallax image generation unit 136.
  • the data output unit 140 has an image display device (HMD) 142.
  • the storage unit 160 has a learning model (depth embedded image data) storage unit 162.
  • the two-dimensional image acquisition unit 111 of the data acquisition unit 110 captures a two-dimensional image using the two-dimensional camera 112.
  • the depth data (3D data) acquisition unit 113 has a three-dimensional sensor 114 and an infrared (IR) light output unit 115, and is a distance of a subject (object) included in a two-dimensional image taken by a two-dimensional camera 112. Calculate (depth).
  • the infrared (IR) light output unit 115 of the depth data (3D data) acquisition unit 113 outputs infrared light (IR light).
  • the three-dimensional sensor 114 of the depth data (3D data) acquisition unit 113 measures the transmission / reception interval of infrared light (IR light) by the infrared (IR) light output unit 115, and measures the distance (depth) to the subject. .. That is, ToF (Time of Flight), which is the transmission / reception time of infrared light (IR light), is measured, and the distance (depth) of the subject is calculated based on the distance to the subject.
  • ToF Time of Flight
  • the 3D model restoration unit 131 of the data processing unit 130 inputs a 2D image 261 taken by the 2D camera 112 of the 2D image acquisition unit 111, and a 3D image (3D) based on the input 2D image 261. Model) is generated.
  • GAN Geneative Advanced Network
  • a three-dimensional image (3D model) is generated using the data.
  • the parallax image generation unit 136 of the data processing unit 130 generates two parallax images, a left-eye image 271 for three-dimensional image observation and a right-eye image 272.
  • the parallax image generation unit 136 analyzes the three-dimensional image (three-dimensional model) generated by the three-dimensional model restoration unit 131, and generates two two-dimensional images observed from the positions of the left and right eyes, that is, a parallax image. .. That is, two parallax images, a left-eye image 271 and a right-eye image 272 for observing the three-dimensional image shown in the figure, are generated.
  • the left eye image 271 and the right eye image 272, which are these two parallax images, are output to the left eye image display unit and the right eye image display unit constituting the image display device (HMD) 142 of the data output unit 140.
  • HMD image display device
  • the image display device (HMD) 142 can observe a dimensional image.
  • FIG. 16 shows a configuration example of an image processing device 450 that generates various 3D images (3D models) based on various 2D images.
  • the image processing device 450 shown in FIG. 16 has a data acquisition unit 110, a data processing unit 130, a data output unit 140, and a storage unit 160.
  • the data acquisition unit 110 has a two-dimensional image acquisition unit 111 having a two-dimensional camera 112.
  • the data processing unit 130 has a three-dimensional model restoration unit 131.
  • the data output unit 140 has a display unit 141.
  • the storage unit 160 has a learning model (depth embedded image data) storage unit 162.
  • the two-dimensional image acquisition unit 111 of the data acquisition unit 110 captures a two-dimensional image using the two-dimensional camera 112. For example, two-dimensional images 281 of various different types of chairs as shown in FIG. 16 are taken and output to the three-dimensional model restoration unit 131 of the data processing unit 130.
  • the 3D model restoration unit 131 of the data processing unit 130 inputs a 2D image taken by the 2D camera 112 of the 2D image acquisition unit 111 to generate a 3D image (3D model) based on the input 2D image. Generate.
  • GAN Geneative Advanced Network
  • a three-dimensional image (3D model) is generated using the data.
  • the 3D model restoration unit 131 "learns corresponding to one chair" from the storage data of the learning model (depth embedded image data) storage unit 162 of the storage unit 160 for 2D images of various different types of chairs. "Model (depth embedded image data)” can be selected and one selected model can be used to generate 3D images 283 corresponding to different chair images.
  • the learning model (depth embedded image data) of the storage unit 160 that is, the storage data of the storage unit 162, that is, the learning model (depth embedded image data) 282 embeds the depth data (3D data) in the image of a chair having a certain shape. It's data.
  • the rough shape of the chair such as the seat surface, backrest, legs, etc., is similar even for different types of chairs. Therefore, even if the 3D image generation process in which the depth data (3D data) is applied to the image of the chair having a certain shape with respect to the 2D image of the different type of chair, a large error does not occur. ..
  • FIG. 17 is an example of the hardware configuration of the image processing apparatus of each of the above-described embodiments.
  • the hardware configuration shown in FIG. 17 will be described.
  • the CPU (Central Processing Unit) 501 functions as a data processing unit that executes various processes according to a program stored in the ROM (Read Only Memory) 502 or the storage unit 508. For example, the process according to the sequence described in the above-described embodiment is executed.
  • the RAM (Random Access Memory) 503 stores programs and data executed by the CPU 501. These CPUs 501, ROM 502, and RAM 503 are connected to each other by a bus 504.
  • the CPU 501 is connected to the input / output interface 505 via the bus 504, and the input / output interface 505 has an input unit 506 composed of various sensors, a camera, a switch, a keyboard, a mouse, a microphone, etc., and an output unit 507 composed of a display, a speaker, and the like. Is connected.
  • the storage unit 508 connected to the input / output interface 505 is composed of, for example, a hard disk or the like, and stores a program executed by the CPU 501 and various data.
  • the communication unit 509 functions as a transmission / reception unit for data communication via a network such as the Internet or a local area network, and further as a transmission / reception unit for broadcast waves, and communicates with an external device.
  • the drive 510 connected to the input / output interface 505 drives a removable medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory such as a memory card, and records or reads data.
  • a removable medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory such as a memory card
  • a style determination unit that determines the style data to be applied to the image style change process, It has an image conversion unit that generates a style conversion image in which the image style of the input image is changed by applying the style data determined in the style determination unit.
  • the style determination unit The style data is determined according to the theme of the image content that outputs the style-converted image, and the style data is determined.
  • the image conversion unit An image processing device that generates a style-converted image by applying style data determined according to the theme of the display content.
  • the image conversion unit is The image processing apparatus according to (1), which applies a style transfer algorithm to generate the style-converted image.
  • the input image is a two-dimensional image and is The image conversion unit The image processing apparatus according to (1) or (2), which applies style data to an input two-dimensional image to generate a style-converted two-dimensional image in which the image style is changed.
  • the input image is a two-dimensional image and is The image conversion unit The image processing apparatus according to any one of (1) to (3), which generates a style-converted three-dimensional image in which an image style is changed by using the input two-dimensional image and the depth data corresponding to the two-dimensional image.
  • the image processing device is A 2D image acquisition unit that acquires a 2D image, It has a depth data acquisition unit that acquires depth data, and has a depth data acquisition unit.
  • the style determination unit is The image processing according to any one of (1) to (6), wherein the theme information recorded as the attribute information of the image content for outputting the style conversion image is acquired and analyzed, and the optimum style data is determined based on the analysis result. Device.
  • the image processing device is It has a style data storage unit that stores multiple different style data, and has a style data storage unit.
  • the style determination unit The image processing apparatus according to any one of (1) to (7), wherein the style data to be applied to the image style change processing is selected from the style data stored in the style data storage unit.
  • the image processing apparatus further includes It has a 3D model restoration unit that executes 3D image restoration processing based on 2D images.
  • the three-dimensional model restoration unit is The image processing apparatus according to any one of (1) to (8), wherein a learning model including a depth-embedded image data generated in advance is applied to execute a three-dimensional image restoration process.
  • the learning model is The image processing apparatus according to (9), which is a learning model generated by a learning process using a hostile generation network (GAN: Generative Adversarial Networks).
  • GAN Generative Adversarial Networks
  • the input image is a two-dimensional image and is
  • the three-dimensional model restoration unit is A 3D image restoration process based on the input 2D image is executed to generate a 3D image.
  • the image conversion unit The image processing apparatus according to (9) or (10), wherein the style data is applied to a three-dimensional image generated by the three-dimensional model restoration unit to generate a style-converted three-dimensional image.
  • the image processing apparatus further includes It has a learning processing unit that executes learning processing using a hostile generation network (GAN: Generative Adversarial Networks).
  • GAN Generative Adversarial Networks
  • the learning processing unit The image processing apparatus according to any one of (1) to (11), which executes a learning process using a two-dimensional image and depth data corresponding to the two-dimensional image.
  • the learning processing unit is The two-dimensional image is used as a sample image generated in the generator network, and the depth data of the two-dimensional image is used in the decision minator network to determine whether the sample image is genuine or fake.
  • GAN hostile generation network
  • An image processing method executed in an image processing apparatus A style determination step in which the style determination unit determines the style data to be applied to the image style change process,
  • the image conversion unit has an image conversion step of applying the style data determined in the style determination step to generate a style conversion image in which the image style of the input image is changed.
  • the style determination step is This is a step of determining style data according to the theme of the image content that outputs the style-converted image.
  • the image conversion step is An image processing method that is a step of generating a style-converted image by applying style data determined according to the theme of the display content.
  • a program that executes image processing in an image processing device A style determination step that causes the style determination unit to determine the style data to be applied to the image style change process.
  • the image conversion unit is made to execute an image conversion step of applying the style data determined in the style determination step to generate a style conversion image in which the image style of the input image is changed.
  • the style determination step is This is a step of determining style data according to the theme of the image content that outputs the style-converted image.
  • the image conversion step is A program that is a step of applying style data determined according to the theme of the display content to generate a style-converted image.
  • the series of processes described in the specification can be executed by hardware, software, or a composite configuration of both.
  • the program can be pre-recorded on a recording medium.
  • programs can be received via networks such as LAN (Local Area Networks) and the Internet, and installed on a recording medium such as a built-in hard disk.
  • the various processes described in the specification are not only executed in chronological order according to the description, but may also be executed in parallel or individually as required by the processing capacity of the device that executes the processes.
  • the system is a logical set configuration of a plurality of devices, and the devices of each configuration are not limited to those in the same housing.
  • an apparatus and a method capable of changing an image style to a style that matches the theme of the content to which the image is output and outputting the image Is realized.
  • a style determination unit that determines the style data to be applied to the image style change processing, and a style conversion image in which the image style of the input image is changed by applying the style data determined by the style determination unit. It has an image conversion unit to generate.
  • the style determination unit determines the style data according to the theme of the image content that outputs the style conversion image, and the image conversion unit applies the style data determined according to the theme of the display content to generate the style conversion image.
  • a device and a method that enable the image style to be changed to a style that matches the theme of the content to which the image is output and output are realized.
  • Image processing device 110 Data acquisition unit 111 2D image acquisition unit 112 2D camera 113 Depth data ( 3D data) Acquisition unit 114 3D sensor 115 Infrared (IR) optical output unit 130 Data processing unit 131 3D model restoration unit 132 Rendering unit 133 Style determination unit 134 Image conversion unit 135 Image conversion program 140 Data output unit 141 Display unit 142 Image Display Device (HMD) 150 Depth embedded learning processing unit 151 Cycle GAN learning algorithm execution unit 160 Storage unit 161 Learning data storage unit 162 Learning model (depth embedded image data) storage unit 163 Scene data storage unit 164 Style data storage unit 200 Image processing device 300 Image processing Equipment 400 Image processing equipment 450 Image processing equipment 501 CPU 502 ROM 503 RAM 504 Bus 505 Input / output interface 506 Input section 507 Output section 508 Storage section 509 Communication section 510 drive 511 Removable media

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Processing Or Creating Images (AREA)

Abstract

画像スタイルを、画像の出力先となるコンテンツのテーマに一致したスタイルに変更して出力することを可能とした装置、方法を提供する。画像スタイルの変更処理に適用するスタイルデータを決定するスタイル決定部と、スタイル決定部において決定したスタイルデータを適用して、入力画像の画像スタイルを変更したスタイル変換画像を生成する画像変換部を有する。スタイル決定部は、スタイル変換画像を出力する画像コンテンツのテーマに応じてスタイルデータを決定し、画像変換部は、表示コンテンツのテーマに応じて決定されたスタイルデータを適用してスタイル変換画像を生成する。

Description

画像処理装置、および画像処理方法、並びにプログラム
 本開示は、画像処理装置、および画像処理方法、並びにプログラムに関する。さらに詳細には、3次元(3D)モデルの生成処理や、画像のスタイル変換処理を実行する画像処理装置、画像処理システム、並びにプログラムに関する。
 近年、コンピュータ・グラフィクス(CG:Computer Graphics)技術を用いた3次元画像生成技術が、映画やゲームなど様々な分野で利用されている。
 また、通常のカメラで撮影した2次元画像を用いて3次元形状モデルを生成する技術についても提案されている。
 例えば、特許文献1(特開2018-136632号公報)には、人口知能に2次元画像を入力して、2次元画像に含まれる被写体の3次元形状を推定する構成を開示している。
 この開示構成は、サンプル被写体の3次元形状を表す教師データと、サンプル被写体の3次元形状を撮影した2次元画像を含む学習データを用いて機械学習によって生成される学習結果を用いて3次元形状推定を行うものである。
 従って、予め、サンプル被写体の3次元形状を表す教師データと、サンプル被写体の2次元画像の双方が必要であるという問題がある。
特開2017-138913号公報
https://en.wikipedia.org/wiki/Neural_Style_Transfer
 本開示の一実施例は、例えば上述の問題点に鑑みてなされたものであり、より簡易な構成で、通常のカメラで撮影した2次元画像を用いて3次元画像(3次元モデル)を生成することを可能とした画像処理装置、および画像処理方法、並びにプログラムを提供するものである。
 さらに、本開示の一実施例は、通常のカメラで撮影した2次元画像や、2次元画像に基づいて生成した3次元画像(3次元モデル)に対して、画像スタイルを変更するスタイル転送処理を行い、異なるスタイルの画像、例えば異なる画像スタイルの3次元画像を生成して表示部に出力することを可能とした画像処理装置、および画像処理方法、並びにプログラムを提供するものである。
 本開示の第1の側面は、
 画像スタイルの変更処理に適用するスタイルデータを決定するスタイル決定部と、
 前記スタイル決定部において決定したスタイルデータを適用して、入力画像の画像スタイルを変更したスタイル変換画像を生成する画像変換部を有し、
 前記スタイル決定部は、
 前記スタイル変換画像を出力する画像コンテンツのテーマに応じてスタイルデータを決定し、
 前記画像変換部は、
 前記表示コンテンツのテーマに応じて決定されたスタイルデータを適用してスタイル変換画像を生成する画像処理装置にある。
 さらに、本開示の第2の側面は、
 画像処理装置において実行する画像処理方法であり、
 スタイル決定部が、画像スタイルの変更処理に適用するスタイルデータを決定するスタイル決定ステップと、
 画像変換部が、前記スタイル決定ステップにおいて決定したスタイルデータを適用して、入力画像の画像スタイルを変更したスタイル変換画像を生成する画像変換ステップを有し、
 前記スタイル決定ステップは、
 前記スタイル変換画像を出力する画像コンテンツのテーマに応じてスタイルデータを決定するステップであり、
 前記画像変換ステップは、
 前記表示コンテンツのテーマに応じて決定されたスタイルデータを適用してスタイル変換画像を生成するステップである画像処理方法にある。
 さらに、本開示の第3の側面は、
 画像処理装置において画像処理を実行させるプログラムであり、
 スタイル決定部に、画像スタイルの変更処理に適用するスタイルデータを決定させるスタイル決定ステップと、
 画像変換部に、前記スタイル決定ステップにおいて決定したスタイルデータを適用して、入力画像の画像スタイルを変更したスタイル変換画像を生成させる画像変換ステップを実行させ、
 前記スタイル決定ステップは、
 前記スタイル変換画像を出力する画像コンテンツのテーマに応じてスタイルデータを決定させるステップであり、
 前記画像変換ステップは、
 前記表示コンテンツのテーマに応じて決定されたスタイルデータを適用してスタイル変換画像を生成させるステップであるプログラムにある。
 なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
 本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 本開示の一実施例の構成によれば、画像スタイルを、画像の出力先となるコンテンツのテーマに一致したスタイルに変更して出力することを可能とした装置、方法が実現される。
 具体的には、例えば、画像スタイルの変更処理に適用するスタイルデータを決定するスタイル決定部と、スタイル決定部において決定したスタイルデータを適用して、入力画像の画像スタイルを変更したスタイル変換画像を生成する画像変換部を有する。スタイル決定部は、スタイル変換画像を出力する画像コンテンツのテーマに応じてスタイルデータを決定し、画像変換部は、表示コンテンツのテーマに応じて決定されたスタイルデータを適用してスタイル変換画像を生成する。
 本構成により、画像スタイルを、画像の出力先となるコンテンツのテーマに一致したスタイルに変更して出力することを可能とした装置、方法が実現される。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
拡張現実画像(AR画像)の表示装置と表示処理例について説明する図である。 拡張現実画像(AR画像)の表示装置と表示処理例について説明する図である。 本開示の画像処理装置の構成例について説明する図である。 本開示の画像処理装置の構成と実行する処理について説明する図である。 本開示の画像処理装置の実行する学習処理の一例について説明する図である。 本開示の画像処理装置の実行する学習処理の一例について説明する図である。 本開示の画像処理装置の構成と実行する処理について説明する図である。 本開示の画像処理装置の構成例について説明する図である。 本開示の画像処理装置の構成と実行する処理について説明する図である。 本開示の画像処理装置の構成と実行する処理について説明する図である。 本開示の画像処理装置の実行するスタイル転送処理について説明する図である。 本開示の画像処理装置の構成例について説明する図である。 本開示の画像処理装置の実行する処理のシーケンスについて説明するフローチャートを示す図である。 本開示の画像処理装置の実行する処理のシーケンスについて説明するフローチャートを示す図である。 本開示の画像処理装置の構成と実行する処理について説明する図である。 本開示の画像処理装置の構成と実行する処理について説明する図である。 本開示の画像処理装置のハードウェア構成例について説明する図である。
 以下、図面を参照しながら本開示の画像処理装置、および画像処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
 1.本開示の画像処理装置の実行する処理の概要について
 2.本開示の画像処理装置が生成、出力する画像や実行する処理の概要について
 2-(1).拡張現実(AR:Augumented Reality)画像について
 2-(2).2次元画像からの3次元画像(3次元モデル)生成処理について
 2-(3).スタイル転送処理について
 2-(4).敵対的生成ネットワーク(GAN:Genarative Adversarial Networks)について
 3.本開示の画像処理装置の構成と処理について
 3-1.(実施例1)2次元画像に基づく3次元画像(3次元モデル)を生成する画像処理装置
 3-1-1.(処理1)学習(サイクルGAN学習アルゴリズム)処理の実行による学習モデル(デプス埋め込み画像データ)の生成、および記憶部への学習モデル格納処理
 3-1-2.(処理2)記憶部に格納された学習モデル(デプス埋め込み画像データ)を適用した2次元画像からの3次元画像(3次元モデル)復元処理と、表示処理
 3-2.(実施例2)入力画像に対するスタイル転送処理を実行する画像処理装置
 3-2-1.(処理1)入力画像に適用するスタイルを決定するスタイル決定処理
 3-2-2.(処理2)決定したスタイルを入力画像に適用してスタイル転送(スタイル変換)を実行して表示部に表示する処理
 3-3.(実施例3)入力2次元画像に基づく3次元画像(3次元モデル)生成処理と、スタイル転送処理を実行する画像処理装置
 4.その他の実施例について
 4-(1)3次元画像観察用の左目用画像と右目用画像の2つの視差画像を生成する画像処理装置
 4-(2)多様な2次元画像に基づく多様な3次元画像(3次元モデル)を生成する画像処理装置
 5.画像処理装置のハードウェア構成例について
 6.本開示の構成のまとめ
  [1.本開示の画像処理装置の実行する処理の概要について]
 まず、本開示の画像処理装置の実行する処理の概要について説明する。
 本開示の一実施例の画像処理装置は、実空間で観察可能な実オブジェクト画像と、仮想オブジェクトを重畳して表示した画像である拡張現実(AR:Augumented Reality)画像を生成して表示する処理を行う。
 最近、家庭用ゲーム機や、テレビ画面、あるいはスマホやPC等のゲーム機器を利用したゲーム等が盛んに行われている。
 このようなゲームを行う場合、例えばゲーム機器に装着されたカメラで撮影した画像、例えばユーザ(ゲームプレイヤー)の部屋の画像に、ゲームアプリケーション(プログラム)に登録されたキャラクタ等の仮想画像を重畳表示したAR画像を生成して、ゲームを行うことを可能としたものがある。
 しかし、このようなカメラ撮影画像上にゲームキャラクタを表示させるようなAR画像を表示する場合、以下のような問題が発生する。
 (問題点1)ユーザ(ゲームプレイヤー)の部屋のカメラ撮影画像が、ゲームテーマやシーンに合わないため、ゲームの雰囲気が損なわれる。
 (問題点2)ユーザ(ゲームプレイヤー)の部屋が暗い場合、カメラ撮影画像を用いて表示部に表示された実画像に含まれる物の識別が困難となる。
 (問題点3)ユーザ(ゲームプレイヤー)の部屋のカメラ撮影画像が2次元画像であり、ゲームキャラクタが3次元画像である場合、2次元画像と3次元画像が混在したAR画像が表示されてしまい、ゲームの質が低下する。
 以下、これらの問題点の具体例と、本開示の画像処理装置が実行する解決策の概要について説明する。
 (問題点1)ユーザ(ゲームプレイヤー)の部屋のカメラ撮影画像が、ゲームテーマやシーンに合わないため、ゲームの雰囲気が損なわれる。
 まず、(問題点1)、すなわち「ユーザ(ゲームプレイヤー)の部屋のカメラ撮影画像が、ゲームテーマやシーンに合わないため、ゲームの雰囲気が損なわれる。」
 この(問題点1)の具体例と、本開示の画像処理装置が実行する解決策の概要について説明する。
 ユーザ(ゲームプレイヤー)の部屋のカメラ撮影画像上にゲームキャラクタを表示させると、ゲームを行うユーザ(プレーヤ)のいる部屋がゲームのテーマに合わないといった問題が発生することがある。
 ゲームは、ある特定のテーマ設定の中で行われる場合が多い。
 具体的には、例えば、18世紀の設定、ホラーの設定など、ゲーム固有のテーマ設定の中で行われることが多い。
 ゲームの中にプレイヤーであるユーザ自身が登場するゲームも多くあり、この場合、例えばユーザや、ユーザのいる部屋のカメラ撮影画像と、ゲームに登場するキャラクタ等を合成した拡張現実画像(AR画像)を生成してスマホ等のゲーム機に表示する処理が行われる。
 しかし、このようなカメラ撮影画像には、ユーザの部屋のなかにある日常的な物(テーブル、いす等)が含まれる。このような日常的な物(テーブル、いす等)の画像は、ゲームのテーマ(18世紀の設定、ホラーの設定など)から乖離しており、表示画面にこのような日常的な物の画像が表示されると、ゲームの雰囲気が損なわれてしまう。
 本開示は、このような問題を解決することを可能とする。
 具体的には、カメラ撮影画像に含まれる日常的なオブジェクト(物)の画像を、ゲームのテーマに合ったオブジェクト(物)の画像に変換して、その変換画像をゲーム画像であるAR画像中に表示する。
 例えば、ゲームが18世紀のお城の中をテーマとしたゲームである場合、ユーザのゲーム機のカメラで撮影された部屋の中の「椅子の画像」を、18世紀のお城の中で利用されるような「豪華な椅子の画像」に変換し、この変換画像をゲーム画像として利用されるAR画像内に表示することができる。
 なお、このような画像変換処理は、例えば「スタイル転送」、あるいは「スタイル変換」と呼ばれる処理によって実現することができる。
 なお、スタイル転送処理については後段で説明する。
 このように、本開示の画像処理装置は、カメラ撮影画像に含まれるオブジェクト(物)に、スタイル転送を適用した画像変換処理を行って、カメラ撮影画像に含まれるオブジェクト(物)をゲームテーマに一致したオブジェクト画像に変換する処理を行ってAR画像内に表示する。
 このような処理を行うことで、ユーザは、ユーザ自身がゲームのテーマの中にいるような感覚を覚えることになり、よりゲームに集中することができる。
 本開示では、このように、カメラ撮影画像に含まれるオブジェクトの外観を変更する処理を行う。
 (問題点2)ユーザ(ゲームプレイヤー)の部屋が暗い場合、カメラ撮影画像を用いて表示部に表示された実画像に含まれる物の識別が困難となる。
 次に、(問題点2)、すなわち「ユーザ(ゲームプレイヤー)の部屋が暗い場合、カメラ撮影画像を用いて表示部に表示された実画像に含まれる物の識別が困難となる。」
 この(問題点2)の具体例と、本開示の画像処理装置が実行する解決策の概要について説明する。
 例えば、ユーザがゲームを行っている部屋の照明が暗い場合、ユーザのいる部屋のカメラ撮影画像は、鮮明度が低下した画像となる。このような不鮮明な画像を、ゲーム画像であるAR画像内に表示すると、カメラ撮影画像に含まれるオブジェクト(物)が認識しづらくなるという問題が発生する。
 フラッシュを利用すれば、瞬間的に明るい画像を得られるが、まぶしさのためにイメージを劣化させる可能性がある。
 このような場合、本開示の画像処理装置は、ユーザのゲーム機のカメラで撮影された部屋の中の「不鮮明な画像」を、ゲームテーマに合わせた「クリアな画像」に変換し、この変換画像をAR画像内に表示する。
 (問題点3)ユーザ(ゲームプレイヤー)の部屋のカメラ撮影画像が2次元画像であり、ゲームキャラクタが3次元画像である場合、2次元画像と3次元画像が混在したAR画像が表示されてしまい、ゲームの質が低下する。
 次に、(問題点3)、すなわち「ユーザ(ゲームプレイヤー)の部屋のカメラ撮影画像が2次元画像であり、ゲームキャラクタが3次元画像である場合、2次元画像と3次元画像が混在したAR画像が表示されてしまい、ゲームの質が低下する。」
 この(問題点3)の具体例と、本開示の画像処理装置が実行する解決策の概要について説明する。
 上述したように、ユーザや、ユーザのいる部屋のカメラ撮影画像と、ゲームに登場するキャラクタ等を合成した拡張現実画像(AR画像)を利用してゲームを行う場合、ゲーム機に装着されたカメラの撮影画像は2次元画像である場合がほとんどである。
 このようなカメラ撮影画像である2次元画像を、3次元画像であるゲームキャラクタが出力されているゲーム画面中に出力すると、2次元画像と3次元画像が混在した不自然な表示画像になる。
 本開示の処理では、カメラで撮影された2次元画像に基づいて3次元画像(3次元モデル)を生成し、生成した3次元画像をAR画像内に表示する。
 このような処理を行うことで、AR画像全体が3次元画像として表示されることになり、ゲームの雰囲気や質を損なうことがなく、ユーザは臨場感のあるゲームを楽しむことができる。
 以上、説明したように、本開示の画像処理装置は、AR画像内に表示する実画像に含まれるオブジェクトについての処理として、例えば、以下の処理を実行する。
 (1)AR画像に出力する実オブジェクトの外観を、特定のスタイルまたはテーマに合わせて変更する。
 (2)AR画像に出力する実オブジェクトが2次元画像である場合、その2次元画像を3次元画像に変換する。
 なお、上記(2)の処理、すなわち2次元画像を3次元画像に変換する処理としては、例えば、カメラ撮影画像である2次元画像にオブジェクト距離を示すデプスデータ(3Dデータ)を埋め込んだデータを生成し、このデータを利用して3次元画像(3次元モデル)を生成する処理を実行する。
 上記(1)、(2)の処理を行うことで、例えば、以下のような処理が可能となる。
 カメラによって2次元画像を撮影し、撮影した2次元画像にデプスデータ等の3Dデータを埋め込み、このデプスデータ等の3Dデータを埋め込んだ2次元画像を利用して3次元画像を生成する。
 さらに、生成した3次元画像に対してゲームテーマに合わせたスタイル転送(画像スタイルの変換)を実行し、スタイル転送後の3次元画像をゲーム画像であるAR画像中に表示する。
 例えば、このような処理が可能となる。
 このような処理を行うことで、カメラ撮影画像に含まれる実オブジェクトを、ゲームテーマに一致した3次元画像としてゲーム画像であるAR画像中に表示することとが可能となり、より臨場感のあるゲームを楽しむことが可能となる。
  [2.本開示の画像処理装置が生成、出力する画像や実行する処理の概要について]
 次に、本開示の画像処理装置が生成、出力する画像や実行する処理の概要について説明する。
 以下、本開示の画像処理装置が生成、出力する画像や実行する処理について、以下の4項目について順次、説明する。
 (1)拡張現実(AR:Augumented Reality)画像について
 (2)2次元画像からの3次元画像(3次元モデル)生成処理について
 (3)スタイル転送処理について
 (4)敵対的生成ネットワーク(GAN:Genarative Adversarial Networks)について
 (2-(1).拡張現実(AR:Augumented Reality)画像について)
 まず、拡張現実(AR:Augumented Reality)画像の概要について説明する。
 実空間で観察可能な実オブジェクトと画像と、仮想オブジェクト画像を重畳して表示した画像を拡張現実(AR:Augumented Reality)画像と呼ぶ。
 本開示の画像処理装置は、例えばこのようなAR画像を生成して、表示部に出力する処理を実行する。
 図1以下を参照して、AR画像の概要について説明する。
 図1には、AR画像の表示を行う画像処理装置の一例として、スマホ10等の携帯型表示装置を示している。
 図1に示すスマホ10は、表示部を有し、カメラ11を有する。
 図1の右側には、表示部の表示画像の例を示している。
 (a)観察画像例1は、スマホ10の表示部に表示されるカメラ11によって撮影された実オブジェクトからなるカメラ撮影画像12によって構成されている。この画像例1には、仮想オブジェクトは表示されていない。
 一方、(b)観察画像例2は、カメラ撮影画像12によって構成される実オブジェクトからなるカメラ撮影画像12に併せて、キャラクタ画像等の仮想オブジェクト画像13を表示した画像例である。この画像例2は、ユーザが実オブジェクトと仮想オブジェクトを併せて観察可能な画像である。
 (b)観察画像例2に示すキャラクタ画像等の仮想オブジェクト画像13は、例えばスマホ10等の携帯型表示装置において実行中のゲームアプリケーションに登場するキャラクタであり、ゲームアプリケーションのプログラム内に登録されたキャラクタ画像である。
 ユーザは、スマホ10の表示部(ディスプレイ)に表示されるカメラ撮影画像、すなわち実オブジェクト画像12と、キャラクタ等の仮想オブジェクト画像13を併せて表示したAR画像を観察することが可能となり、あたかもキャラクタ等の仮想オブジェクトが実世界に存在するかのような感覚を体感することができる。
 さらに、図2を参照して、AR画像表示装置のもう一つの例について説明する。
 図2には、AR画像表示装置の一例として、ヘッド・マウント・ディスプレイ(HMD)型の光透過型AR画像表示デバイス20を示している。
 ユーザは、ユーザの目を覆うようにヘッド・マウント・ディスプレイ(HMD)型の光透過型AR画像表示デバイス20を装着する。
 光透過型AR画像表示デバイス20は光透過型の表示部(ディスプレイ)を有する。光透過型の表示部(ディスプレイ)をユーザの目の前の位置に設定するようにユーザに装着される。
 ユーザは、光透過型AR画像表示デバイス20の光透過型の表示部(ディスプレイ)を介して外部の実オブジェクトをそのまま観察することができる。
 さらに、光透過型の表示部(ディスプレイ)に、仮想オブジェクト、例えばキャラクタ画像等の仮想オブジェクト画像が表示される。
 ユーザは、光透過型AR画像表示デバイス20を介して外部の実オブジェクトとキャラクタ等の仮想オブジェクト画像を併せて観察することが可能となり、あたかもキャラクタ等の仮想オブジェクトが実世界状に存在するかのような感覚を体感することができる。
 図2の右側には、ユーザが、光透過型AR画像表示デバイス20を介して観察可能な画像の例を示している。
 (a)観察画像例1は、光透過型AR画像表示デバイス20を介して観察される外部の実オブジェクトからなる透過観察画像21によって構成されている。この画像例1には、仮想オブジェクトは表示されていない。
 一方、(b)観察画像例2は、光透過型AR画像表示デバイス20を介して観察される外部の実オブジェクトからなる透過観察画像21に併せて、キャラクタ画像等の仮想オブジェクト画像22を表示した画像例である。この画像例2は、ユーザが実オブジェクトと仮想オブジェクトを併せて観察可能なAR画像である。
  (2-(2).2次元画像からの3次元画像(3次元モデル)生成処理について)
 次に、2次元画像からの3次元画像(3次元モデル)生成処理について説明する。
 上述したように、ユーザや、ユーザのいる部屋のカメラ撮影画像と、ゲームに登場するキャラクタ等を合成した拡張現実画像(AR画像)を利用してゲームを行う場合、ゲーム機に装着されたカメラの撮影画像は2次元画像である場合がほとんどである。
 このようなカメラ撮影画像である2次元画像を、3次元画像として表示されているゲームキャラクタが出力されているゲーム画面中に出力すると、不自然な表示画像になる。
 本開示の処理では、カメラで撮影された2次元画像に基づいて3次元画像(3次元モデル)を生成し、生成した3次元画像をAR画像内に表示する。
 このような処理を行うことで、AR画像全体が3次元画像として表示されることになり、ゲームの雰囲気や質を損なうことがなく、ユーザは臨場感のあるゲームを楽しむことができる。
 本開示の処理では、カメラで撮影された2次元画像に含まれる被写体であるオブジェクトの距離情報(デプス)を取得し、取得したデプスデータを2次元画像の各画素単位、あるいは所定の画素集合単位で埋め込んだデプス埋め込み2次元画像を生成する。
 このデプス埋め込み2次元画像を利用することで、この画像から3次元画像を生成する。
 なお、2次元画像に含まれる被写体であるオブジェクトの距離情報(デプス)を取得する方法としては、赤外光等の光の送受信時間を計測するToF(Time of Flight)手法を利用する。
 なお、例えば、ステレオカメラや3Dカメラを利用可能な場合は、これらのカメラの取得データを利用することも可能である。
 (2-(3).スタイル転送処理について)
 次に、スタイル転送処理について説明する。
 前述したように、例えばユーザや、ユーザのいる部屋のカメラ撮影画像と、ゲームに登場するキャラクタ等を合成した拡張現実画像(AR画像)を生成してスマホ等のゲーム機に表示する場合、ユーザの部屋のなかにある日常的な物(テーブル、いす等)の画像は、ゲームのテーマ(18世紀の設定、ホラーの設定など)から乖離しており、表示画面にこのような日常的な物の画像が表示されると、ゲームの雰囲気が損なわれる。
 本開示は、このような問題を解決するため、例えば、カメラ撮影画像に含まれる日常的なオブジェクト(物)の画像を、ゲームのテーマに合ったオブジェクト(物)の画像に変換して、その変換画像をゲーム画像であるAR画像中に表示する。
 例えば、ゲームが18世紀のお城の中をテーマとしたゲームである場合、ユーザのゲーム機のカメラで撮影された部屋の中の「椅子の画像」を、18世紀のお城の中で利用されるような「豪華な椅子の画像」に変換し、この変換画像ゲーム画像として利用するAR画像に表示する。
 このように画像のスタイルを変更する画像スタイル変換処理を行うアルゴリズムとして「スタイル転送処理(Style Transfer)」がある。
 スタイル転送処理は、機械学習を用いた画像スタイル変換手法であり、オリジナル画像を、オリジナル画像とは異なるスタイルの画像に変換する手法である。
 なお、このスタイル転送処理については、例えば非特許文献1「https://en.wikipedia.org/wiki/Neural_Style_Transfer」に記載されている。
 画像のスタイルを変更するスタイル転送処理を行うことで、例えば、カメラで撮影された家の中の部屋の画像を、お城の中の雰囲気を持つ画像に変換することが可能となる。あるいは、ビニールバッグの画像を、高級バッグの画像に変換するといった処理である。
 このような画像のスタイル転送を行うためには、様々な画像を利用した機械学習処理を予め実行しておく必要がある。
 この機械学習処理によって、様々なオブジェクトの元画像と、その元画像に対応するスタイル転送後の画像、例えば18世紀のオブジェクト画像が対応付けたデータが生成される。これをスタイルデータとして格納しておく。
 このような機械学習処理によって生成されたスタイルデータを適用して、様々な入力画像のスタイル転送を行うことができる。
 (2-(4).敵対的生成ネットワーク(GAN:Genarative Adversarial Networks)について)
 次に、敵対的生成ネットワーク(GAN:Genarative Adversarial Networks)について説明する。
 本開示の処理では、上述したように、2次元画像からの3次元画像(3次元モデル)生成処理を行う。
 本開示の画像処理装置は、この2次元画像からの3次元画像(3次元モデル)生成処理に際して、敵対的生成ネットワーク(GAN:Genarative Adversarial Networks)を利用した学習処理によって生成した学習モデルを利用する。
 敵対的生成ネットワーク(GAN)について説明する。
 敵対的生成ネットワーク(GAN)は、正解データである「教師データ」を用いることなく入力データ、例えば画像の学習処理を行う教師なし学習処理である。
 敵対的生成ネットワーク(GAN)では、
 (a)学習用の多数のサンプルデータ(サンプル画像)を生成する生成部(Genarator)ネットワーク、
 (b)生成部の生成したサンプルデータ(サンプル画像)と、本物のデータ(=サンプルデータを変換した後のデータ)とを比較して、生成部の生成したサンプルデータ(サンプル画像)が本物のデータであるか否かの判定(真偽判定)を行う判定部(Discriminator)ネットワーク、
 これら(a),(b)2つのネットワークを利用し、これら2つのネットワークが、各々、最善を尽くすように競い合う。
 この結果、「(a)生成部(Genarator)ネットワーク」は、「(b)判定部(Discriminator)ネットワーク」において「偽物である」と判定されにくい、「より本物に近いサンプルデータ(サンプル画像)」を生成することが可能となる。
 本開示の画像処理装置は、例えばカメラ撮影画像である2次元画像を「(a)生成部(Genarator)ネットワーク」において生成するサンプル画像とし、この2次元画像に含まれるオブジェクトの距離データ(デプス)を「(b)判定部(Discriminator)ネットワーク」において、サンプル画像である2次元画像が本物であるか偽物であるかの真偽判定を行うためのデータとして利用する。
 すなわち、「(b)判定部(Discriminator)ネットワーク」は、ある1つのオブジェクトの距離データ(デプス)が、「(a)生成部(Genarator)ネットワーク」において生成されたサンプル画像、すなわち2次元画像のデプスデータであるか否かを判定して、2次元画像のデプスデータであると判定した場合は、「(a)生成部(Genarator)ネットワーク」が生成したサンプル画像が、本物であると判定する処理を実行する。
 このように、サンプル画像である2次元画像と、2次元画像のデプスデータを、「(a)生成部(Genarator)ネットワーク」と、「(b)判定部(Discriminator)ネットワーク」に振り分けて、これら(a),(b)2つのネットワークを競合させる学習処理(教師なし学習処理)を行う。
 この学習処理(教師なし学習処理)の結果として生成される学習モデルを、「学習モデル(デプス埋め込み2次元画像データ)」として記憶部に格納する。
 新たな2次元画像の入力時には、この学習モデル(デプス埋め込み2次元画像データ)を適用して、入力2次元画像対応の3次元画像(3次元モデル)を生成する。
  [3.本開示の画像処理装置の構成と処理について]
 以下、本開示の画像処理装置の構成と処理について説明する。
 以下に示す3つの実施例について、順次、説明する。
 (実施例1)2次元画像に基づく3次元画像(3次元モデル)を生成する画像処理装置
 (実施例2)入力画像に対するスタイル転送処理を実行する画像処理装置
 (実施例3)入力2次元画像に基づく3次元画像(3次元モデル)を生成し、さらに、スタイル転送処理を実行する画像処理装置
  (3-1.(実施例1)2次元画像に基づく3次元画像(3次元モデル)を生成する画像処理装置)
 まず、(実施例1)として、2次元画像に基づく3次元画像(3次元モデル)を生成する画像処理装置について説明する。
 図3に本実施例1の画像処理装置100の構成例を示す。
 図3に示すように、本実施例1の画像処理装置100は、データ取得部110、データ処理部130、データ出力部140、デプス埋め込み学習処理部150、記憶部160を有する。
 データ取得部110は、2次元カメラ112を有する2次元画像取得部111と、3次元センサ114、および赤外(IR)光出力部115を有するデプスデータ(3Dデータ)取得部113を有する。
 データ処理部130は、3次元モデル復元部131と、レンダリング部132を有する。
 データ出力部140は、表示部141を有する。
 デプス埋め込み学習処理部150は、サイクルGAN学習アルゴリズム実行部151を有する。
 記憶部160は、学習用データ記憶部161と、学習モデル(デプス埋め込み画像データ)記憶部162を有する。
 データ取得部110の2次元画像取得部111は、2次元カメラ112を利用した2次元画像を撮影する。
 デプスデータ(3Dデータ)取得部113は、3次元センサ114、および赤外(IR)光出力部115を有し、2次元カメラ112によって撮影された2次元画像に含まれる被写体(オブジェクト)の距離(デプス)を算出する。
 デプスデータ(3Dデータ)取得部113の赤外(IR)光出力部115は、赤外光(IR光)を出力する。デプスデータ(3Dデータ)取得部113の3次元センサ114は、赤外(IR)光出力部115による赤外光(IR光)の送受信間隔を測定し、被写体までの距離(デプス)を計測する。
 すなわち、赤外光(IR光)の送受信時間であるToF(Time of Flight)を計測して被写体までの距離に基づいて、被写体の距離(デプス)を算出する。
 データ処理部130の3次元モデル復元部131は、2次元画像取得部111の2次元カメラ112が撮影した2次元画像を入力して、入力2次元画像に基づく3次元画像(3次元モデル)を生成する。
 具体的には、サイクルGAN(Genarative Adversarial Networks)を利用した学習処理により生成された学習モデル(デプス埋め込み画像データ)、すなわち、記憶部160の学習モデル(デプス埋め込み画像データ)記憶部162の格納データを利用して、3次元画像(3Dモデル)を生成する。
 データ処理部130のレンダリング部132は、表示部141に表示する画像の描画処理(レンダリング)を行う。
 データ出力部140の表示部141は、画像等の表示処理を行う。
 なお、表示部141としては、実施形態に応じて、2D画像表示装置、3D画像表示装置、AR画像表示装置(透過型、非透過型)等、様々な表示装置が利用可能である。
 デプス埋め込み学習処理部150のサイクルGAN学習アルゴリズム実行部151は、3次元モデル復元部131において実行する2次元画像からの3次元画像(3Dモデル)復元処理に利用する学習データを生成する。
 具体的には、サイクルGAN(Genarative Adversarial Networks)を利用した学習処理を実行して、学習モデル(デプス埋め込み画像データ)を生成する。生成した学習モデル(デプス埋め込み画像データ)は、記憶部160の学習モデル(デプス埋め込み画像データ)記憶部162に格納される。
 記憶部160は、学習用データ記憶部161と、学習モデル(デプス埋め込み画像データ)記憶部162を有する。
 学習用データ記憶部161には、デプス埋め込み学習処理部150のサイクルGAN学習アルゴリズム実行部151において実行する学習処理に適用する学習データを格納する。具体的には例えば2次元画像取得部111の取得した2次元画像と、この2次元画像に含まれるオブジェクト(被写体)のデプスデータであり、デプスデータ(3Dデータ)取得部113が取得したデプスデータが格納される。
 学習モデル(デプス埋め込み画像データ)記憶部162には、デプス埋め込み学習処理部150のサイクルGAN学習アルゴリズム実行部151が、学習用データ記憶部161に格納された学習用データを適用して実行した学習処理の結果、生成されたデータが格納される。
 すなわち、学習処理部150のサイクルGAN学習アルゴリズム実行部151が、学習用データ記憶部161に格納された学習用データを適用して、サイクルGAN(Genarative Adversarial Networks)を利用した学習処理を実行して生成された学習モデル(デプス埋め込み画像データ)が格納される。
 次に、図3に示す画像処理装置100を利用して実行する処理について説明する。
 図3に示す画像処理装置100を利用して実行する処理には、以下の2つの処理がある。
 (処理1)学習(サイクルGAN学習アルゴリズム)処理の実行による学習モデル(デプス埋め込み画像データ)の生成、および記憶部への学習モデル格納処理
 (処理2)記憶部に格納された学習モデル(デプス埋め込み画像データ)を適用した2次元画像からの3次元画像(3次元モデル)復元処理と、表示処理
 以下、これら2つの処理について、順次、説明する。
  (3-1-1.(処理1)学習(サイクルGAN学習アルゴリズム)処理の実行による学習モデル(デプス埋め込み画像データ)の生成、および記憶部への学習モデル格納処理)
 まず、学習(サイクルGAN学習アルゴリズム)処理の実行による学習モデル(デプス埋め込み画像データ)の生成、および記憶部への学習モデル格納処理について説明する。
 図4を参照して、この(処理1)について説明する。
 図4に示す画像処理装置100の構成は、図3を参照して説明したと同様の構成である。図4には、さらに、(処理1)を実行する際のデータの流れを示している。
 (処理1)は、主としてデプス埋め込み学習処理部150のサイクルGAN学習アルゴリズム実行部151が実行する処理である。
 デプス埋め込み学習処理部150のサイクルGAN学習アルゴリズム実行部151は、3次元モデル復元部131において実行する2次元画像からの3次元画像(3Dモデル)復元処理に利用する学習データを生成する。
 具体的には、デプス埋め込み学習処理部150のサイクルGAN学習アルゴリズム実行部151は、記憶部160の学習用データ記憶部161に格納された学習用データを取得し、この学習用データを利用したサイクルGAN(Genarative Adversarial Networks)アルゴリズムに従った学習処理を実行して、学習モデル(デプス埋め込み画像データ)を生成する。生成した学習モデル(デプス埋め込み画像データ)は、記憶部160の学習モデル(デプス埋め込み画像データ)記憶部162に格納される。
 なお、図4に示すように、学習用データ記憶部161には、以下の各データが入力されて記録される。
 (a)2次元画像取得部111の取得した2次元画像201、
 (b)上記2次元画像に含まれるオブジェクト(被写体)のデプスデータであり、デプスデータ(3Dデータ)取得部113が取得したデプスデータ(3Dデータ)202、
 学習用データ記憶部161には、これら(a),(b)の各データが対応付けて記録される。
 デプス埋め込み学習処理部150のサイクルGAN学習アルゴリズム実行部151は、この学習用データ記憶部161に格納された上記(a),(b)の各データを取得し、取得データを利用して、サイクルGAN(Genarative Adversarial Networks)アルゴリズムに従った学習処理を実行して、学習モデル(デプス埋め込み画像データ)を生成する。
 図5を参照して、サイクルGAN学習アルゴリズム実行部151において実行するサイクルGAN(Genarative Adversarial Networks)アルゴリズムに従った学習処理について説明する。
 図5には、学習用データ記憶部161に格納された上記(a),(b)の各データ、すなわち、
 (a)2次元画像取得部111の取得した2次元画像201、
 (b)上記2次元画像に含まれるオブジェクト(被写体)のデプスデータであり、デプスデータ(3Dデータ)取得部113が取得したデプスデータ(3Dデータ)202、
 これらの各データの一例を示している。
 サイクルGAN学習アルゴリズム実行部151は、
 「(a)2次元画像取得部111の取得した2次元画像」を「(A)生成部(Genarator)ネットワーク」において生成するサンプル画像とし、さらに、「(b)上記2次元画像に含まれるオブジェクト(被写体)のデプスデータであり、デプスデータ(3Dデータ)取得部113が取得したデプスデータ」を「(B)判定部(Discriminator)ネットワーク」において、2次元画像(サンプル画像)が本物であるか偽物であるかの真偽判定を行うためのデータとして利用した教師なし学習処理を行う。
 すなわち、「(B)判定部(Discriminator)ネットワーク」は、ある1つのオブジェクトの距離データ(デプス)が、「(A)生成部(Genarator)ネットワーク」において生成されたサンプル画像、すなわち2次元画像のデプスデータであるか否かを判定して、2次元画像のデプスデータであると判定した場合は、「(A)生成部(Genarator)ネットワーク」が生成した2次元画像(サンプル画像)が、本物であると判定する処理を実行する。
 このように、サンプル画像である2次元画像と、2次元画像のデプスデータを、「(A)生成部(Genarator)ネットワーク」と、「(B)判定部(Discriminator)ネットワーク」に振り分けて、これら(A),(B)2つのネットワークを競合させる学習処理(教師なし学習処理)を行う。
 この学習処理(教師なし学習処理)の結果として生成される学習モデルを、「学習モデル(デプス埋め込み2次元画像データ)」として記憶部に格納する。
 すなわち、図6に示すように、サイクルGAN学習アルゴリズム実行部151において実行するサイクルGAN(Genarative Adversarial Networks)アルゴリズムに従った学習処理の結果として、学習モデル(デプス埋め込み2次元画像データ)が生成され、この学習モデル(デプス埋め込み2次元画像データ)が記憶部160の学習モデル(デプス埋め込み2次元画像データ)記憶部162に格納される。
 新たな2次元画像の入力時には、この学習モデル(デプス埋め込み2次元画像データ)を適用して、入力2次元画像対応の3次元画像(3次元モデル)を生成する。
  (3-1-2.(処理2)記憶部に格納された学習モデル(デプス埋め込み画像データ)を適用した2次元画像からの3次元画像(3次元モデル)復元処理と、表示処理)
 次に、記憶部に格納された学習モデル(デプス埋め込み画像データ)を適用した2次元画像からの3次元画像(3次元モデル)復元処理と、表示処理について説明する。
 図7を参照して、この(処理2)について説明する。
 図7に示す画像処理装置100の構成は、先に図3を参照して説明したと同様の構成である。図7には、さらに、(処理2)を実行する際のデータの流れを示している。
 (処理2)は、主としてデータ処理部130の3次元モデル復元部131とレンダリング部132が実行する処理である。
 図7に示すように、データ処理部130の3次元モデル復元部131は、2次元画像取得部111の2次元カメラ112が撮影した2次元画像221を入力して、入力した2次元画像221に基づく3次元画像(3次元モデル)を生成する。
 具体的には、サイクルGAN(Genarative Adversarial Networks)を利用した学習処理により生成された学習モデル(デプス埋め込み画像データ)222、すなわち、記憶部160の学習モデル(デプス埋め込み画像データ)記憶部162の格納データを利用して、3次元画像(3Dモデル)を生成する。
 記憶部160の学習モデル(デプス埋め込み画像データ)記憶部162の格納データは、先に説明したように、サンプル画像である2次元画像と、2次元画像のデプスデータを、「(A)生成部(Genarator)ネットワーク」と、「(B)判定部(Discriminator)ネットワーク」に振り分けて、これら(A),(B)2つのネットワークを競合させるサイクルGAN学習処理(教師なし学習処理)によって生成されたデータ(学習モデル)である。
 データ処理部130の3次元モデル復元部131は、サイクルGAN学習処理(教師なし学習処理)によって生成された学習モデル(デプス埋め込み画像データ)222を適用して、2次元画像取得部111の2次元カメラ112が撮影した2次元画像221に対応する最適なデプスデータを取得し、取得したデプスデータを利用して、2次元画像221に対応する3次元画像(3次元モデル)を生成する。
 学習モデル(デプス埋め込み画像データ)記憶部162からの、最適なデプスデータ、すなわち最適な学習モデル(デプス埋め込み画像データ)の取得処理は、例えば以下のいずれかの手法で実行する。
 a.ユーザが、デプス埋め込み画像データを表示して確認し、入力した2次元画像に最も類似度の高いデプス埋め込み画像データを選択して、選択したデプス埋め込み画像データに設定されたIDを指定して選択取得する。
 b.画像類似度の自動判定プログラムを適用して、入力2次元画像に最も類似度の高いデプス埋め込み画像データを選択する。
 例えば、これらの手法を利用して、入力した2次元画像221に対応する最適なデプスデータ、すなわち最適な学習モデル(デプス埋め込み画像データ)を取得する。
 データ処理部130の3次元モデル復元部131が生成した3次元画像(3次元モデル)は、レンダリング部132に出力される。
 データ処理部130のレンダリング部132は、3次元モデル復元部131が生成した3次元画像(3次元モデル)に基づいて、表示部141に表示する画像の描画処理(レンダリング)を行う。
 これら一連の処理により、2次元カメラ112によって撮影された2次元画像に基づいて3次元モデル復元部131が生成した3次元画像(3次元モデル)が、データ出力部140の表示部141に表示される。
  (3-2.(実施例2)入力画像に対するスタイル転送処理を実行する画像処理装置)
 次に、(実施例2)として、入力画像に対するスタイル転送処理を実行する画像処理装置について説明する。
 図8に本実施例2の画像処理装置200の構成例を示す。
 図8に示すように、本実施例2の画像処理装置200は、データ取得部110、データ処理部130、データ出力部140、記憶部160を有する。
 データ取得部110は、2次元カメラ112を有する2次元画像取得部111と、3次元センサ114、および赤外(IR)光出力部115を有するデプスデータ(3Dデータ)取得部113を有する。
 データ処理部130は、レンダリング部132、スタイル決定部133、画像変換部134、および、画像変換プログラム135を有する。
 データ出力部140は、表示部141を有する。
 記憶部160は、シーンデータ記憶部163と、スタイルデータ記憶部164を有する。
 データ取得部110の2次元画像取得部111は、2次元カメラ112を利用した2次元画像を撮影する。
 デプスデータ(3Dデータ)取得部113は、3次元センサ114、および赤外(IR)光出力部115を有し、2次元カメラ112によって撮影された2次元画像に含まれる被写体(オブジェクト)の距離(デプス)を算出する。
 デプスデータ(3Dデータ)取得部113の赤外(IR)光出力部115は、赤外光(IR光)を出力する。デプスデータ(3Dデータ)取得部113の3次元センサ114は、赤外(IR)光出力部115による赤外光(IR光)の送受信間隔を測定し、被写体までの距離(デプス)を計測する。
 すなわち、赤外光(IR光)の送受信時間であるToF(Time of Flight)を計測して被写体までの距離に基づいて、被写体の距離(デプス)を算出する。
 データ処理部130のレンダリング部132は、表示部141に表示する画像の描画処理(レンダリング)を行う。
 スタイル決定部133は、画像変換部134において実行する画像変換処理に適用するスタイルデータの決定処理を行う。
 なお、様々なスタイルデータがスタイルデータ記憶部164に格納されている。
 画像変換部134は、スタイル決定部133が決定したスタイルデータを適用して、入力画像、例えば2次元カメラ112によって撮影された2次元画像や2次元画像に含まれる被写体(オブジェクト)等の入力画像の画像スタイルを変更したスタイル変更画像を生成する。
 例えば、画像変換部134は、2次元カメラ112によって撮影された2次元画像に含まれる被写体(オブジェクト)を、18世紀のスタイルやホラー系の画像スタイルを持つ画像に変更する。
 このスタイルは、例えば表示部141に出力するゲームプログラムのテーマに沿ったスタイル等である。
 このように、スタイル決定部133は、画像変換部134において実行する画像変換処理に適用するスタイルデータの決定処理を行う。
 スタイル決定部133は、スタイル変更画像を出力する表示コンテンツのテーマに応じて前記スタイルデータを決定する。
 例えば、スタイル決定部133が、表示部141に出力するゲームプログラムのテーマ情報に従って自動的に最適なスタイルデータを選択する。
 具体的には、例えば、ゲームプログラムに属性情報として記録されたテーマ情報を取得して解析し、このテーマ解析結果に基づいて、最適なスタイルデータを選択する。
 あるいは、スタイルデータ記憶部164に格納された様々なスタイルデータを表示部141に出力し、その中から、ユーザが表示コンテンツのテーマに応じたスタイルデータを選択する処理を行ってもよい。
 データ処理部130の画像変換部134は、入力画像、例えば2次元カメラ112によって撮影された2次元画像の画像スタイル変更処理である「スタイル転送処理」を行う。すなわち、2次元画像を、スタイル決定部133が決定したスタイルデータに従ったスタイルを持つ画像に変換する。
 この画像変換処理には、画像変換プログラム135が適用される。
 画像変換プログラム135は、スタイル転送アルゴリズムの実行プログラムである。
 画像変換部134は、この画像変換プログラム135を利用して、入力画像である2次元画像のスタイルを変更する。すなわち、スタイル決定部133が決定したスタイルデータに従ったスタイルを持つ画像に変換する。
 例えば、ユーザ(ゲームプレイヤー)の部屋の中の「椅子」の画像を「18世紀の豪華な椅子」のスタイルに変更するといったスタイル変換を行う。
 このように、データ処理部130の画像変換部134は、まず、2次元カメラ112によって撮影された2次元画像を入力する。
 さらに、スタイル決定部133が決定したスタイルデータをスタイルデータ記憶部164から取得する。
 さらに、入力した2次元画像に含まれる被写体(オブジェクト)に対して、スタイル決定部133が決定したスタイルデータを適用して、表示部141に出力するためのスタイル変更送画像を生成する。
 なお、この画像変換部134における画像スタイルの変換処理は、画像変換プログラム(スタイル転送アルゴリズム)135を適用して行われる。
 前述したように、画像スタイル変更処理を行うアルゴリズムとして「スタイル転送処理(Style Transfer)」がある。
 スタイル転送処理は、機械学習を用いた画像スタイル変換手法であり、オリジナル画像を、オリジナル画像とは異なるスタイルの画像に変換する手法である。
 画像変換部134は、画像変換プログラム(スタイル転送アルゴリズム)135を適用して、入力画像に対するスタイル転送(画像スタイルの変換処理)を実行し、表示部141に出力するためのスタイル変換画像を生成する。
 画像変換プログラム135は、上述したように、画像変換部134における画像スタイルの変換処理であるスタイル転送処理に適用するスタイル転送アルゴリズムの実行プログラムである。
 画像変換プログラム135を利用した画像変換処理、すなわちスタイル転送処理を行うことで、例えば、カメラで撮影された家の中の部屋の画像を、お城の中の雰囲気を持つ画像に変換することが可能となる。あるいは、ビニールバッグの画像を、高級バッグの画像に変換するといった処理が可能となる。
 前述したように、この画像変換処理、すなわちスタイル転送を行うためには、様々な画像を利用した機械学習処理を予め実行しておく必要がある。
 この機械学習処理によって、様々なオブジェクトの元画像と、その元画像に対応するスタイル転送後の画像、例えば18世紀のオブジェクト画像が対応付けて記録される。これをスタイルデータとしてスタイルデータ記憶部164に格納しておく。
 スタイルデータ記憶部164に格納された様々なスタイルデータを適用することで、様々な入力画像を異なるスタイルの画像に変換するスタイル転送処理を行うことができる。
 このように、画像変換プログラム135は、画像スタイルを変更するアルゴリズムであるスタイル転送アルゴリズムの実行プログラムであり、上述したように画像変換部134における画像変換処理に利用される。
 レンダリング部132は、画像変換部134の生成した画像を表示部141にレンダリングする処理を行う。
 データ出力部140の表示部141は、画像等の表示処理を行う。
 なお、表示部141としては、実施形態に応じて、2D画像表示装置、3D画像表示装置、AR画像表示装置(透過型、非透過型)等、様々な表示装置が利用可能である。
 記憶部160は、シーンデータ記憶部163と、スタイルデータ記憶部164を有する。
 シーンデータ記憶部163には、2次元カメラ112によって撮影された2次元画像や、この2次元画像に対応するに含まれるオブジェクト(被写体)のデプスデータであり、デプスデータ(3Dデータ)取得部113が取得したデプスデータが格納される。
 スタイルデータ記憶部164には、様々なスタイルデータ、例えば18世紀の椅子、机、お城、ホラー系の怪物、妖怪、洋風建築物、和風建築物、高級バッグ、動物、絵画等、様々なオブジェクトのスタイルデータが格納されている。
 次に、図8に示す画像処理装置200を利用して実行する処理について説明する。
 図8に示す画像処理装置200を利用して実行する処理には、以下の2つの処理がある。
 (処理1)入力画像に適用するスタイルを決定するスタイル決定処理
 (処理2)決定したスタイルを入力画像に適用してスタイル転送(スタイル変換)を実行して表示部に表示する処理
 以下、これら2つの処理について、順次、説明する。
  (3-2-1.(処理1)入力画像に適用するスタイルを決定するスタイル決定処理)
 まず、入力画像に適用するスタイルを決定するスタイル決定処理について説明する。
 図9を参照して、この(処理1)について説明する。
 図9に示す画像処理装置200の構成は、図8を参照して説明したと同様の構成である。図9には、さらに、(処理1)を実行する際のデータの流れを示している。
 (処理1)は、主としてデータ処理部130のスタイル決定部133が実行する処理である。
 データ処理部130のスタイル決定部133は、入力画像、例えば2次元カメラ112によって撮影された2次元画像に含まれる被写体(オブジェクト)のスタイル転送(スタイル変換)に適用するスタイルを決定する。
 例えば、18世紀のスタイルやホラー系のスタイル等である。
 このスタイルは、例えば表示部141に出力するゲームプログラムのテーマに沿ったスタイル等である。
 なお、スタイル決定処理は、ユーザ入力による決定や、表示部141に出力するゲームプログラムのテーマ情報に従って自動的に選択する方法等が利用される。
 図9に示すように、シーンデータ記憶部163には、2次元カメラ112によって撮影された2次元画像231や、この2次元画像に対応するに含まれるオブジェクト(被写体)のデプスデータであり、デプスデータ(3Dデータ)取得部113が取得したデプスデータ(3Dデータ)232が格納される。
 データ処理部130のスタイル決定部133は、シーンデータ記憶部163に格納されたシーンデータ、すなわち2次元画像や、2次元画像対応のデプスデータ(3Dデータ)のいずれかを有するシーンデータ233を取得し、スタイル転送(スタイル変換)に適用するスタイルを決定する。
 スタイル決定処理は、図9に示すように、入力部170を介するシーン選択指示データ234のユーザ入力による決定処理が可能である。また、表示部141に出力するゲームプログラムのテーマ情報に従って自動的に選択する方法を適用してもよい。
 具体的には、例えば、スタイル決定部133が、ゲームプログラムに属性情報として記録されたテーマ情報を取得して解析し、このテーマ解析結果に基づいて、最適なスタイルデータを決定する。
 さらに、機械学習によって生成される学習データを利用する方法を適用してもよい。学習データは、あるイメージセットの1つに関連付けられており、スタイル決定部133は、変換対象とするデプスデータ等の3Dデータを入力し、入力データに最適なスタイルを選択して決定する。
 図9に示す入力部170を介するユーザ入力によるスタイル決定処理では、例えば、表示部141に複数のイメージスタイルモデルを表示してユーザに選択情報を、入力部170を介して入力させる処理が可能である。
 表示部141に出力中、または出力予定のゲームアプリケーション等のアプリケーションや、アプリケーションに設定されたモード情報に従って決定する構成としてもよい。
 また、スタイル決定部133が、表示部141に出力するARコンテンツの画像データを検証して、その画像データのテーマに合ったスタイルを選択して決定する構成としてもよい。
 例えば、出力先のARコンテンツの画像データに長い椅子が複数並んでいるような画像が含まれる場合、その画像が劇場であると判断し、劇場に合ったスタイルに決定するといった処理を行う。
  (3-2-2.(処理2)決定したスタイルを入力画像に適用してスタイル転送(スタイル変換)を実行して表示部に表示する処理)
 次に、スタイル決定部133が決定したスタイルを入力画像に適用してスタイル転送(スタイル変換)を実行して表示部に表示する処理について説明する。
 図10を参照して、この(処理2)について説明する。
 図10に示す画像処理装置200の構成は、図8を参照して説明したと同様の構成である。図10には、さらに、(処理2)を実行する際のデータの流れを示している。
 (処理2)は、主としてデータ処理部130の画像変換部134が実行する処理であり、画像変換プログラム135を利用した画像変換処理である。
 図10に示すように、データ処理部130の画像変換部134は、画像のスタイルを変更する対象、すなわちスタイル転送処理の適用対象となる2次元画像241や、その2次元画像241対応のデプスデータ(3Dデータ)242をデータ取得部110から入力する。
 すなわち、2次元画像取得部111の2次元カメラ112の撮影した2次元画像241や、この2次元画像241対応のデプスデータ(3Dデータ)242、すなわちデプスデータ(3Dデータ)取得部113が取得した取得したデプスデータ(3Dデータ)242の少なくともいずれかを入力する。
 さらに、画像変換部134は、スタイルデータ記憶部164から、スタイル決定部133が決定したスタイル転送処理(画像スタイルの変更処理)に適用するスタイルデータ244を入力する。
 なお、前述したように、スタイル決定部133におけるスタイル決定処理は、図9に示す入力部170を介するシーン選択指示データ234のユーザ入力による決定処理が可能である。また、表示部141に出力するゲームプログラムのテーマ情報に従って自動的に選択する方法や、機械学習によって生成される学習データを利用する方法が適用できる。
 画像変換部134は、入力した2次元画像241や、その2次元画像241対応のデプスデータ(3Dデータ)242に含まれる被写体(オブジェクト)に対して、画像変換プログラム(スタイル転送アルゴリズム)135を適用して、スタイル転送(スタイルの変更処理)を実行し、表示部141に出力するための変換画像(スタイル変換画像)を生成する。
 なお、画像変換部134は、入力した2次元画像241のみを利用したスタイル転送処理を行って画像スタイルを変更した2次元画像を生成することも可能であり、また、2次元画像241対応のデプスデータ(3Dデータ)242を適用したスタイル転送処理により、スタイルを変更した3次元画像を生成することも可能である。
 なお、スタイルを変更した3次元画像を生成する場合は、スタイルデータ記憶部164から、スタイル決定部133が決定した画像に適用するスタイル転送のために利用する3次元のスタイルデータ244を取得して処理を行う。
 レンダリング部132は、画像変換部134の生成した画像を表示部141にレンダリングする処理を行う。
 データ出力部140の表示部141は、レンダリング部132においてレンダリンングされた画像の表示処理を行う。
 この一連の処理により、表示部141には、スタイル転送後の画像が表示される。
 具体的には、例えば、表示部141に表示中のゲームが18世紀のお城の中をテーマとしたゲームである場合、ユーザのゲーム機のカメラで撮影された部屋の中の「椅子の画像」が、18世紀のお城の中で利用されるような「豪華な椅子の画像」に変換され、この変換画像がゲーム画像として利用するAR画像中に表示される。
 図11に、2次元画像取得部111の2次元カメラ112の撮影した(a)2次元画像と、スタイル転送によって生成したオブジェクト画像を含む(b)表示画像(スタイル転送処理後の画像)の例を示す。
 (3-3.(実施例3)入力2次元画像に基づく3次元画像(3次元モデル)生成処理と、スタイル転送処理を実行する画像処理装置)
 次に、(実施例3)として、入力2次元画像に基づく3次元画像(3次元モデル)生成処理と、スタイル転送処理を実行する画像処理装置について説明する。
 図12に本実施例3の画像処理装置300の構成例を示す。
 図12に示すように、本実施例3の画像処理装置300は、データ取得部110、データ処理部130、データ出力部140、デプス埋め込み学習処理部150、記憶部160を有する。
 データ取得部110は、2次元カメラ112を有する2次元画像取得部111と、3次元センサ114、および赤外(IR)光出力部115を有するデプスデータ(3Dデータ)取得部113を有する。
 データ処理部130は、3次元モデル復元部131、レンダリング部132、スタイル決定部133、画像変換部134、および、画像変換プログラム135を有する。
 データ出力部140は、表示部141を有する。
 デプス埋め込み学習処理部150は、サイクルGAN学習アルゴリズム実行部151を有する。
 記憶部160は、学習用データ記憶部161と、学習モデル(デプス埋め込み画像データ)記憶部162、シーンデータ記憶部163と、スタイルデータ記憶部164を有する。
 データ取得部110の2次元画像取得部111は、2次元カメラ112を利用した2次元画像を撮影する。
 デプスデータ(3Dデータ)取得部113は、3次元センサ114、および赤外(IR)光出力部115を有し、2次元カメラ112によって撮影された2次元画像に含まれる被写体(オブジェクト)の距離(デプス)を算出する。
 デプスデータ(3Dデータ)取得部113の赤外(IR)光出力部115は、赤外光(IR光)を出力する。デプスデータ(3Dデータ)取得部113の3次元センサ114は、赤外(IR)光出力部115による赤外光(IR光)の送受信間隔を測定し、被写体までの距離(デプス)を計測する。
 すなわち、赤外光(IR光)の送受信時間であるToF(Time of Flight)を計測して被写体までの距離に基づいて、被写体の距離(デプス)を算出する。
 データ処理部130の3次元モデル復元部131は、2次元画像取得部111の2次元カメラ112が撮影した2次元画像を入力して、入力2次元画像に基づく3次元画像(3次元モデル)を生成する。
 具体的には、サイクルGAN(Genarative Adversarial Networks)を利用した学習処理により生成された学習モデル(デプス埋め込み画像データ)、すなわち、記憶部160の学習モデル(デプス埋め込み画像データ)記憶部162の格納データを利用して、3次元画像(3Dモデル)を生成する。
 レンダリング部132は、表示部141に表示する画像の描画処理(レンダリング)を行う。
 スタイル決定部133は、入力画像、例えば2次元カメラ112によって撮影された2次元画像に含まれる被写体(オブジェクト)のスタイル転送(スタイル変換)に適用するスタイルを決定する。
 例えば、18世紀のスタイルやホラー系のスタイル等である。
 このスタイルは、例えば表示部141に出力するゲームプログラムのテーマに沿ったスタイル等である。
 なお、スタイル決定処理は、ユーザ入力による決定や、表示部141に出力するゲームプログラムのテーマ情報に従って自動的に選択する方法等が利用される。
 画像変換部134は、入力画像、例えば2次元カメラ112によって撮影された2次元画像のスタイル転送処理を行う。すなわち、2次元画像を、スタイル決定部133が決定したスタイルデータに従ったスタイルを持つ画像に変換する。
 この画像変換処理には、画像変換プログラム135が適用される。
 画像変換プログラム135は、スタイル転送アルゴリズムの実行プログラムである。
 画像変換部134は、この画像変換プログラム135を利用して、入力画像である2次元画像のスタイルを変更する。すなわち、スタイル決定部133が決定したスタイルデータに従ったスタイルを持つ画像に変換する。
 例えば、ユーザ(ゲームプレイヤー)の部屋の中の「椅子」の画像を「18世紀の豪華な椅子」のスタイルに変更するといったスタイル変換を行う。
 データ出力部140の表示部141は、画像等の表示処理を行う。
 なお、表示部141としては、実施形態に応じて、2D画像表示装置、3D画像表示装置、AR画像表示装置(透過型、非透過型)等、様々な表示装置が利用可能である。
 デプス埋め込み学習処理部150のサイクルGAN学習アルゴリズム実行部151は、3次元モデル復元部131において実行する2次元画像からの3次元画像(3Dモデル)復元処理に利用する学習データを生成する。
 具体的には、サイクルGAN(Genarative Adversarial Networks)を利用した学習処理を実行して、学習モデル(デプス埋め込み画像データ)を生成する。生成した学習モデル(デプス埋め込み画像データ)は、記憶部160の学習モデル(デプス埋め込み画像データ)記憶部162に格納される。
 記憶部160は、学習用データ記憶部161と、学習モデル(デプス埋め込み画像データ)記憶部162と、シーンデータ記憶部163と、スタイルデータ記憶部164を有する。
 学習用データ記憶部161には、デプス埋め込み学習処理部150のサイクルGAN学習アルゴリズム実行部151において実行する学習処理に適用する学習データを格納する。具体的には例えば2次元画像取得部111の取得した2次元画像と、この2次元画像に含まれるオブジェクト(被写体)のデプスデータであり、デプスデータ(3Dデータ)取得部113が取得したデプスデータが格納される。
 学習モデル(デプス埋め込み画像データ)記憶部162には、デプス埋め込み学習処理部150のサイクルGAN学習アルゴリズム実行部151が、学習用データ記憶部161に格納された学習用データを適用して実行した学習処理の結果、生成されたデータが格納される。
 すなわち、学習処理部150のサイクルGAN学習アルゴリズム実行部151が、学習用データ記憶部161に格納された学習用データを適用して、サイクルGAN(Genarative Adversarial Networks)を利用した学習処理を実行して生成された学習モデル(デプス埋め込み画像データ)が格納される。
 シーンデータ記憶部163には、2次元カメラ112によって撮影された2次元画像や、この2次元画像に対応するに含まれるオブジェクト(被写体)のデプスデータであり、デプスデータ(3Dデータ)取得部113が取得したデプスデータが格納される。
 スタイルデータ記憶部164には、様々なスタイルデータ、例えば18世紀の椅子、机、お城、ホラー系の怪物、妖怪、洋風建築物、和風建築物、高級バッグ、動物、絵画等、様々なオブジェクトのスタイルデータが格納されている。
 次に、図12に示す画像処理装置300を利用して実行する処理について説明する。
 図13は、図12に示す画像処理装置300を利用して実行する処理のシーケンスを説明するフローチャートである。
 このフローに従った処理は、画像処理装置300のデータ処理部130が、画像処理装置300の記憶部に格納されたプログラムに従って実行することが可能である。画像処理装置300のデータ処理部130は、プログラム実行機能を持つCPUを備え、記憶部に格納されたプログラムに従ってフローに従った処理を実行する。
 以下、図13に示すフローの各ステップの処理について説明する。
  (ステップS101)
 まず、画像処理装置300のデータ処理部130は、ステップS101において、2次元画像(カメラ撮影画像)を入力する。
 具体的には、例えば図12に示す2次元画像取得部111の2次元カメラ112が撮影した2次元画像を入力する。
  (ステップS102)
 次に、画像処理装置300のデータ処理部130は、ステップS102において、記憶部160に格納された学習モデル(デプス埋め込み画像データ)162を利用して、入力2次元画像に基づく3次元画像(3次元モデル)を生成する。
 この処理は、データ処理部130の3次元モデル復元部131が実行する処理である。
 データ処理部130の3次元モデル復元部131は、2次元画像取得部111の2次元カメラ112が撮影した2次元画像を入力して、入力した2次元画像に基づく3次元画像(3次元モデル)を生成する。
 具体的には、サイクルGAN(Genarative Adversarial Networks)を利用した学習処理により生成された学習モデル(デプス埋め込み画像データ)、すなわち、記憶部160の学習モデル(デプス埋め込み画像データ)記憶部162の格納データを利用して、3次元画像(3Dモデル)を生成する。
 記憶部160の学習モデル(デプス埋め込み画像データ)記憶部162の格納データは、先に説明したように、サンプル画像である2次元画像と、2次元画像のデプスデータを、「(A)生成部(Genarator)ネットワーク」と、「(B)判定部(Discriminator)ネットワーク」に振り分けて、これら(A),(B)2つのネットワークを競合させるサイクルGAN学習処理(教師なし学習処理)によって生成されたデータ(学習モデル)である。
 データ処理部130の3次元モデル復元部131は、サイクルGAN学習処理(教師なし学習処理)によって生成された学習モデル(デプス埋め込み画像データ)を適用して、2次元画像取得部111の2次元カメラ112が撮影した2次元画像に対応する最適なデプスデータを取得し、取得したデプスデータを利用して、2次元画像に対応する3次元画像(3次元モデル)を生成する。
 なお、学習モデル(デプス埋め込み画像データ)記憶部162からの、最適なデプスデータ、すなわち最適な学習モデル(デプス埋め込み画像データ)の取得処理は、例えば以下のいずれかの手法で実行する。
 a.ユーザが、デプス埋め込み画像データを表示して確認し、入力した2次元画像に最も類似度の高いデプス埋め込み画像データを選択して、選択したデプス埋め込み画像データに設定されたIDを指定して選択取得する。
 b.画像類似度の自動判定プログラムを適用して、入力2次元画像に最も類似度の高いデプス埋め込み画像データを選択する。
 例えば、これらの手法を利用して、入力した2次元画像221に対応する最適なデプスデータ、すなわち最適な学習モデル(デプス埋め込み画像データ)を取得し、取得したデプスデータを利用して、2次元画像に対応する3次元画像(3次元モデル)を生成する。
  (ステップS103)
 次に、画像処理装置300のデータ処理部130は、ステップS103において、ステップS102で生成した3次元画像(3次元モデル)に対して実行する画像スタイルの変換処理であるスタイル転送処理に適用するスタイルを決定する。
 この処理は、データ処理部130のスタイル決定部133が実行する。
 なお、前述したように、スタイル決定部133におけるスタイル決定処理としては、図9に示す入力部170を介するシーン選択指示データのユーザ入力による決定処理が可能である。また、表示部141に出力するゲームプログラムのテーマ情報に従って自動的に選択する方法や、機械学習によって生成される学習データを利用する方法を適用して決定してもよい。
  (ステップS104)
 次に、画像処理装置300のデータ処理部130は、ステップS104において、ステップS102で生成した3次元画像(3次元モデル)に対して、ステップS103で決定したスタイルを適用した画像スタイルの変更処理、すなわちスタイル転送処理を実行する。
 すなわち、記憶部に格納されたスタイルデータを適用した画像変換処理(スタイル転送アルゴリズム)を実行して、スタイル変換3次元画像(3次元モデル)を生成する。
 この処理は、データ処理部130の画像変換部134が実行する処理である。
 画像変換部134は、ステップS102で生成した3次元画像(3次元モデル)に対して、ステップS103で決定したスタイルを適用した画像スタイルの変更処理、すなわちスタイル転送処理を実行する。
 このスタイル転送処理は、画像変換プログラム(スタイル転送アルゴリズム)135を適用して行われる。
  (ステップS105)
 次に、画像処理装置300のデータ処理部130は、ステップS105において、ステップS104で生成したスタイル変換3次元画像(3次元モデル)を表示部141に出力する。
 この処理は、データ処理部130のレンダリング部132による表示画像のレンダリング処理によって行われる。
 図13を参照して説明した処理シーケンスでは、入力2次元画像に基づく3次元画像(3次元モデル)の生成処理を先行して実行し、その後に3次元画像(3次元モデル)のスタイル変更処理であるスタイル転送を行うシーケンスであった。
 この処理シーケンスと異なるシーケンス、例えば、入力2次元画像に対して、スタイル変更処理であるスタイル転送を先行して実行し、その後、スタイル変更後の2次元画像に基づく3次元画像(3次元モデル)の生成処理を実行するショリしーけんすとしてもよい。
 この処理シーケンスのフローチャートを図14に示す。
 図14に示すフローの各ステップの処理について説明する。
  (ステップS201)
 まず、画像処理装置300のデータ処理部130は、ステップS201において、2次元画像(カメラ撮影画像)を入力する。
 具体的には、例えば図12に示す2次元画像取得部111の2次元カメラ112が撮影した2次元画像を入力する。
  (ステップS202)
 次に、画像処理装置300のデータ処理部130は、ステップS202において、ステップS201で入力した2次元画像に対して実行する画像スタイルの変換処理であるスタイル転送処理に適用するスタイルを決定する。
 この処理は、データ処理部130のスタイル決定部133が実行する。
 なお、前述したように、スタイル決定部133におけるスタイル決定処理としては、図9に示す入力部170を介するシーン選択指示データのユーザ入力による決定処理が可能である。また、表示部141に出力するゲームプログラムのテーマ情報に従って自動的に選択する方法や、機械学習によって生成される学習データを利用する方法を適用して決定してもよい。
  (ステップS203)
 次に、画像処理装置300のデータ処理部130は、ステップS203において、ステップS201で入力した2次元画像に対して、ステップS202で決定したスタイルを適用した画像スタイルの変更処理、すなわちスタイル転送処理を実行する。
 すなわち、記憶部に格納されたスタイルデータを適用した画像変換処理(スタイル転送アルゴリズム)を実行して、スタイル変換2次元画像を生成する。
 この処理は、データ処理部130の画像変換部134が実行する処理である。
 画像変換部134は、ステップS201で入力した2次元画像に対して、ステップS202で決定したスタイルを適用した画像スタイルの変更処理、すなわちスタイル転送処理を実行する。
 このスタイル転送処理は、画像変換プログラム(スタイル転送アルゴリズム)135を適用して行われる。
  (ステップS204)
 次に、画像処理装置300のデータ処理部130は、ステップS204において、記憶部160に格納された学習モデル(デプス埋め込み画像データ)162を利用して、スタイル変換2次元画像に基づいて、スタイル変換3次元画像(3次元モデル)を生成する。
 この処理は、データ処理部130の3次元モデル復元部131が実行する処理である。
 データ処理部130の3次元モデル復元部131は、ステップS203で生成したスタイル変換2次元画像を入力して、入力したスタイル変換2次元画像に基づく3次元画像(3次元モデル)を生成する。
 具体的には、サイクルGAN(Genarative Adversarial Networks)を利用した学習処理により生成された学習モデル(デプス埋め込み画像データ)、すなわち、記憶部160の学習モデル(デプス埋め込み画像データ)記憶部162の格納データを利用して、3次元画像(3Dモデル)を生成する。
 記憶部160の学習モデル(デプス埋め込み画像データ)記憶部162の格納データは、先に説明したように、サンプル画像である2次元画像と、2次元画像のデプスデータを、「(A)生成部(Genarator)ネットワーク」と、「(B)判定部(Discriminator)ネットワーク」に振り分けて、これら(A),(B)2つのネットワークを競合させるサイクルGAN学習処理(教師なし学習処理)によって生成されたデータ(学習モデル)である。
 データ処理部130の3次元モデル復元部131は、サイクルGAN学習処理(教師なし学習処理)によって生成された学習モデル(デプス埋め込み画像データ)222を適用して、入力したスタイル変換2次元画像に対応する最適なデプスデータを取得し、取得したデプスデータを利用して、入力したスタイル変換2次元画像に対応する3次元画像(3次元モデル)を生成する。
 なお、学習モデル(デプス埋め込み画像データ)記憶部162からの、最適なデプスデータ、すなわち最適な学習モデル(デプス埋め込み画像データ)の取得処理は、例えば以下のいずれかの手法で実行する。
 a.ユーザが、デプス埋め込み画像データを表示して確認し、入力した2次元画像に最も類似度の高いデプス埋め込み画像データを選択して、選択したデプス埋め込み画像データに設定されたIDを指定して選択取得する。
 b.画像類似度の自動判定プログラムを適用して、入力2次元画像に最も類似度の高いデプス埋め込み画像データを選択する。
 例えば、これらの手法を利用して、入力した2次元画像221に対応する最適なデプスデータ、すなわち最適な学習モデル(デプス埋め込み画像データ)を取得し、取得したデプスデータを利用して、2次元画像に対応する3次元画像(3次元モデル)を生成する。
  (ステップS205)
 次に、画像処理装置300のデータ処理部130は、ステップS205において、ステップS204で生成したスタイル変換3次元画像(3次元モデル)を表示部141に出力する。
 この処理は、データ処理部130のレンダリング部132による表示画像のレンダリング処理によって行われる。
  [4.その他の実施例について]
 次に、その他の実施例について説明する。
 以下、の2つの実施例について、順次、説明する。
 (1)3次元画像観察用の左目用画像と右目用画像の2つの視差画像を生成する画像処理装置
 (2)多様な2次元画像に基づく多様な3次元画像(3次元モデル)を生成する画像処理装置
  (4-(1)3次元画像観察用の左目用画像と右目用画像の2つの視差画像を生成する画像処理装置)
 まず、3次元画像観察用の左目用画像と右目用画像の2つの視差画像を生成する画像処理装置について説明する。
 図15に、3次元画像観察用の左目用画像と右目用画像の2つの視差画像を生成する画像処理装置400の構成例を示す。
 図15に示す画像処理装置400は、データ取得部110、データ処理部130、データ出力部140、記憶部160を有する。
 データ取得部110は、2次元カメラ112を有する2次元画像取得部111と、3次元センサ114、および赤外(IR)光出力部115を有するデプスデータ(3Dデータ)取得部113を有する。
 データ処理部130は、3次元モデル復元部131と、視差画像生成部136を有する。
 データ出力部140は、画像表示デバイス(HMD)142を有する。
 記憶部160は、学習モデル(デプス埋め込み画像データ)記憶部162を有する。
 データ取得部110の2次元画像取得部111は、2次元カメラ112を利用した2次元画像を撮影する。
 デプスデータ(3Dデータ)取得部113は、3次元センサ114、および赤外(IR)光出力部115を有し、2次元カメラ112によって撮影された2次元画像に含まれる被写体(オブジェクト)の距離(デプス)を算出する。
 デプスデータ(3Dデータ)取得部113の赤外(IR)光出力部115は、赤外光(IR光)を出力する。デプスデータ(3Dデータ)取得部113の3次元センサ114は、赤外(IR)光出力部115による赤外光(IR光)の送受信間隔を測定し、被写体までの距離(デプス)を計測する。
 すなわち、赤外光(IR光)の送受信時間であるToF(Time of Flight)を計測して被写体までの距離に基づいて、被写体の距離(デプス)を算出する。
 データ処理部130の3次元モデル復元部131は、2次元画像取得部111の2次元カメラ112が撮影した2次元画像261を入力して、入力した2次元画像261に基づく3次元画像(3次元モデル)を生成する。
 具体的には、サイクルGAN(Genarative Adversarial Networks)を利用した学習処理により生成された学習モデル(デプス埋め込み画像データ)262、すなわち、記憶部160の学習モデル(デプス埋め込み画像データ)記憶部162の格納データを利用して、3次元画像(3Dモデル)を生成する。
 データ処理部130の視差画像生成部136は、3次元画像観察用の左目用画像271と右目用画像272の2つの視差画像を生成する。
 視差画像生成部136は、3次元モデル復元部131が生成した3次元画像(3次元モデル)を解析し、左右の目の位置から観察される2枚の2次元画像、すなわち視差画像を生成する。
 すなわち、図に示す3次元画像観察用の左目用画像271と右目用画像272の2つの視差画像を生成する。
 これら2つの視差画像である左目用画像271と右目用画像272をデータ出力部140の画像表示デバイス(HMD)142を構成する左目用画像表示部と、右目用画像表示部に出力する。
 これらの処理により、画像表示デバイス(HMD)142はあ次元画像を観察することが可能となる。
  (4-(2)多様な2次元画像に基づく多様な3次元画像(3次元モデル)を生成する画像処理装置)
 次に、多様な2次元画像に基づく多様な3次元画像(3次元モデル)を生成する画像処理装置について説明する。
 図16に、多様な2次元画像に基づく多様な3次元画像(3次元モデル)を生成する画像処理装置450の構成例を示す。
 図16に示す画像処理装置450は、データ取得部110、データ処理部130、データ出力部140、記憶部160を有する。
 データ取得部110は、2次元カメラ112を有する2次元画像取得部111を有する。
 データ処理部130は、3次元モデル復元部131を有する。
 データ出力部140は、表示部141を有する。
 記憶部160は、学習モデル(デプス埋め込み画像データ)記憶部162を有する。
 データ取得部110の2次元画像取得部111は、2次元カメラ112を利用した2次元画像を撮影する。
 例えば、図16に示すような様々な異なるタイプの椅子の2次元画像281を撮影して、データ処理部130の3次元モデル復元部131に出力する。
 データ処理部130の3次元モデル復元部131は、2次元画像取得部111の2次元カメラ112が撮影した2次元画像を入力して、入力2次元画像に基づく3次元画像(3次元モデル)を生成する。
 具体的には、サイクルGAN(Genarative Adversarial Networks)を利用した学習処理により生成された学習モデル(デプス埋め込み画像データ)282、すなわち、記憶部160の学習モデル(デプス埋め込み画像データ)記憶部162の格納データを利用して、3次元画像(3Dモデル)を生成する。
 3次元モデル復元部131は、例えば様々な異なるタイプの椅子の2次元画像に対して、記憶部160の学習モデル(デプス埋め込み画像データ)記憶部162の格納データから「1つの椅子に対応する学習モデル(デプス埋め込み画像データ)」を選択し、選択した1つのモデルを利用して、異なる椅子画像に対応する3次元画像283を生成することができる。
 記憶部160の学習モデル(デプス埋め込み画像データ)記憶部162の格納データ、すなわち、学習モデル(デプス埋め込み画像データ)282は、ある一つの形状を持つ椅子の画像にデプスデータ(3Dデータ)を埋め込んだデータである。
 椅子の大まかな形状、例えば座面、背もたれ、脚部等の構成は、異なるタイプの椅子であっても似たような構成である。従って、異なるタイプの椅子の2次元画像に対してある一つの形状を持つ椅子の画像にデプスデータ(3Dデータ)を適用した3次元画像生成処理を行っても、大きなエラーを発生させることがない。
 このように、様々な2次元画像に基づく3次元画像生成処理に、少ないデータ(学習モデル(デプス埋め込み画像データ))を利用した処理が可能となり、記憶部のデータ容量を削減することが可能となる。
  [5.画像処理装置のハードウェア構成例について]
 次に、上述した実施例に従った処理を実行する画像処理装置のハードウェア構成例について、図17を参照して説明する。
 図17に示すハードウェアは、上述した各実施例の画像処理装置のハードウェア構成の一例である。
 図17に示すハードウェア構成について説明する。
 CPU(Central Processing Unit)501は、ROM(Read Only Memory)502、または記憶部508に記憶されているプログラムに従って各種の処理を実行するデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。RAM(Random Access Memory)503には、CPU501が実行するプログラムやデータなどが記憶される。これらのCPU501、ROM502、およびRAM503は、バス504により相互に接続されている。
 CPU501はバス504を介して入出力インタフェース505に接続され、入出力インタフェース505には、各種センサ、カメラ、スイッチ、キーボード、マウス、マイクロホンなどよりなる入力部506、ディスプレイ、スピーカなどよりなる出力部507が接続されている。
 入出力インタフェース505に接続されている記憶部508は、例えばハードディスク等からなり、CPU501が実行するプログラムや各種のデータを記憶する。通信部509は、インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部、さらに放送波の送受信部として機能し、外部の装置と通信する。
 入出力インタフェース505に接続されているドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア511を駆動し、データの記録あるいは読み取りを実行する。
  [6.本開示の構成のまとめ]
 以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
 なお、本明細書において開示した技術は、以下のような構成をとることができる。
 (1) 画像スタイルの変更処理に適用するスタイルデータを決定するスタイル決定部と、
 前記スタイル決定部において決定したスタイルデータを適用して、入力画像の画像スタイルを変更したスタイル変換画像を生成する画像変換部を有し、
 前記スタイル決定部は、
 前記スタイル変換画像を出力する画像コンテンツのテーマに応じてスタイルデータを決定し、
 前記画像変換部は、
 前記表示コンテンツのテーマに応じて決定されたスタイルデータを適用してスタイル変換画像を生成する画像処理装置。
 (2) 前記画像変換部は、
 スタイル転送アルゴリズムを適用して、前記スタイル変換画像を生成する(1)に記載の画像処理装置。
 (3) 前記入力画像は2次元画像であり、
 前記画像変換部は、
 入力した2次元画像に対してスタイルデータを適用して、画像スタイルを変更したスタイル変換2次元画像を生成する(1)または(2)に記載の画像処理装置。
 (4) 前記入力画像は2次元画像であり、
 前記画像変換部は、
 入力した2次元画像と、前記2次元画像に対応するデプスデータを利用して、画像スタイルを変更したスタイル変換3次元画像を生成する(1)~(3)いずれかに記載の画像処理装置。
 (5) 前記画像処理装置は、
 2次元画像を取得する2次元画像取得部と、
 デプスデータを取得するデプスデータ取得部を有し、
 前記デプスデータは、前記デプスデータ取得部において取得されたデータである(4)に記載の画像処理装置。
 (6) 前記スタイル変換画像を出力する画像コンテンツは、拡張現実(AR:Augumented Reality)画像によって構成される画像コンテンツである(1)~(5)いずれかに記載の画像処理装置。
 (7) 前記スタイル決定部は、
 スタイル変換画像を出力する画像コンテンツの属性情報として記録されたテーマ情報を取得して解析し、解析結果に基づいて最適なスタイルデータを決定する(1)~(6)いずれかに記載の画像処理装置。
 (8) 前記画像処理装置は、
 複数の異なるスタイルデータを格納したスタイルデータ記憶部を有し、
 前記スタイル決定部は、
 前記スタイルデータ記憶部に格納されたスタイルデータから、画像スタイルの変更処理に適用するスタイルデータを選択する(1)~(7)いずれかに記載の画像処理装置。
 (9) 前記画像処理装置は、さらに、
 2次元画像に基づく3次元画像復元処理を実行する3次元モデル復元部を有し、
 前記3次元モデル復元部は、
 予め生成されたデプス埋め込み画像データを含む学習モデルを適用して、3次元画像復元処理を実行する(1)~(8)いずれかに記載の画像処理装置。
 (10) 前記学習モデルは、
 敵対的生成ネットワーク(GAN:Genarative Adversarial Networks)を利用した学習処理によって生成した学習モデルである(9)に記載の画像処理装置。
 (11) 前記入力画像は2次元画像であり、
 前記3次元モデル復元部は、
 入力した2次元画像に基づく3次元画像復元処理を実行して3次元画像を生成し、
 前記画像変換部は、
 前記3次元モデル復元部が生成した3次元画像に対して、前記スタイルデータを適用してスタイル変換3次元画像を生成する(9)または(10)に記載の画像処理装置。
 (12) 前記画像処理装置は、さらに、
 敵対的生成ネットワーク(GAN:Genarative Adversarial Networks)を利用した学習処理を実行する学習処理部を有し、
 前記学習処理部は、
 2次元画像と、該2次元画像対応のデプスデータを利用した学習処理を実行する(1)~(11)いずれかに記載の画像処理装置。
 (13) 前記学習処理部は、
 2次元画像を生成部(Genarator)ネットワークにおいて生成するサンプル画像とし、前記2次元画像のデプスデータを判定部(Discriminator)ネットワークにおいて、サンプル画像である2次元画像が本物であるか偽物であるかの真偽判定を行うためのデータとして設定した敵対的生成ネットワーク(GAN)を利用した学習処理を実行する(12)に記載の画像処理装置。
 (14) 画像処理装置において実行する画像処理方法であり、
 スタイル決定部が、画像スタイルの変更処理に適用するスタイルデータを決定するスタイル決定ステップと、
 画像変換部が、前記スタイル決定ステップにおいて決定したスタイルデータを適用して、入力画像の画像スタイルを変更したスタイル変換画像を生成する画像変換ステップを有し、
 前記スタイル決定ステップは、
 前記スタイル変換画像を出力する画像コンテンツのテーマに応じてスタイルデータを決定するステップであり、
 前記画像変換ステップは、
 前記表示コンテンツのテーマに応じて決定されたスタイルデータを適用してスタイル変換画像を生成するステップである画像処理方法。
 (15) 画像処理装置において画像処理を実行させるプログラムであり、
 スタイル決定部に、画像スタイルの変更処理に適用するスタイルデータを決定させるスタイル決定ステップと、
 画像変換部に、前記スタイル決定ステップにおいて決定したスタイルデータを適用して、入力画像の画像スタイルを変更したスタイル変換画像を生成させる画像変換ステップを実行させ、
 前記スタイル決定ステップは、
 前記スタイル変換画像を出力する画像コンテンツのテーマに応じてスタイルデータを決定させるステップであり、
 前記画像変換ステップは、
 前記表示コンテンツのテーマに応じて決定されたスタイルデータを適用してスタイル変換画像を生成させるステップであるプログラム。
 また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Networks)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
 なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 以上、説明したように、本開示の一実施例の構成によれば、画像スタイルを、画像の出力先となるコンテンツのテーマに一致したスタイルに変更して出力することを可能とした装置、方法が実現される。
 具体的には、例えば、画像スタイルの変更処理に適用するスタイルデータを決定するスタイル決定部と、スタイル決定部において決定したスタイルデータを適用して、入力画像の画像スタイルを変更したスタイル変換画像を生成する画像変換部を有する。スタイル決定部は、スタイル変換画像を出力する画像コンテンツのテーマに応じてスタイルデータを決定し、画像変換部は、表示コンテンツのテーマに応じて決定されたスタイルデータを適用してスタイル変換画像を生成する。
 本構成により、画像スタイルを、画像の出力先となるコンテンツのテーマに一致したスタイルに変更して出力することを可能とした装置、方法が実現される。
  10 スマホ
  11 カメラ
  12 カメラ撮影画像
  13 仮想オブジェクト画像
  20 光透過型AR画像表示デバイス
  21 透過観察画像
  22 仮想オブジェクト画像
 100 画像処理装置
 110 データ取得部
 111 2次元画像取得部
 112 2次元カメラ
 113 デプスデータ(3Dデータ)取得部
 114 3次元センサ
 115 赤外(IR)光出力部
 130 データ処理部
 131 3次元モデル復元部
 132 レンダリング部
 133 スタイル決定部
 134 画像変換部
 135 画像変換プログラム
 140 データ出力部
 141 表示部
 142 画像表示デバイス(HMD)
 150 デプス埋め込み学習処理部
 151 サイクルGAN学習アルゴリズム実行部
 160 記憶部
 161 学習用データ記憶部
 162 学習モデル(デプス埋め込み画像データ)記憶部
 163 シーンデータ記憶部
 164 スタイルデータ記憶部
 200 画像処理装置
 300 画像処理装置
 400 画像処理装置
 450 画像処理装置
 501 CPU
 502 ROM
 503 RAM
 504 バス
 505 入出力インタフェース
 506 入力部
 507 出力部
 508 記憶部
 509 通信部
 510 ドライブ
 511 リムーバブルメディア

Claims (15)

  1.  画像スタイルの変更処理に適用するスタイルデータを決定するスタイル決定部と、
     前記スタイル決定部において決定したスタイルデータを適用して、入力画像の画像スタイルを変更したスタイル変換画像を生成する画像変換部を有し、
     前記スタイル決定部は、
     前記スタイル変換画像を出力する画像コンテンツのテーマに応じてスタイルデータを決定し、
     前記画像変換部は、
     前記表示コンテンツのテーマに応じて決定されたスタイルデータを適用してスタイル変換画像を生成する画像処理装置。
  2.  前記画像変換部は、
     スタイル転送アルゴリズムを適用して、前記スタイル変換画像を生成する請求項1に記載の画像処理装置。
  3.  前記入力画像は2次元画像であり、
     前記画像変換部は、
     入力した2次元画像に対してスタイルデータを適用して、画像スタイルを変更したスタイル変換2次元画像を生成する請求項1に記載の画像処理装置。
  4.  前記入力画像は2次元画像であり、
     前記画像変換部は、
     入力した2次元画像と、前記2次元画像に対応するデプスデータを利用して、画像スタイルを変更したスタイル変換3次元画像を生成する請求項1に記載の画像処理装置。
  5.  前記画像処理装置は、
     2次元画像を取得する2次元画像取得部と、
     デプスデータを取得するデプスデータ取得部を有し、
     前記デプスデータは、前記デプスデータ取得部において取得されたデータである請求項4に記載の画像処理装置。
  6.  前記スタイル変換画像を出力する画像コンテンツは、拡張現実(AR:Augumented Reality)画像によって構成される画像コンテンツである請求項1に記載の画像処理装置。
  7.  前記スタイル決定部は、
     スタイル変換画像を出力する画像コンテンツの属性情報として記録されたテーマ情報を取得して解析し、解析結果に基づいて最適なスタイルデータを決定する請求項1に記載の画像処理装置。
  8.  前記画像処理装置は、
     複数の異なるスタイルデータを格納したスタイルデータ記憶部を有し、
     前記スタイル決定部は、
     前記スタイルデータ記憶部に格納されたスタイルデータから、画像スタイルの変更処理に適用するスタイルデータを選択する請求項1に記載の画像処理装置。
  9.  前記画像処理装置は、さらに、
     2次元画像に基づく3次元画像復元処理を実行する3次元モデル復元部を有し、
     前記3次元モデル復元部は、
     予め生成されたデプス埋め込み画像データを含む学習モデルを適用して、3次元画像復元処理を実行する請求項1に記載の画像処理装置。
  10.  前記学習モデルは、
     敵対的生成ネットワーク(GAN:Genarative Adversarial Networks)を利用した学習処理によって生成した学習モデルである請求項9に記載の画像処理装置。
  11.  前記入力画像は2次元画像であり、
     前記3次元モデル復元部は、
     入力した2次元画像に基づく3次元画像復元処理を実行して3次元画像を生成し、
     前記画像変換部は、
     前記3次元モデル復元部が生成した3次元画像に対して、前記スタイルデータを適用してスタイル変換3次元画像を生成する請求項9に記載の画像処理装置。
  12.  前記画像処理装置は、さらに、
     敵対的生成ネットワーク(GAN:Genarative Adversarial Networks)を利用した学習処理を実行する学習処理部を有し、
     前記学習処理部は、
     2次元画像と、該2次元画像対応のデプスデータを利用した学習処理を実行する請求項1に記載の画像処理装置。
  13.  前記学習処理部は、
     2次元画像を生成部(Genarator)ネットワークにおいて生成するサンプル画像とし、前記2次元画像のデプスデータを判定部(Discriminator)ネットワークにおいて、サンプル画像である2次元画像が本物であるか偽物であるかの真偽判定を行うためのデータとして設定した敵対的生成ネットワーク(GAN)を利用した学習処理を実行する請求項12に記載の画像処理装置。
  14.  画像処理装置において実行する画像処理方法であり、
     スタイル決定部が、画像スタイルの変更処理に適用するスタイルデータを決定するスタイル決定ステップと、
     画像変換部が、前記スタイル決定ステップにおいて決定したスタイルデータを適用して、入力画像の画像スタイルを変更したスタイル変換画像を生成する画像変換ステップを有し、
     前記スタイル決定ステップは、
     前記スタイル変換画像を出力する画像コンテンツのテーマに応じてスタイルデータを決定するステップであり、
     前記画像変換ステップは、
     前記表示コンテンツのテーマに応じて決定されたスタイルデータを適用してスタイル変換画像を生成するステップである画像処理方法。
  15.  画像処理装置において画像処理を実行させるプログラムであり、
     スタイル決定部に、画像スタイルの変更処理に適用するスタイルデータを決定させるスタイル決定ステップと、
     画像変換部に、前記スタイル決定ステップにおいて決定したスタイルデータを適用して、入力画像の画像スタイルを変更したスタイル変換画像を生成させる画像変換ステップを実行させ、
     前記スタイル決定ステップは、
     前記スタイル変換画像を出力する画像コンテンツのテーマに応じてスタイルデータを決定させるステップであり、
     前記画像変換ステップは、
     前記表示コンテンツのテーマに応じて決定されたスタイルデータを適用してスタイル変換画像を生成させるステップであるプログラム。
PCT/JP2021/022294 2020-07-09 2021-06-11 画像処理装置、および画像処理方法、並びにプログラム WO2022009607A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020118267 2020-07-09
JP2020-118267 2020-07-09

Publications (1)

Publication Number Publication Date
WO2022009607A1 true WO2022009607A1 (ja) 2022-01-13

Family

ID=79552506

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/022294 WO2022009607A1 (ja) 2020-07-09 2021-06-11 画像処理装置、および画像処理方法、並びにプログラム

Country Status (1)

Country Link
WO (1) WO2022009607A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024095871A1 (ja) * 2022-11-02 2024-05-10 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 方法、サーバー、および、撮影装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009195707A (ja) * 2008-02-21 2009-09-03 Palo Alto Research Center Inc 位置認識混合現実感ゲームプラットフォーム
JP2009289035A (ja) * 2008-05-29 2009-12-10 Jiro Makino 画像表示システム、携帯型表示装置、サーバコンピュータ、および遺跡観光システム
JP2014515130A (ja) * 2011-03-10 2014-06-26 マイクロソフト コーポレーション 写実的に表されたビューのテーマベースの拡張
WO2019156522A1 (ko) * 2018-02-12 2019-08-15 송우상 이미지/텍스트 기반 디자인 생성 장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009195707A (ja) * 2008-02-21 2009-09-03 Palo Alto Research Center Inc 位置認識混合現実感ゲームプラットフォーム
JP2009289035A (ja) * 2008-05-29 2009-12-10 Jiro Makino 画像表示システム、携帯型表示装置、サーバコンピュータ、および遺跡観光システム
JP2014515130A (ja) * 2011-03-10 2014-06-26 マイクロソフト コーポレーション 写実的に表されたビューのテーマベースの拡張
WO2019156522A1 (ko) * 2018-02-12 2019-08-15 송우상 이미지/텍스트 기반 디자인 생성 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KANAZAWA, ANGJOO ET AL.: "End-to-end Recovery of Human Shape and Pose", \IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 23 June 2018 (2018-06-23), pages 7122 - 7131, XP033473631, Retrieved from the Internet <URL:https://arxiv.org/abs/1712.06584> [retrieved on 20210624] *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024095871A1 (ja) * 2022-11-02 2024-05-10 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 方法、サーバー、および、撮影装置

Similar Documents

Publication Publication Date Title
US10652522B2 (en) Varying display content based on viewpoint
JP7072633B2 (ja) ビデオ生成方法および装置
CN104243951B (zh) 图像处理设备、图像处理系统以及图像处理方法
JP4740135B2 (ja) 3次元画像ディスプレイの画面に3次元画像を描画するシステム及び方法
JP2006325165A (ja) テロップ発生装置、テロップ発生プログラム、及びテロップ発生方法
JP2008513882A (ja) ビデオイメージ処理システム及びビデオイメージ処理方法
US10484599B2 (en) Simulating depth of field
US20170294051A1 (en) System and method for automated visual content creation
KR20150068895A (ko) 삼차원 출력 데이터 생성 장치 및 방법
TW202101374A (zh) 影像的深度圖之處理
CN107016730A (zh) 一种虚拟现实与真实场景融合的装置
WO2022009607A1 (ja) 画像処理装置、および画像処理方法、並びにプログラム
US20220114784A1 (en) Device and method for generating a model of an object with superposition image data in a virtual environment
JP6431259B2 (ja) カラオケ装置、ダンス採点方法、およびプログラム
CN103248910B (zh) 三维成像系统及其图像再现方法
TW201021546A (en) Interactive 3D image display method and related 3D display apparatus
KR102009400B1 (ko) 실감형 영상 콘텐츠 제공 방법 및 이를 이용한 서버
US20140192045A1 (en) Method and apparatus for generating three-dimensional caricature using shape and texture of face
JP6313003B2 (ja) カラオケ装置、画像出力方法、およびプログラム
JP2017539120A (ja) 没入ビデオを生成する目的のための画像データを収集する方法及びそれらの画像データに基づく空間可視化方法
JP2024503596A (ja) イメージ・ソースからのボリュメトリック・ビデオ
KR102388715B1 (ko) 문화유적복원 실감 장치
CN115428032A (zh) 信息处理装置、信息处理方法和程序
KR20100036683A (ko) 영상 출력 방법 및 장치
Huang et al. A process for the semi-automated generation of life-sized, interactive 3D character models for holographic projection

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21837054

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21837054

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP