WO2023223377A1 - 情報処理装置、情報処理方法、及び記録媒体 - Google Patents
情報処理装置、情報処理方法、及び記録媒体 Download PDFInfo
- Publication number
- WO2023223377A1 WO2023223377A1 PCT/JP2022/020343 JP2022020343W WO2023223377A1 WO 2023223377 A1 WO2023223377 A1 WO 2023223377A1 JP 2022020343 W JP2022020343 W JP 2022020343W WO 2023223377 A1 WO2023223377 A1 WO 2023223377A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- facial expression
- image
- person
- information processing
- estimated
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 173
- 238000003672 processing method Methods 0.000 title claims description 29
- 230000008921 facial expression Effects 0.000 claims abstract description 299
- 238000001514 detection method Methods 0.000 claims abstract description 29
- 230000001815 facial effect Effects 0.000 claims abstract description 23
- 239000002131 composite material Substances 0.000 claims description 84
- 238000004590 computer program Methods 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 15
- 238000004891 communication Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 210000001097 facial muscle Anatomy 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 210000004709 eyebrow Anatomy 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 210000001142 back Anatomy 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
Definitions
- This disclosure relates to the technical field of information processing devices, information processing methods, and recording media.
- the occlusion area that is occluded in the input image which is an image representing a face, is determined, and the input image is identified using areas other than those associated with the occlusion pattern based on the occlusion area, and the face image including the occlusion area is identified.
- a technique for further improving recognition accuracy is described in Patent Document 1.
- a face image is input, areas including parts such as eyes, nose, mouth, cheeks, etc. included in the face image are detected, the inside of the detected part areas is filled in, and the part areas are filled in and stored in the face image in advance.
- Patent Document 2 describes a technique for synthesizing images of parts of the body.
- a frontal image (video image) of the user is taken through the head-mounted display from the position of the camera fixed on the head-mounted display, and the face area that is not hidden by the head-mounted display in this video is used as is, and the hidden area is the same.
- a process is performed to replace a still image taken beforehand from a viewpoint and stored in a storage means when the head-mounted display is not attached with an area cut out using the mask pattern of the head-mounted display, and the face image synthesized from the moving image and still image is converted into a cube.
- Patent Document 3 describes a technique in which a texture map is pasted onto the surface of an appropriate three-dimensional object such as a person's head, and the resulting image is output or displayed as a human head.
- JP 2021-103538 Publication Japanese Patent Application Publication No. 2002-352258 Japanese Patent Application Publication No. 11-096366
- An object of this disclosure is to provide an information processing device, an information processing method, and a recording medium that aim to improve the techniques described in prior art documents.
- One aspect of the information processing device of this disclosure includes: an acquisition unit that acquires information about a person including at least an image of the person; a detection unit that detects a face area including the face of the person from the image; an estimation means for estimating the occluded region that is occluded, an expression estimation means for estimating the facial expression of the person based on information about the person, and an expression estimation means for estimating the facial expression of the person based on information about the person.
- an estimated facial expression image generating means for generating an estimated facial expression image of a region corresponding to the occluded area according to the estimated facial expression; and a composite image generating means for generating a composite image based on the image and the estimated facial expression image.
- One aspect of the information processing method of this disclosure is to obtain information about a person including at least an image of the person, detect a facial area including the face of the person from the image, and detect at least a part of the facial area. is occluded, the occluded area is estimated, the facial expression of the person is estimated based on the information about the person, and the estimated facial expression of the area corresponding to the occluded area is estimated according to the estimated facial expression. An image is generated, and a composite image is generated based on the image and the estimated facial expression image.
- One aspect of the recording medium of this disclosure is to cause a computer to acquire information regarding the person including at least an image of the person, detect a facial area including the face of the person from the image, and detect at least a part of the facial area. If a region of A computer program is recorded for executing an information processing method for generating an estimated facial expression image and generating a composite image based on the image and the estimated facial expression image.
- FIG. 1 is a block diagram showing the configuration of an information processing apparatus in the first embodiment.
- FIG. 2 is a block diagram showing the configuration of an information processing device in the second embodiment.
- FIG. 3 is a flowchart showing the flow of information processing operations performed by the information processing apparatus in the second embodiment.
- FIG. 4 is a block diagram showing the configuration of an information processing device in the fourth embodiment.
- FIG. 5 is a flowchart showing the flow of learning operations performed by the information processing apparatus in the fourth embodiment.
- FIG. 6 is a flowchart showing the flow of the estimated facial expression image generation operation performed by the information processing apparatus in the fifth embodiment.
- FIG. 7 is a block diagram showing the configuration of an information processing device in the sixth embodiment.
- FIG. 8 is a conceptual diagram showing an example of display under display control by the information processing apparatus in the sixth embodiment.
- FIG. 9 is a conceptual diagram of an online conference system in the seventh embodiment.
- FIG. 10 is a block diagram showing the configuration of an online conference control device in the seventh embodiment.
- FIG. 11 is a flowchart showing the flow of online conference control operations performed by the online conference control device in the seventh embodiment.
- a first embodiment of an information processing device, an information processing method, and a recording medium will be described. Below, a first embodiment of an information processing device, an information processing method, and a recording medium will be described using an information processing device 1 to which the first embodiment of the information processing device, information processing method, and recording medium is applied. . [1-1: Configuration of information processing device 1]
- FIG. 1 is a block diagram showing the configuration of an information processing device 1 in the first embodiment.
- the information processing device 1 includes an acquisition section 11, a detection section 12, a region estimation section 13, a facial expression estimation section 14, an estimated facial expression image generation section 15, and a composite image generation section 16.
- the acquisition unit 11 acquires information regarding the person, including at least an image of the person.
- the detection unit 12 detects a face area including a person's face from the image.
- the area estimating unit 13 estimates an occluded area when at least a part of the face area is occluded.
- the facial expression estimation unit 14 estimates the facial expression of a person based on information about the person.
- the estimated facial expression image generation unit 15 generates an estimated facial expression image of the area corresponding to the occluded area according to the facial expression estimated by the facial expression estimation unit 14.
- the composite image generation unit 16 generates a composite image based on the image and the estimated facial expression image.
- the information processing device 1 in the first embodiment generates a composite image based on the image and the image according to the estimated facial expression of the person, so that when at least a part of the person's facial area is occluded, Also, it is possible to obtain an image (that is, a composite image) according to the facial expression of the person in which the facial area of the person is not blocked.
- a second embodiment of an information processing device, an information processing method, and a recording medium will be described.
- a second embodiment of the information processing apparatus, the information processing method, and the recording medium will be described using an information processing apparatus 2 to which the second embodiment of the information processing apparatus, the information processing method, and the recording medium is applied.
- FIG. 2 is a block diagram showing the configuration of the information processing device 2 in the second embodiment.
- the information processing device 2 includes a calculation device 21 and a storage device 22. Furthermore, the information processing device 2 may include a communication device 23, an input device 24, and an output device 25. However, the information processing device 2 does not need to include at least one of the communication device 23, the input device 24, and the output device 25.
- the arithmetic device 21, the storage device 22, the communication device 23, the input device 24, and the output device 25 may be connected via a data bus 26.
- the arithmetic unit 21 is, for example, one of a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), and an FPGA (Field Programmable Gate Array). Contains at least one.
- Arithmetic device 21 reads a computer program.
- the arithmetic device 21 may read a computer program stored in the storage device 22.
- the arithmetic device 21 reads a computer program stored in a computer-readable and non-temporary recording medium using a recording medium reading device (not shown) provided in the information processing device 2 (for example, an input device 24 described later). You can also read it using .
- the arithmetic device 21 may acquire a computer program from a device (not shown) located outside the information processing device 2 via the communication device 23 (or other communication device) (that is, it may not be downloaded). (or may be loaded). The arithmetic device 21 executes the loaded computer program. As a result, within the arithmetic device 21, a logical functional block for executing the operations that the information processing device 2 should perform is realized. That is, the arithmetic device 21 can function as a controller for realizing a logical functional block for executing operations (in other words, processing) that the information processing device 2 should perform.
- FIG. 2 shows an example of logical functional blocks implemented within the arithmetic unit 21 to execute information processing operations.
- acquisition unit 211 which is a specific example of the "acquisition means” described in the appendix to be described later, and a specific example of the "detection means", which is described in the appendix to be described later.
- detection unit 212 which is an example, the area estimation unit 213, which is a specific example of the “estimation means” described in the appendix described later, and the facial expression estimation unit 214, which is a specific example of the “facial expression estimation unit”, which will be described later.
- An estimated facial expression image generation unit 215 that is a specific example of the “estimated facial expression image generation unit” described in the appendix, and a composite image generation unit 216 that is a specific example of the “synthesized image generation unit” described in the appendix to be described later. is realized.
- the respective operations of the acquisition unit 211, the detection unit 212, the area estimation unit 213, the facial expression estimation unit 214, the estimated facial expression image generation unit 215, and the composite image generation unit 216 will be described later with reference to FIG.
- the storage device 22 can store desired data.
- the storage device 22 may temporarily store a computer program executed by the arithmetic device 21.
- the storage device 22 may temporarily store data that is temporarily used by the arithmetic device 21 when the arithmetic device 21 is executing a computer program.
- the storage device 22 may store data that the information processing device 2 stores for a long period of time.
- the storage device 22 may include at least one of a RAM (Random Access Memory), a ROM (Read Only Memory), a hard disk device, a magneto-optical disk device, an SSD (Solid State Drive), and a disk array device. good. That is, the storage device 22 may include a non-temporary recording medium.
- the communication device 23 is capable of communicating with devices external to the information processing device 2 via a communication network (not shown).
- the input device 24 is a device that accepts information input to the information processing device 2 from outside the information processing device 2.
- the input device 24 may include an operating device (for example, at least one of a keyboard, a mouse, and a touch panel) that can be operated by the operator of the information processing device 2.
- the input device 24 may include a reading device capable of reading information recorded as data on a recording medium that can be externally attached to the information processing device 2.
- the output device 25 is a device that outputs information to the outside of the information processing device 2.
- the output device 25 may output the information as an image.
- the output device 25 may include a display device (so-called display) capable of displaying an image indicating information desired to be output.
- the output device 25 may output the information as audio.
- the output device 25 may include an audio device (so-called speaker) that can output audio.
- the output device 25 may output information on paper. That is, the output device 25 may include a printing device (so-called printer) that can print desired information on paper. [2-2: Information processing operation performed by information processing device 2]
- FIG. 3 is a flowchart showing the flow of information processing operations performed by the information processing device 2 in the second embodiment.
- the acquisition unit 211 acquires information regarding the person, including at least an image of the person (step S20).
- the acquisition unit 211 may acquire, as information regarding the person, audio information acquired when the image of the person is generated, for example.
- the detection unit 212 detects a face area including a person's face from the image (step S21).
- the detection unit 212 may detect a face area by applying a known face detection process to the image.
- the detection unit 212 may detect an area having characteristics of a face as a face area.
- the region having facial features may be a region including characteristic parts of the face such as eyes, nose, mouth, etc. There is no particular restriction on the method of face area detection performed by the detection unit 212.
- the detection unit 212 may detect the face area based on, for example, extracting edges or patterns characteristic of the face area.
- the detection unit 212 may detect the face area using a neural network that performs machine learning to detect the face area.
- the detection unit 212 may be configured with a convolutional neural network (hereinafter also referred to as "CNN").
- the area estimating unit 213 estimates the occluded area (step S22).
- the shielding region in which at least a part of the face region is shielded may be a mask region shielded by a mask worn by a person. If at least a part of the face area is blocked by a mask worn by a person, the area estimation unit 213 may estimate the masked area. For example, the area estimating unit 213 may determine that the facial area includes a mask area when feature points such as the wings of the nose and the corners of the mouth are not detected from the facial area. The mask area hidden by the mask may be a predetermined area including the wings of the nose, the corners of the mouth, and the like.
- the facial expression estimating unit 214 estimates the facial expression of the person based on information about the person (step S23).
- the facial expression estimation unit 214 may employ information that can be obtained from outside the mask area as information regarding the person.
- the facial expression estimating unit 214 may estimate the facial expression of the person based on information that can be obtained from areas other than the mask area included in the facial area, for example.
- the facial expression estimation unit 214 also calculates information such as the angle of the face, the pose taken by the person, and the gestures the person is making.
- a person's facial expression may be estimated based on at least one. Further, the facial expression estimation unit 214 may estimate the facial expression of the person based on audio information acquired when the image of the person is generated, for example, in addition to or in place of the information that can be acquired from the image of the person. good.
- the audio information may include at least one of information indicating the state of utterance, information indicating the content of the utterance, and the like.
- the state of vocalization may include at least one of the tone and tempo of vocalization.
- the facial expression estimating unit 214 may estimate the facial expression of the person based on information indicating the surrounding situation when the image of the person was generated, for example, in addition to or in place of information about the person.
- the facial expression estimating unit 214 may employ information that improves the accuracy of estimating the facial expression of the person as the information regarding the person.
- the facial expression estimation unit 214 may estimate a person's facial expression based on, for example, a predetermined rule. For example, a person's facial expression may be estimated based on the state of facial muscle movement.
- the movement state of the facial muscles may include at least one of a movement state in which the eyebrows are raised, a movement state in which the eyebrows are lowered, and a movement state in which the cheeks are raised.
- the facial expression estimation unit 214 may estimate a person's facial expression by combining the movement states of a plurality of facial muscles.
- the facial expression estimation unit 214 may estimate the facial expression of the person to be at least one of a facial expression of joy, a facial expression of surprise, a facial expression of fear, a facial expression of disgust, a facial expression of anger, a facial expression of sadness, and a neutral facial expression. . For example, if the person's cheeks are raised higher than a predetermined value, the facial expression estimation unit 214 may estimate that the facial expression is one of joy.
- the shielding area where at least a part of the face area is shielded is a mask area where the face is shielded by a mask worn by the face.
- the area may be, for example, an area shielded by sunglasses.
- the facial expression estimation unit 214 may estimate the facial expression of the person from the state of the mouth.
- the state of the mouth may include, for example, at least one of a state in which the upper lip is raised, a state in which the corners of the mouth are raised, a state in which a dimple is formed, a state in which the chin is raised, and the like.
- the estimated facial expression image generation unit 215 generates an estimated facial expression image of the area corresponding to the occluded area according to the facial expression estimated by the facial expression estimation unit 214 (step S24).
- the composite image generation unit 216 generates a composite image based on the image and the estimated facial expression image.
- the composite image generation unit 216 may generate the composite image so that at least the occluded area is hidden by the estimated facial expression image. That is, the composite image generation unit 216 may complement the occluded area of the person's face area with an image corresponding to the estimated facial expression of the person.
- the information processing device 2 in the second embodiment generates a composite image based on the image and the image of the mask area according to the estimated facial expression of the person, so even if the person is wearing a mask, It is possible to obtain an image that corresponds to a person's facial expression and whose mouth is not obscured.
- the information processing device 2 in the second embodiment determines whether the person is not wearing a mask or not based on the image of the area corresponding to the mask area according to the estimated facial expression of the person. Since a composite image is generated, it is possible to provide a natural facial image without a mask. Therefore, a photo taken in a crowded place will include a natural face image without a mask on, making it possible to record an attractive photo.
- a third embodiment of an information processing device, an information processing method, and a recording medium will be described.
- a third embodiment of the information processing apparatus, the information processing method, and the recording medium will be described using an information processing apparatus 3 to which the third embodiment of the information processing apparatus, the information processing method, and the recording medium is applied. .
- the facial expression estimation unit 214 determines the face area as an area other than the mask area included in the face area.
- the facial expression of the person may be estimated based on the area around the eyes of the person.
- the facial expression estimating unit 214 may estimate a person's facial expression based on information that can be obtained from the area around the eyes included in the facial area.
- the facial expression estimation unit 214 may extract the area around the eyes from the face area, for example, based on the distance between the eyes included in the face. Furthermore, the facial expression estimation unit 214 may extract the area around the eyes from the facial area based on both sides of the lower part of the dorsum of the nose included in the face.
- the facial expression estimating unit 214 may estimate the facial expression of the person based on, for example, the angle of the face and the pose/gesture taken by the person in addition to the area information around the eyes included in the facial area. In addition to the area information around the eyes included in the face area, the facial expression estimation unit 214 may also estimate the facial expression of the person based on, for example, audio information acquired when the image of the person is generated. good. Further, the facial expression estimation unit 214 may estimate the facial expression of the person based on information indicating the surrounding situation when the image of the person is generated, in addition to the area information around the eyes included in the facial area. . Similar to the second embodiment, the facial expression estimating unit 214 may employ information that improves the accuracy of estimating the facial expression of the person as the information regarding the person. [Technical effects of information processing device 3]
- the information processing device 3 in the third embodiment can estimate the expression of the face under the mask from image information around the eyes, and can synthesize a face image without a mask with an appropriate expression.
- a fourth embodiment of an information processing device, an information processing method, and a recording medium will be described. Below, a fourth embodiment of the information processing apparatus, the information processing method, and the recording medium will be described using an information processing apparatus 4 to which the fourth embodiment of the information processing apparatus, the information processing method, and the recording medium is applied. . [4-1: Configuration of information processing device 4]
- FIG. 4 is a block diagram showing the configuration of the information processing device 4 in the fourth embodiment.
- the information processing device 4 in the fourth embodiment includes an arithmetic device 21 and a storage device 22, similar to the information processing device 2 in the second embodiment and the information processing device 3 in the third embodiment. It is equipped with Furthermore, the information processing device 4 includes a communication device 23, an input device 24, and an output device 25, similar to the information processing device 2 in the second embodiment and the information processing device 3 in the third embodiment. Good too. However, the information processing device 4 does not need to include at least one of the communication device 23, the input device 24, and the output device 25. In the information processing device 4 in the fourth embodiment, compared to the information processing device 2 in the second embodiment and the information processing device 3 in the third embodiment, the arithmetic device 21 includes a learning section 417 and performs a learning operation. They differ in this respect. Other features of the information processing device 4 may be the same as other features of at least one of the information processing device 2 in the second embodiment and the information processing device 3 in the third embodiment. [4-2: Learning operation performed by information processing device 4]
- FIG. 5 is a flowchart showing the flow of information processing operations performed by the information processing device 4 in the fourth embodiment.
- the acquisition unit 211 acquires learning information including sample information regarding a sample person with a predetermined facial expression and a facial expression label indicating the predetermined facial expression (step S40).
- the predetermined facial expression may include at least one of a facial expression of joy, a facial expression of surprise, a facial expression of fear, a facial expression of disgust, a facial expression of anger, a facial expression of sadness, and a neutral facial expression.
- the facial expression label may be a label indicating each of these facial expressions. Furthermore, labels may be provided for each of multiple levels of intensity of each facial expression.
- the acquisition unit 211 may acquire learning information stored in the storage device 22 from the storage device 22.
- the acquisition unit 211 may acquire learning information from an external device via the communication device 23.
- the detection unit 212 detects a face area including a person's face from the image (step S21).
- the facial expression estimation unit 214 estimates the facial expression of the sample person based on the sample information (step S41).
- the learning unit 417 causes the facial expression estimation unit 214 to learn a method for estimating a person's facial expression based on the facial expression label and the estimation result of the sample person's facial expression by the facial expression estimation unit 214 (step S42).
- the learning unit 417 may construct a facial expression estimation model that can estimate the facial expression of a person whose face area is at least partially occluded.
- the facial expression estimation unit 214 may use the facial expression estimation model to estimate the facial expression of a person whose face area is partially occluded, based on information about the person. By using the learned facial expression estimation model, the facial expression estimation unit 214 can accurately estimate the facial expression of a person whose face area is partially occluded.
- Parameters that define the operation of the facial expression estimation model may be stored in the storage device 22.
- the parameters that define the operation of the facial expression estimation model may be parameters that are updated through learning operations, and may be, for example, the weights and biases of a neural network.
- Images used for learning facial expressions occluded by masked areas only need to be able to determine the state of the person outside the masked area.
- learning may be performed using areas other than the mask area. That is, the image used for learning may be an image of the person wearing a mask or an image of the person not wearing a mask.
- the information processing device 4 in the fourth embodiment can realize highly accurate estimation of a person's facial expression by machine learning.
- a fifth embodiment of an information processing device, an information processing method, and a recording medium will be described.
- a fifth embodiment of the information processing apparatus, the information processing method, and the recording medium will be described using an information processing apparatus 5 to which the fifth embodiment of the information processing apparatus, the information processing method, and the recording medium is applied. .
- an information processing device 5 will be described with reference to FIG. 6.
- the fifth embodiment describes a specific example of the operation (that is, the operation corresponding to step S24 in FIG. 3) when generating the estimated facial expression image in the second to fourth embodiments described above. be.
- the storage device 22 may store in advance images of people with various facial expressions, and at least images of people whose shielded areas are not shielded.
- Other parts of the operation when generating the estimated facial expression image may be the same as at least one of the second to fourth embodiments. Therefore, in the following, parts that are different from each of the embodiments already described will be described in detail, and descriptions of other overlapping parts will be omitted as appropriate.
- FIG. 6 is a flowchart showing the flow of the estimated facial expression image generation operation by the information processing device 5 according to the fifth embodiment.
- the estimated facial expression image generation unit 215 estimates who the person to be processed is (step S50).
- the estimated facial expression image generation unit 215 may perform face authentication using the face area detected by the detection unit 212 to estimate who the person to be processed is.
- the estimated facial expression image generation unit 215 generates an image that is estimated to be an image of a person to be processed (hereinafter sometimes referred to as "the person") from among pre-registered images of a person in which at least the occluded area is not occluded. is searched for and acquired (step S51).
- the estimated facial expression image generation unit 215 determines whether or not an image of the person in question has been acquired in step S51 (step S52).
- step S51 if the image of the person has been acquired (step S52: Yes), the estimated facial expression image generation unit 215 determines whether there is an image of the person with a facial expression corresponding to the facial expression estimated in step S23. (Step S53).
- the facial expression corresponding to the estimated facial expression may include facial expressions that match or are similar to the estimated facial expression.
- the estimated facial expression image generation unit 215 If there is an image of the person with a facial expression corresponding to the facial expression estimated in step S23 (step S53: Yes), the estimated facial expression image generation unit 215 generates a pre-registered image of the facial expression corresponding to the facial expression estimated by the facial expression estimation unit 214. An estimated facial expression image is generated based on the image of the person present (step S54). The estimated facial expression image generation unit 215 selects an image of the person whose facial expression corresponding to the facial expression estimated by the facial expression estimation unit 214 is registered in advance, corrects the brightness of the image, the posture of the person, etc., and generates an estimated facial expression image. may be generated.
- the estimated facial expression image generation unit 215 If there is no image of the person with a facial expression corresponding to the facial expression estimated in step S23 (step S53: No), the estimated facial expression image generation unit 215 generates a pre-registered image of the person with at least an unoccluded area. An estimated facial expression image is generated based on (step S55). If there is no pre-registered image of the person with a facial expression corresponding to the facial expression estimated by the facial expression estimation unit 214, the estimated facial expression image generation unit 215 selects an arbitrary image of the person and converts the facial expression in the image into the facial expression estimation unit 214. The estimated facial expression image may be generated by converting the facial expression into a facial expression corresponding to the facial expression estimated by the user.
- the estimated facial expression image generation unit 215 applies a deep learning technique such as a generative adversarial network (GAN) to generate an image of a facial expression corresponding to the facial expression estimated by the facial expression estimation unit 214. , may be generated as an estimated facial expression image.
- GAN generative adversarial network
- step S51 if the image of the person cannot be acquired (step S52: No), the estimated facial expression image generation unit 215 applies deep learning technology such as GAN to calculate the facial expression of the image by the facial expression estimation unit 214.
- An image of a facial expression corresponding to the estimated facial expression may be generated as an estimated facial expression image (step S56).
- the information image generation unit 215 may omit the operation of step S53 and perform the operation of step S55. Further, the estimated facial expression image generation unit 215 may generate the estimated facial expression image by applying a deep learning technique such as GAN, regardless of the presence or absence of the person's image. That is, the information image generation unit 215 may omit the operations from step S50 to step S52 and perform the operation at step S56.
- a deep learning technique such as GAN
- the estimated facial expression image generation unit 215 may generate a facial image with an expression that matches the situation of the person when the image was generated, rather than the individuality.
- the information processing device 5 in the fifth embodiment generates the estimated facial expression image based on a pre-registered image of a person in which at least the shielded area is not shielded, so that it is possible to obtain an image that looks like the person himself/herself. Furthermore, if an image of a person whose facial expression corresponding to the estimated facial expression is not occluded is registered in advance, the information processing device 5 calculates the estimated facial expression based on the pre-registered image. Since an image is generated, it is possible to obtain an image that is more like the person. [6: Sixth embodiment]
- a sixth embodiment of an information processing device, an information processing method, and a recording medium will be described. Below, a sixth embodiment of the information processing device, the information processing method, and the recording medium will be described using an information processing device 6 to which the sixth embodiment of the information processing device, the information processing method, and the recording medium is applied. . [6-1: Configuration of information processing device 6]
- FIG. 7 is a block diagram showing the configuration of the information processing device 6 in the sixth embodiment.
- the information processing device 6 in the sixth embodiment includes an arithmetic device 21, a storage device 22, and the like in the information processing device 2 in the second embodiment to the information processing device 5 in the fifth embodiment. It is equipped with Furthermore, the information processing device 6 may include a communication device 23, an input device 24, and an output device 25, like the information processing device 2 in the second embodiment to the information processing device 5 in the fifth embodiment. good. However, the information processing device 6 does not need to include at least one of the communication device 23, the input device 24, and the output device 25.
- the information processing device 6 in the sixth embodiment differs from the information processing device 2 in the second embodiment to the information processing device 5 in the sixth embodiment in that the arithmetic device 21 includes a display control unit 618. Other features of the information processing device 6 may be the same as at least one other feature of the information processing device 2 in the second embodiment to the information processing device 5 in the fifth embodiment. [6-2: Information processing operation performed by information processing device 6]
- the display control unit 618 displays the composite image instead of the image, and superimposes information indicating that the image is generated by the composite image generation unit 216 on the composite image. and display it.
- the display control unit 618 causes characters such as “mask area complemented image” to be displayed at the bottom right of the display mechanism D. It's okay.
- the display control unit 618 adds a semi-transparent mask to the area corresponding to the mask area in the uncomposed image. may be displayed in a superimposed manner.
- the information processing device 6 in the sixth embodiment displays information indicating that the image is a composite image superimposed on the composite image, so that the user can check whether the image is a composite image. You can easily tell whether it is or not.
- an online conference system 700 includes an online conference control device 7, and a plurality of terminals 70 (in FIG. 9, a terminal 70-1, a terminal 70-2, a terminal 70-2, a 70-3, . . . , terminal 70-N is shown as an example).
- the online conference control device 7 can communicate with a plurality of terminals 70.
- the plurality of terminals 70 may conduct an online conference.
- the plurality of terminals 70 may conduct a web conference.
- Configuration of online conference control device 7 Configuration of online conference control device 7
- FIG. 10 is a block diagram showing the configuration of the online conference control device 7 in the seventh embodiment.
- the online conference control device 7 includes a calculation device 71 and a storage device 72. Furthermore, the online conference control device 7 may include a communication device 73, an input device 74, and an output device 75. However, the online conference control device 7 may not include at least one of the communication device 73, the input device 74, and the output device 75. Arithmetic device 71, storage device 72, communication device 73, input device 74, and output device 75 may be connected via data bus 76.
- the arithmetic unit 71 is, for example, one of a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), and an FPGA (Field Programmable Gate Array). Contains at least one. Arithmetic device 71 reads a computer program. For example, the arithmetic device 71 may read a computer program stored in the storage device 72. For example, the arithmetic device 71 may transfer a computer program stored in a computer-readable and non-temporary recording medium to a recording medium reading device (not shown) provided in the online conference control device 7 (for example, an input device 74 described later). ).
- a recording medium reading device not shown
- the arithmetic device 71 may obtain a computer program from a device (not shown) located outside the online conference control device 7 via the communication device 73 (or other communication device) (that is, download and download the computer program). (can be read or read). Arithmetic device 71 executes the loaded computer program. As a result, a logical functional block for executing the operations that the online conference control device 7 should perform is realized within the arithmetic device 71. That is, the arithmetic device 71 can function as a controller for realizing a logical functional block for executing operations (in other words, processing) that the online conference control device 7 should perform.
- FIG. 10 shows an example of logical functional blocks implemented within the computing device 71 to perform online conference control operations.
- the arithmetic device 71 includes an acquisition unit 711, which is a specific example of the "acquisition means” described in the appendix to be described later, and a specific example of the "detection means", which is described in the appendix to be described later.
- a detection unit 712 as an example
- a region estimation unit 713 as a specific example of “estimation means” described in the appendix to be described later
- a facial expression estimation unit 714 as a specific example of “facial expression estimation unit”, as described below.
- An estimated facial expression image generation unit 715 that is a specific example of the “estimated facial expression image generation unit” described in the appendix, and a composite image generation unit 716 that is a specific example of the “synthesized image generation unit” described in the appendix to be described later. and an output control section 719, which is a specific example of "output control means".
- the operations of the acquisition unit 711, detection unit 712, area estimation unit 713, facial expression estimation unit 714, estimated facial expression image generation unit 715, composite image generation unit 716, and output control unit 719 will be described later with reference to FIG. do.
- the storage device 72 can store desired data.
- the storage device 72 may temporarily store a computer program executed by the arithmetic device 71.
- the storage device 72 may temporarily store data that is temporarily used by the arithmetic device 71 when the arithmetic device 71 is executing a computer program.
- the storage device 72 may store data that the online conference control device 7 stores for a long period of time.
- the storage device 72 may include at least one of a RAM (Random Access Memory), a ROM (Read Only Memory), a hard disk device, a magneto-optical disk device, an SSD (Solid State Drive), and a disk array device. good. That is, the storage device 72 may include a non-temporary recording medium.
- the communication device 73 can communicate with devices external to the online conference control device 7 via a communication network (not shown).
- the online conference control device 7 may be able to communicate with each of the plurality of terminals 70 via the communication device 73.
- the input device 74 is a device that accepts input of information to the online conference control device 7 from outside the online conference control device 7.
- the input device 74 may include an operating device (for example, at least one of a keyboard, a mouse, and a touch panel) that can be operated by the operator of the online conference control device 7.
- the input device 74 may include a reading device capable of reading information recorded as data on a recording medium that can be externally attached to the online conference control device 7.
- the output device 75 is a device that outputs information to the outside of the online conference control device 7.
- the output device 75 may output the information as an image.
- the output device 75 may include a display device (so-called display) capable of displaying an image indicating information desired to be output.
- the output device 75 may output the information as audio.
- the output device 75 may include an audio device (so-called speaker) that can output audio.
- the output device 75 may output information on paper. That is, the output device 75 may include a printing device (so-called printer) that can print desired information on paper. [7-3: Online conference control operation performed by online conference control device 7]
- FIG. 11 is a flowchart showing the flow of online conference control operations performed by the online conference control device 7 in the seventh embodiment.
- the acquisition unit 711 acquires information about the person, including at least an image of the person, from at least one terminal 70 among the plurality of terminals 70 holding the conference (step S70).
- the acquisition unit 711 may acquire information regarding the person who operates the terminal 70, including at least an image of the person.
- the acquisition unit 711 may acquire information regarding the person operating the terminal 70, including a video of the person.
- the detection unit 712 detects a face area including a person's face from the image (step S71). If at least part of the face area is occluded, the area estimating unit 713 estimates the occluded area (step S72). The facial expression estimating unit 714 estimates the facial expression of the person based on the information regarding the person (step S73). The estimated facial expression image generation unit 715 generates an estimated facial expression image of the area corresponding to the occluded area according to the facial expression estimated by the facial expression estimation unit 714 (step S74). The composite image generation unit 716 generates a composite image based on the image and the estimated facial expression image (step S75).
- the operation performed by the detection unit 712 may be the same as the operation performed by at least one of the detection units 212 in the second to sixth embodiments.
- the operation performed by the region estimating section 713 may be the same as the operation performed by at least one of the region estimating sections 213 in the second to sixth embodiments.
- the operation performed by the facial expression estimation section 714 may be the same as the operation performed by at least one of the facial expression estimation sections 214 in the second to sixth embodiments.
- the operation performed by the estimated facial expression image generation section 715 may be the same as the operation performed by at least one of the estimated facial expression image generation sections 215 in the second to sixth embodiments.
- the operation performed by the composite image generation unit 716 may be the same as the operation performed by at least one of the composite image generation units 216 in the second to sixth embodiments.
- the output control unit 719 When the composite image generation unit 716 generates a composite image, the output control unit 719 outputs the composite image to the plurality of terminals 70 instead of the image (step S76).
- the output control unit 719 may output the image or composite image to the plurality of terminals 70 in real time.
- the output control unit 719 may output the composite image later than when outputting an image to a plurality of terminals 70.
- the output control unit 719 may output the composite image with a delay of, for example, several seconds, compared to when outputting an image to a plurality of terminals 70.
- At least one of the information processing devices 2 in the second embodiment to the information processing devices 6 in the sixth embodiment may also perform the synthetic image generation operation in real time.
- a time lag of, for example, several seconds may occur in at least one of the information processing devices 2 in the second embodiment to the information processing devices 6 in the sixth embodiment.
- the acquisition unit 711 acquires a still image of a person operating the terminal 70
- the learning unit 717 generates a composite image offline
- the output control unit 719 transmits the composite image generated offline to multiple terminals 70. You can also output to
- the area estimation unit 713 does not need to perform the estimation process for each frame. That is, the area estimating unit 713 may perform estimation processing every predetermined number of frames. That is, the facial expression estimation unit 714 may generate estimated facial expression images according to the same facial expression for a predetermined number of frames.
- the arithmetic device 71 may include a learning section 717. That is, similar to the learning unit 417 of the fourth embodiment, the learning unit 717 instructs the facial expression estimation unit 714 on the method of estimating the facial expression of the sample based on the facial expression label and the estimation result of the facial expression of the sample person by the facial expression estimation unit 714. You may also have them learn.
- the arithmetic device 71 may include a display control section 718. That is, similarly to the display control unit 618 of the sixth embodiment, when the composite image generation unit 716 generates a composite image, the display control unit 718 causes the composite image to be displayed instead of the image, and when the composite image generation unit 716 generates a composite image. Information indicating that the image is a generated image may be displayed superimposed on the composite image. [7-4: Technical effects of online conference control device 7]
- the online conference control device 7 in the seventh embodiment generates a composite image based on the image and the image of the mask area according to the estimated facial expression of the person. It is possible to obtain an image that corresponds to the person's facial expression and in which the mouth of the person is not obscured.
- the online conference control device 7 in the seventh embodiment uses a non-masked image based on an image of a region corresponding to the masked region according to the estimated facial expression of the person. Since a composite image of a person wearing a mask is generated, a natural face image of a person not wearing a mask can be provided. Therefore, even when participating from a shared location such as a satellite office, a natural facial image without a mask can be distributed. [8: Additional notes]
- acquisition means for acquiring information about the person including at least an image of the person; detection means for detecting a face area including the face of the person from the image; estimating means for estimating an occluded area when at least a part of the face area is occluded; facial expression estimation means for estimating the facial expression of the person based on information about the person; Estimated facial expression image generation means for generating an estimated facial expression image of a region corresponding to the occluded area according to the facial expression estimated by the facial expression estimation means;
- An information processing apparatus comprising: a composite image generating unit that generates a composite image based on the image and the estimated facial expression image.
- the acquisition means acquires learning information including sample information regarding a sample person with a predetermined facial expression and a facial expression label indicating the predetermined facial expression
- the facial expression estimation means estimates the facial expression of the sample person based on the sample information
- the information processing device according to item (1).
- the estimated facial expression image generating means generates the estimated facial expression image based on a pre-registered image of the person in which at least the shielding area is not shielded. Information processing device.
- Acquisition means for acquiring information about the person, including at least an image of the person, from at least one terminal among the plurality of terminals holding the conference; detection means for detecting a face area including the face of the person from the image; estimating means for estimating an occluded area when at least a part of the face area is occluded; facial expression estimation means for estimating the facial expression of the person based on information about the person; Estimated facial expression image generation means for generating an estimated facial expression image of a region corresponding to the occluded area according to the facial expression estimated by the facial expression estimation means; a composite image generating means for generating a composite image based on the image and the estimated facial expression image; and output control means for outputting the composite image to the plurality of terminals instead of the image when the composite image generating unit generates the composite image.
- [Additional note 9] obtain information about the person, including at least an image of the person; detecting a face area including the face of the person from the image; If at least a part of the face area is occluded, estimating the occluded area; Estimating the facial expression of the person based on information about the person; generating an estimated facial expression image of a region corresponding to the occluded region according to the estimated facial expression; An information processing method that generates a composite image based on the image and the estimated facial expression image.
- [Additional note 10] to the computer obtain information about the person, including at least an image of the person; detecting a face area including the face of the person from the image; If at least a part of the face area is occluded, estimating the occluded area; Estimating the facial expression of the person based on information about the person; generating an estimated facial expression image of a region corresponding to the occluded region according to the estimated facial expression; A recording medium on which a computer program for executing an information processing method for generating a composite image based on the image and the estimated facial expression image is recorded.
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Image Processing (AREA)
Abstract
情報処理装置1は、少なくとも人物の画像を含む当該人物に関する情報を取得する取得部11、画像から人物の顔を含む顔領域を検出する検出部12と、顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する領域推定部13と、人物に関する情報に基づいて人物の表情を推定する表情推定部14と、表情推定部14により推定された表情に応じた、遮蔽領域に対応する領域の推定表情画像を生成する推定表情画像生成部15と、画像、及び推定表情画像に基づき合成画像を生成する合成画像生成部16とを備える。
Description
この開示は、情報処理装置、情報処理方法、及び記録媒体の技術分野に関する。
顔を表す画像である入力画像において遮蔽されている遮蔽領域を判定し、遮蔽領域に基づく遮蔽パターンと関連付けられている領域以外を用いて、入力画像の識別を行い、遮蔽領域を含む顔画像の認識精度をより向上させる技術が特許文献1に記載されている。顔画像を入力し、顔画像に含まれる、目、鼻、口、頬などの部位を含む領域を検出し、検出した部位領域の内部を塗りつぶし、部位領域を塗りつぶした顔画像に、予め記憶されている部位の画像を合成する技術が特許文献2に記載されている。ヘッドマウントディスプレイに固定したカメラの位置からヘッドマウントディスプレイ越しに使用者の正面画像(動画像)を撮影し、この動画像でのヘッドマウントディスプレイに隠れない顔領域はそのまま使用し、隠れる領域は同一視点からあらかじめ撮影して蓄積手段に蓄積したヘッドマウントディスプレイ未装着時の静止画像からヘッドマウントディスプレイのマスクパターンで切り出した領域で置き換える処理を行い、動画像と静止画像から合成した顔画像を、立方体等の適当な立体の表面にテクスチャマップ手法で貼り付けて、それを人物の頭部として出力または表示する技術が特許文献3に記載されている。
この開示は、先行技術文献に記載された技術の改良を目的とする情報処理装置、情報処理方法、及び記録媒体を提供することを課題とする。
この開示の情報処理装置の一の態様は、少なくとも人物の画像を含む当該人物に関する情報を取得する取得手段と、前記画像から前記人物の顔を含む顔領域を検出する検出手段と、前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する推定手段と、前記人物に関する情報に基づいて前記人物の表情を推定する表情推定手段と、前記表情推定手段により推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成する推定表情画像生成手段と、前記画像、及び前記推定表情画像に基づき合成画像を生成する合成画像生成手段とを備える。
この開示の情報処理方法の一の態様は、少なくとも人物の画像を含む当該人物に関する情報を取得し、前記画像から前記人物の顔を含む顔領域を検出し、前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定し、前記人物に関する情報に基づいて前記人物の表情を推定し、推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成し、前記画像、及び前記推定表情画像に基づき合成画像を生成する。
この開示の記録媒体の一の態様は、コンピュータに、少なくとも人物の画像を含む当該人物に関する情報を取得し、前記画像から前記人物の顔を含む顔領域を検出し、前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定し、前記人物に関する情報に基づいて前記人物の表情を推定し、推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成し、前記画像、及び前記推定表情画像に基づき合成画像を生成する情報処理方法を実行させるためのコンピュータプログラムが記録されている。
以下、図面を参照しながら、情報処理装置、情報処理方法、及び記録媒体の実施形態について説明する。
[1:第1実施形態]
[1:第1実施形態]
情報処理装置、情報処理方法、及び記録媒体の第1実施形態について説明する。以下では、情報処理装置、情報処理方法、及び記録媒体の第1実施形態が適用された情報処理装置1を用いて、情報処理装置、情報処理方法、及び記録媒体の第1実施形態について説明する。
[1-1:情報処理装置1の構成]
[1-1:情報処理装置1の構成]
図1を参照しながら、第1実施形態における情報処理装置1の構成について説明する。図1は、第1実施形態における情報処理装置1の構成を示すブロック図である。
図1に示すように、情報処理装置1は、取得部11と、検出部12と、領域推定部13と、表情推定部14と、推定表情画像生成部15と、合成画像生成部16とを備える。取得部11は、少なくとも人物の画像を含む当該人物に関する情報を取得する。検出部12は、画像から人物の顔を含む顔領域を検出する。領域推定部13は、顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する。表情推定部14は、人物に関する情報に基づいて人物の表情を推定する。推定表情画像生成部15は、表情推定部14により推定された表情に応じた、遮蔽領域に対応する領域の推定表情画像を生成する。合成画像生成部16は、画像、及び推定表情画像に基づき合成画像を生成する。
[1-2:情報処理装置1の技術的効果]
[1-2:情報処理装置1の技術的効果]
第1実施形態における情報処理装置1は、画像、及び推定された人物の表情に応じた画像に基づき合成画像を生成するので、人物の顔領域の少なくとも一部の領域が遮蔽されている場合にも、人物の顔領域が遮蔽されていない、人物の表情に応じた画像(つまり、合成画像)を取得することができる。
[2:第2実施形態]
[2:第2実施形態]
情報処理装置、情報処理方法、及び記録媒体の第2実施形態について説明する。以下では、情報処理装置、情報処理方法、及び記録媒体の第2実施形態が適用された情報処理装置2を用いて、情報処理装置、情報処理方法、及び記録媒体の第2実施形態について説明する。
[2-1:情報処理装置2の構成]
[2-1:情報処理装置2の構成]
図2を参照しながら、第2実施形態における情報処理装置2の構成について説明する。図2は、第2実施形態における情報処理装置2の構成を示すブロック図である。
図2に示すように、情報処理装置2は、演算装置21と、記憶装置22とを備えている。更に、情報処理装置2は、通信装置23と、入力装置24と、出力装置25とを備えていてもよい。但し、情報処理装置2は、通信装置23、入力装置24及び出力装置25のうちの少なくとも1つを備えていなくてもよい。演算装置21と、記憶装置22と、通信装置23と、入力装置24と、出力装置25とは、データバス26を介して接続されていてもよい。
演算装置21は、例えば、CPU(Central Processing Unit)、GPU(Graphics Proecssing Unit)及びFPGA(Field Programmable Gate Array)のうちの少なくとも1つを含む。演算装置21は、コンピュータプログラムを読み込む。例えば、演算装置21は、記憶装置22が記憶しているコンピュータプログラムを読み込んでもよい。例えば、演算装置21は、コンピュータで読み取り可能であって且つ一時的でない記録媒体が記憶しているコンピュータプログラムを、情報処理装置2が備える図示しない記録媒体読み取り装置(例えば、後述する入力装置24)を用いて読み込んでもよい。演算装置21は、通信装置23(或いは、その他の通信装置)を介して、情報処理装置2の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい(つまり、ダウンロードしてもよい又は読み込んでもよい)。演算装置21は、読み込んだコンピュータプログラムを実行する。その結果、演算装置21内には、情報処理装置2が行うべき動作を実行するための論理的な機能ブロックが実現される。つまり、演算装置21は、情報処理装置2が行うべき動作(言い換えれば、処理)を実行するための論理的な機能ブロックを実現するためのコントローラとして機能可能である。
図2には、情報処理動作を実行するために演算装置21内に実現される論理的な機能ブロックの一例が示されている。図2に示すように、演算装置21内には、後述する付記に記載された「取得手段」の一具体例である取得部211と、後述する付記に記載された「検出手段」の一具体例である検出部212と、後述する付記に記載された「推定手段」の一具体例である領域推定部213と、「表情推定手段」の一具体例である表情推定部214と、後述する付記に記載された「推定表情画像生成手段」の一具体例である推定表情画像生成部215と、後述する付記に記載された「合成画像生成手段」の一具体例である合成画像生成部216とが実現される。取得部211、検出部212、領域推定部213、表情推定部214、推定表情画像生成部215、及び合成画像生成部216の夫々の動作については、図3を参照しながら後述する。
記憶装置22は、所望のデータを記憶可能である。例えば、記憶装置22は、演算装置21が実行するコンピュータプログラムを一時的に記憶していてもよい。記憶装置22は、演算装置21がコンピュータプログラムを実行している場合に演算装置21が一時的に使用するデータを一時的に記憶してもよい。記憶装置22は、情報処理装置2が長期的に保存するデータを記憶してもよい。尚、記憶装置22は、RAM(Random Access Memory)、ROM(Read Only Memory)、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)及びディスクアレイ装置のうちの少なくとも1つを含んでいてもよい。つまり、記憶装置22は、一時的でない記録媒体を含んでいてもよい。
通信装置23は、不図示の通信ネットワークを介して、情報処理装置2の外部の装置と通信可能である。
入力装置24は、情報処理装置2の外部からの情報処理装置2に対する情報の入力を受け付ける装置である。例えば、入力装置24は、情報処理装置2のオペレータが操作可能な操作装置(例えば、キーボード、マウス及びタッチパネルのうちの少なくとも1つ)を含んでいてもよい。例えば、入力装置24は情報処理装置2に対して外付け可能な記録媒体にデータとして記録されている情報を読み取り可能な読取装置を含んでいてもよい。
出力装置25は、情報処理装置2の外部に対して情報を出力する装置である。例えば、出力装置25は、情報を画像として出力してもよい。つまり、出力装置25は、出力したい情報を示す画像を表示可能な表示装置(いわゆる、ディスプレイ)を含んでいてもよい。例えば、出力装置25は、情報を音声として出力してもよい。つまり、出力装置25は、音声を出力可能な音声装置(いわゆる、スピーカ)を含んでいてもよい。例えば、出力装置25は、紙面に情報を出力してもよい。つまり、出力装置25は、紙面に所望の情報を印刷可能な印刷装置(いわゆる、プリンタ)を含んでいてもよい。
[2-2:情報処理装置2が行う情報処理動作]
[2-2:情報処理装置2が行う情報処理動作]
図3を参照して、第2実施形態における情報処理装置2が行う情報処理動作の流れを説明する。図3は、第2実施形態における情報処理装置2が行う情報処理動作の流れを示すフローチャートである。
図3に示すように、取得部211は、少なくとも人物の画像を含む当該人物に関する情報を取得する(ステップS20)。取得部211は、人物に関する情報として、人物の画像以外に、例えば、人物の画像が生成された際に取得された音声情報等を取得してもよい。
検出部212は、画像から人物の顔を含む顔領域を検出する(ステップS21)。検出部212は、画像に対して公知の顔検出処理を適用して顔領域を検出してもよい。検出部212は、顔部の特徴を有する領域を顔領域として検出してもよい。顔部の特徴を有する領域は、目、鼻、口等の顔を構成する特徴的な部位を含む領域であってもよい。検出部212が行う顔領域の検出の方法に特に制限はない。検出部212は、例えば、顔領域に特徴的なエッジやパターンの抽出に基づいて、顔領域を検出してもよい。
検出部212は、顔領域の検出を機械学習したニューラルネットワークを用いて顔領域を検出してもよい。検出部212は、畳み込みニューラルネットワーク(Convolutional neural network、以下「CNN」とも称する)で構成されていてもよい。
領域推定部213は、顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する(ステップS22)。第2実施形態において、顔領域の少なくとも一部の領域が遮蔽されている遮蔽領域は、人物が着用しているマスクによって遮蔽されているマスク領域であってもよい。領域推定部213は、人物が着用しているマスクによって、顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されているマスク領域を推定してもよい。領域推定部213は、例えば、顔領域から鼻翼及び口端等の特徴点が検出されない場合、顔領域がマスク領域を含むと判定してもよい。マスクで隠れるマスク領域は、鼻翼、口端等を含む所定の領域であってもよい。
表情推定部214は、人物に関する情報に基づいて人物の表情を推定する(ステップS23)。人物が着用しているマスクによって、顔領域の少なくとも一部の領域が遮蔽されている場合、表情推定部214は、人物に関する情報として、マスク領域以外から取得できる情報を採用してもよい。この場合、表情推定部214は、例えば、顔領域に含まれるマスク領域以外の領域から取得できる情報に基づいて人物の表情を推定してもよい。また、表情推定部214は、例えば、顔領域に含まれるマスク領域以外の領域から取得できる情報に加えて、又は替えて、顔の角度、人物の取るポーズ及び人物が行っているジェスチャのうちの少なくとも一つに基づいて人物の表情を推定してもよい。また、表情推定部214は、例えば、人物の画像から取得できる情報に加えて、又は替えて、人物の画像が生成された際に取得された音声情報に基づいて人物の表情を推定してもよい。音声情報は、発声の状態を示す情報及び発話内容を示す情報等の少なくとも一つを含んでいてもよい。発声の状態は、発声のトーン及びテンポ等の少なくとも一つを含んでいてもよい。また、表情推定部214は、例えば、人物自身の情報に加えて、又は替えて、人物の画像が生成された際の周囲の状況を示す情報に基づいて人物の表情を推定してもよい。表情推定部214は、人物に関する情報として、人物の表情の推定精度が向上する情報を採用してもよい。
表情推定部214は、例えば、所定のルールに基づいて、人物の表情を推定してもよい。例えば、顔の筋肉の動きの状態により人物の表情を推定してもよい。顔の筋肉の動きの状態は、眉が上がるという動きの状態、眉が下がるという動きの状態、及び、頬が上がるという動きの状態の少なくとも一つを含んでいてもよい。表情推定部214は、複数の顔の筋肉の動きの状態を組み合わせて人物の表情を推定してもよい。表情推定部214は、人物の表情を、喜びの表情、驚きの表情、恐怖の表情、嫌悪の表情、怒りの表情、悲しみの表情、及び、無表情の少なくとも何れかだと推定してもよい。表情推定部214は、例えば、人物の頬が所定よりも上がっている場合、喜びの表情であると推定してもよい。
また、第2実施形態では、顔領域の少なくとも一部の領域が遮蔽されている遮蔽領域は、顔が着用しているマスクによって遮蔽されているマスク領域である場合を例に挙げたが、遮蔽領域は、例えば、サングラスによって遮蔽されている領域であってもよい。この場合、表情推定部214は、口元の状態から人物の表情を推定してもよい。口元の状態は、例えば、上唇が上がるという状態、口角が上がるという状態、えくぼが生じるという状態、及び、顎が上がるという状態等の少なくとも一つを含んでいてもよい。
推定表情画像生成部215は、表情推定部214により推定された表情に応じた、遮蔽領域に対応する領域の推定表情画像を生成する(ステップS24)。
合成画像生成部216は、画像、及び推定表情画像に基づき合成画像を生成する。合成画像生成部216は、少なくとも遮蔽領域が前記推定表情画像により隠れるように合成画像を生成してもよい。すなわち、合成画像生成部216は、人物の顔領域の遮蔽領域を、推定された人物の表情に応じた画像によって補完してもよい。
[2-3:情報処理装置2の技術的効果]
[2-3:情報処理装置2の技術的効果]
第2実施形態における情報処理装置2は、画像、及び推定された人物の表情に応じたマスク領域の画像に基づき合成画像を生成するので、人物がマスクを着用している場合にも、人物の口元が遮蔽されていない、人物の表情に応じた画像を取得することができる。
昨今、衛生意識の変化から、特に人の多い場所においては、マスクの着用が推奨されている。しかしながら、人の多い場所、例えば観光地等で記念写真等を撮影すると、マスクの着用の顔ばかりが写ることになり、味気ない写真となってしまい残念である。つまり、人の多い場所等のマスクを外すことが躊躇われる場所においても、マスク非着用の自然な顔画像の記録の需要がある。
これに対し、第2実施形態における情報処理装置2は、人物がマスクを着用している場合に、推定された人物の表情に応じた、マスク領域に対応する領域の画像に基づき、マスク非着用の合成画像を生成するので、マスク非着用の自然な顔画像を提供することができる。したがって、人の多い場所で撮影した写真において、マスク非着用の自然な顔画像が含まれることになり、魅力のある写真を記録することができる。
[3:第3実施形態]
[3:第3実施形態]
情報処理装置、情報処理方法、及び記録媒体の第3実施形態について説明する。以下では、情報処理装置、情報処理方法、及び記録媒体の第3実施形態が適用された情報処理装置3を用いて、情報処理装置、情報処理方法、及び記録媒体の第3実施形態について説明する。
第3実施形態において、顔が着用しているマスクによって、顔領域の少なくとも一部の領域が遮蔽されている場合、表情推定部214は、顔領域に含まれるマスク領域以外の領域として、顔領域における人物の目の周囲の領域に基づいて前記人物の表情を推定してもよい。表情推定部214は、顔領域に含まれる目の周囲の領域から取得できる情報に基づいて人物の表情を推定してもよい。
表情推定部214は、例えば、顔に含まれる両目の間の距離に基づいて、顔領域から、目の周囲の領域を抽出してもよい。また、表情推定部214は、顔に含まれる鼻背の下部の両側部に基づいて、顔領域から、目の周囲の領域を抽出してもよい。
また、表情推定部214は、顔領域に含まれる目の周囲の領域情報に加えて、例えば、顔の角度、人物の取るポーズ/ジェスチャに基づいて人物の表情を推定してもよい。また、表情推定部214は、顔領域に含まれる目の周囲の領域情報に加えて、例えば、人物の画像が生成された際に取得された音声情報に基づいて人物の表情を推定してもよい。また、表情推定部214は、顔領域に含まれる目の周囲の領域情報に加えて、人物の画像が生成された際の周囲の状況を示す情報に基づいて人物の表情を推定してもよい。第2実施形態と同様に、表情推定部214は、人物に関する情報として、人物の表情の推定精度が向上する情報を採用してもよい。
[情報処理装置3の技術的効果]
[情報処理装置3の技術的効果]
第3実施形態における情報処理装置3は、目元周辺の画像情報からマスクの下の顔の表情を推定し、適切な表情のマスク非着用の顔画像を合成することができる。
[4:第4実施形態]
[4:第4実施形態]
情報処理装置、情報処理方法、及び記録媒体の第4実施形態について説明する。以下では、情報処理装置、情報処理方法、及び記録媒体の第4実施形態が適用された情報処理装置4を用いて、情報処理装置、情報処理方法、及び記録媒体の第4実施形態について説明する。
[4-1:情報処理装置4の構成]
[4-1:情報処理装置4の構成]
図4を参照しながら、第4実施形態における情報処理装置4の構成について説明する。図4は、第4実施形態における情報処理装置4の構成を示すブロック図である。
図4に示すように、第4実施形態における情報処理装置4は、第2実施形態における情報処理装置2、及び第3実施形態における情報処理装置3と同様に、演算装置21と、記憶装置22とを備えている。更に、情報処理装置4は、第2実施形態における情報処理装置2、及び第3実施形態における情報処理装置3と同様に、通信装置23と、入力装置24と、出力装置25とを備えていてもよい。但し、情報処理装置4は、通信装置23、入力装置24及び出力装置25のうちの少なくとも1つを備えていなくてもよい。第4実施形態における情報処理装置4は、第2実施形態における情報処理装置2、及び第3実施形態における情報処理装置3と比較して、演算装置21が学習部417を備え、学習動作をする点において異なる。情報処理装置4のその他の特徴は、第2実施形態における情報処理装置2、及び第3実施形態における情報処理装置3の少なくとも一方のその他の特徴と同一であってもよい。
[4-2:情報処理装置4が行う学習動作]
[4-2:情報処理装置4が行う学習動作]
図5を参照して、第4実施形態における情報処理装置4が行う情報処理動作の流れを説明する。図5は、第4実施形態における情報処理装置4が行う情報処理動作の流れを示すフローチャートである。
図5に示すように、取得部211は、所定の表情のサンプル人物に関するサンプル情報と、所定の表情を示す表情ラベルとを含む学習情報を取得する(ステップS40)。所定の表情は、喜びの表情、驚きの表情、恐怖の表情、嫌悪の表情、怒りの表情、悲しみの表情、及び、無表情の少なくとも何れかを含んでいてもよい。表情ラベルは、これらの各々の表情を示すラベルであってもよい。さらに、各々の表情の複数段階の強度毎のラベルを設けてもよい。
取得部211は、記憶装置22から、記憶装置22に格納されている学習情報を取得してもよい。取得部211は、通信装置23を介して、外部の装置から学習情報を取得してもよい。
検出部212は、画像から人物の顔を含む顔領域を検出する(ステップS21)。表情推定部214は、サンプル情報に基づいてサンプル人物の表情を推定する(ステップS41)。
学習部417は、表情ラベルと表情推定部214によるサンプル人物の表情の推定結果とに基づいて、表情推定部214に人物の表情の推定方法の学習を行わせる(ステップS42)。学習部417は、顔領域の少なくとも一部の領域が遮蔽されている人物の表情を推定することのできる表情推定モデルを構築してもよい。表情推定部214は、表情推定モデルを用いて、人物に関する情報に基づいて、顔領域の少なくとも一部の領域が遮蔽されている人物の表情を推定してもよい。表情推定部214は、学習済みの表情推定モデルを用いることにより、精度よく、顔領域の少なくとも一部の領域が遮蔽されている人物の表情を推定することができる。
表情推定モデルの動作を規定するパラメータは、記憶装置22に記憶されてもよい。表情推定モデルの動作を規定するパラメータは、学習動作によって更新されるパラメータであってもよく、例えば、ニューラルネットワークの重みやバイアス等であってもよい。
マスク領域に遮蔽されている顔の表情の学習に用いる画像は、マスク領域以外の人物の状態がわかればよい。つまり、学習は、マスク領域以外の領域を用いて行ってもよい。すなわち、学習に用いる画像は、マスクを着用している画像であってもよく、マスクを着用していない画像であってもよい。
[4-3:情報処理装置4の技術的効果]
[4-3:情報処理装置4の技術的効果]
第4実施形態における情報処理装置4は、機械学習により、精度のよい人物の表情の推定を実現することができる。
[5:第5実施形態]
[5:第5実施形態]
情報処理装置、情報処理方法、及び記録媒体の第5実施形態について説明する。以下では、情報処理装置、情報処理方法、及び記録媒体の第5実施形態が適用された情報処理装置5を用いて、情報処理装置、情報処理方法、及び記録媒体の第5実施形態について説明する。
第5実施形態に係る情報処理装置5について、図6を参照して説明する。なお、第5実施形態は、上述した第2実施形態から第4実施形態における推定表情画像の生成の際の動作(即ち、図3のステップS24に対応する動作)の具体例を説明するものである。第5実施形態において、記憶装置22には、様々な表情の人物の画像であって、少なくとも遮蔽領域が遮蔽されていない人物の画像が、予め登録されていてもよい。推定表情画像の生成の際の動作の他の部分については第2実施形態から第4実施形態の少なくとも1つと同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。
[5-1:情報処理装置5が行う推定表情画像生成動作]
[5-1:情報処理装置5が行う推定表情画像生成動作]
図6を参照しながら、第5実施形態に係る情報処理装置5による推定表情画像生成(即ち、推定表情画像を生成する際の動作)の流れについて説明する。図6は、第5実施形態に係る情報処理装置5による推定表情画像生成動作の流れを示すフローチャートである。
図6に示すように、推定表情画像生成部215は、処理対象の人物が誰であるか推定する(ステップS50)。推定表情画像生成部215は、検出部212が検出した顔領域を用いた顔認証を行い、処理対象の人物が誰であるか推定してもよい。
推定表情画像生成部215は、予め登録されている少なくとも遮蔽領域が遮蔽されていない人物の画像のうち、処理対象の人物(以下、「本人」と称する場合がある)の画像と推定される画像を探索及び取得する(ステップS51)。推定表情画像生成部215は、ステップS51において、本人の画像が取得できたか否かを判定する(ステップS52)。
ステップS51において、本人の画像が取得できた場合(ステップS52:Yes)、推定表情画像生成部215は、ステップS23において推定された表情に対応する表情の本人の画像が有るか否かを判定する(ステップS53)。推定された表情に対応する表情は、推定された表情に一致する、又は類似する表情を含んでいてもよい。
ステップS23において推定された表情に対応する表情の本人の画像が有る場合(ステップS53:Yes)、推定表情画像生成部215は、表情推定部214が推定した表情に対応する表情の予め登録されている本人の画像に基づいて、推定表情画像を生成する(ステップS54)。推定表情画像生成部215は、表情推定部214が推定した表情に対応する表情の予め登録されている本人の画像を選択し、画像の明るさ、人物の姿勢等を補正して、推定表情画像を生成してもよい。
ステップS23において推定された表情に対応する表情の本人の画像が無い場合(ステップS53:No)、推定表情画像生成部215は、予め登録されている、少なくとも遮蔽領域が遮蔽されていない本人の画像に基づいて、推定表情画像を生成する(ステップS55)。表情推定部214が推定した表情に対応する表情の予め登録されている本人の画像が無い場合、推定表情画像生成部215は、本人の任意の画像を選択し、画像の表情を表情推定部214が推定した表情に対応する表情に変換して、推定表情画像を生成してもよい。推定表情画像生成部215は、例えば敵対的生成ネットワーク(GAN:Generative Adversarial Network)等の深層学習の技術を適用して、画像の表情を表情推定部214が推定した表情に対応する表情の画像を、推定表情画像として生成してもよい。
ステップS51において、本人の画像が取得できなかった場合(ステップS52:No)、推定表情画像生成部215は、例えばGAN等の深層学習の技術を適用して、画像の表情を表情推定部214が推定した表情に対応する表情の画像を、推定表情画像として生成してもよい(ステップS56)。
なお、本人画像は、1人の人物につき1画像のみが登録されていてもよい。すなわち、情画像生成部215は、ステップS53の動作を省略し、ステップS55の動作を実施してもよい。また、推定表情画像生成部215は、本人画像の有無にかかわらず、例えばGAN等の深層学習の技術を適用して、推定表情画像を生成してもよい。すなわち、情画像生成部215は、ステップS50からステップS52の動作を省略し、ステップS56の動作を実施してもよい。
また、本実施形態において生成する画像は、人物認証の使用を目的としなくてもよい。したがって、推定表情画像生成部215は、個人性よりも、画像が生成された際の人物の状況に合った表情の顔画像を生成してもよい。
[5-2:情報処理装置5の技術的効果]
[5-2:情報処理装置5の技術的効果]
第5実施形態における情報処理装置5は、予め登録されている、少なくとも遮蔽領域が遮蔽されていない人物の画像に基づいて、前記推定表情画像を生成するので、本人らしい、画像を得ることができる。さらに、情報処理装置5は、推定した表情に対応する表情の少なくとも遮蔽領域が遮蔽されていない人物の画像が予め登録されていた場合には、予め登録されている当該画像に基づいて、推定表情画像を生成するので、より本人らしい、画像を得ることができる。
[6:第6実施形態]
[6:第6実施形態]
情報処理装置、情報処理方法、及び記録媒体の第6実施形態について説明する。以下では、情報処理装置、情報処理方法、及び記録媒体の第6実施形態が適用された情報処理装置6を用いて、情報処理装置、情報処理方法、及び記録媒体の第6実施形態について説明する。
[6-1:情報処理装置6の構成]
[6-1:情報処理装置6の構成]
図7を参照しながら、第6実施形態における情報処理装置6の構成について説明する。図7は、第6実施形態における情報処理装置6の構成を示すブロック図である。
図7に示すように、第6実施形態における情報処理装置6は、第2実施形態における情報処理装置2から第5実施形態における情報処理装置5と同様に、演算装置21と、記憶装置22とを備えている。更に、情報処理装置6は、第2実施形態における情報処理装置2から第5実施形態における情報処理装置5と同様に、通信装置23と、入力装置24と、出力装置25とを備えていてもよい。但し、情報処理装置6は、通信装置23、入力装置24及び出力装置25のうちの少なくとも1つを備えていなくてもよい。第6実施形態における情報処理装置6は、第2実施形態における情報処理装置2から第6実施形態における情報処理装置5と比較して、演算装置21が表示制御部618を備える点で異なる。情報処理装置6のその他の特徴は、第2実施形態における情報処理装置2から第5実施形態における情報処理装置5の少なくとも1つのその他の特徴と同一であってもよい。
[6-2:情報処理装置6が行う情報処理動作]
[6-2:情報処理装置6が行う情報処理動作]
表示制御部618は、合成画像生成部216が合成画像を生成した場合、画像に替えて合成画像を表示させ、合成画像生成部216が生成した画像であることを示す情報を合成画像に重畳して表示させる。例えば図8(a)に例示すように、表示制御部618は、合成画像生成部216が合成画像を生成した場合、表示機構Dの右下に「マスク領域補完画像」等の文字を表示させてもよい。または、例えば図8(b)に例示すように、表示制御部618は、合成画像生成部216が合成画像を生成した場合、未合成の画像におけるマスク領域に対応する領域に、半透明のマスクを重畳させて表示させてもよい。
[6-3:情報処理装置6の技術的効果]
[6-3:情報処理装置6の技術的効果]
第6実施形態における情報処理装置6は、合成画像を表示する場合に、合成画像であることを示す情報を合成画像に重畳して表示させるので、利用者は、画像が合成された画像なのか否かを容易に見分けることができる。
[7:第7実施形態]
[7:第7実施形態]
オンライン会議システムの第7実施形態について説明する。以下では、オンライン会議システムの第7実施形態が適用されたオンライン会議システム700を用いて、オンライン会議システムの第7実施形態について説明する。
[7-1:オンライン会議システム700の構成]
図9に例示するように、第7実施形態におけるオンライン会議システム700は、オンライン会議制御装置7と、会議を行う複数の端末70(図9においては、端末70-1、端末70-2、端末70-3、・・・、端末70-Nを例示している。)を含んでいてもよい。オンライン会議制御装置7は、複数の端末70と通信可能である。複数の端末70は、オンライン会議を行ってもよい。複数の端末70は、ウェブ会議を行ってもよい。
[7-2:オンライン会議制御装置7の構成]
[7-1:オンライン会議システム700の構成]
図9に例示するように、第7実施形態におけるオンライン会議システム700は、オンライン会議制御装置7と、会議を行う複数の端末70(図9においては、端末70-1、端末70-2、端末70-3、・・・、端末70-Nを例示している。)を含んでいてもよい。オンライン会議制御装置7は、複数の端末70と通信可能である。複数の端末70は、オンライン会議を行ってもよい。複数の端末70は、ウェブ会議を行ってもよい。
[7-2:オンライン会議制御装置7の構成]
図10を参照しながら、オンライン会議制御装置7の構成について説明する。図10は、第7実施形態におけるオンライン会議制御装置7の構成を示すブロック図である。
図10に示すように、オンライン会議制御装置7は、演算装置71と、記憶装置72とを備えている。更に、オンライン会議制御装置7は、通信装置73と、入力装置74と、出力装置75とを備えていてもよい。但し、オンライン会議制御装置7は、通信装置73、入力装置74及び出力装置75のうちの少なくとも1つを備えていなくてもよい。演算装置71と、記憶装置72と、通信装置73と、入力装置74と、出力装置75とは、データバス76を介して接続されていてもよい。
演算装置71は、例えば、CPU(Central Processing Unit)、GPU(Graphics Proecssing Unit)及びFPGA(Field Programmable Gate Array)のうちの少なくとも1つを含む。演算装置71は、コンピュータプログラムを読み込む。例えば、演算装置71は、記憶装置72が記憶しているコンピュータプログラムを読み込んでもよい。例えば、演算装置71は、コンピュータで読み取り可能であって且つ一時的でない記録媒体が記憶しているコンピュータプログラムを、オンライン会議制御装置7が備える図示しない記録媒体読み取り装置(例えば、後述する入力装置74)を用いて読み込んでもよい。演算装置71は、通信装置73(或いは、その他の通信装置)を介して、オンライン会議制御装置7の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい(つまり、ダウンロードしてもよい又は読み込んでもよい)。演算装置71は、読み込んだコンピュータプログラムを実行する。その結果、演算装置71内には、オンライン会議制御装置7が行うべき動作を実行するための論理的な機能ブロックが実現される。つまり、演算装置71は、オンライン会議制御装置7が行うべき動作(言い換えれば、処理)を実行するための論理的な機能ブロックを実現するためのコントローラとして機能可能である。
図10には、オンライン会議制御動作を実行するために演算装置71内に実現される論理的な機能ブロックの一例が示されている。図10に示すように、演算装置71内には、後述する付記に記載された「取得手段」の一具体例である取得部711と、後述する付記に記載された「検出手段」の一具体例である検出部712と、後述する付記に記載された「推定手段」の一具体例である領域推定部713と、「表情推定手段」の一具体例である表情推定部714と、後述する付記に記載された「推定表情画像生成手段」の一具体例である推定表情画像生成部715と、後述する付記に記載された「合成画像生成手段」の一具体例である合成画像生成部716と、「出力制御手段」の一具体例である出力制御部719とが実現される。取得部711、検出部712、領域推定部713、表情推定部714、推定表情画像生成部715、合成画像生成部716、及び出力制御部719の夫々の動作については、図11を参照しながら後述する。
記憶装置72は、所望のデータを記憶可能である。例えば、記憶装置72は、演算装置71が実行するコンピュータプログラムを一時的に記憶していてもよい。記憶装置72は、演算装置71がコンピュータプログラムを実行している場合に演算装置71が一時的に使用するデータを一時的に記憶してもよい。記憶装置72は、オンライン会議制御装置7が長期的に保存するデータを記憶してもよい。尚、記憶装置72は、RAM(Random Access Memory)、ROM(Read Only Memory)、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)及びディスクアレイ装置のうちの少なくとも1つを含んでいてもよい。つまり、記憶装置72は、一時的でない記録媒体を含んでいてもよい。
通信装置73は、不図示の通信ネットワークを介して、オンライン会議制御装置7の外部の装置と通信可能である。オンライン会議制御装置7は、通信装置73を介して複数の端末70の各々と通信可能であってもよい。
入力装置74は、オンライン会議制御装置7の外部からのオンライン会議制御装置7に対する情報の入力を受け付ける装置である。例えば、入力装置74は、オンライン会議制御装置7のオペレータが操作可能な操作装置(例えば、キーボード、マウス及びタッチパネルのうちの少なくとも1つ)を含んでいてもよい。例えば、入力装置74はオンライン会議制御装置7に対して外付け可能な記録媒体にデータとして記録されている情報を読み取り可能な読取装置を含んでいてもよい。
出力装置75は、オンライン会議制御装置7の外部に対して情報を出力する装置である。例えば、出力装置75は、情報を画像として出力してもよい。つまり、出力装置75は、出力したい情報を示す画像を表示可能な表示装置(いわゆる、ディスプレイ)を含んでいてもよい。例えば、出力装置75は、情報を音声として出力してもよい。つまり、出力装置75は、音声を出力可能な音声装置(いわゆる、スピーカ)を含んでいてもよい。例えば、出力装置75は、紙面に情報を出力してもよい。つまり、出力装置75は、紙面に所望の情報を印刷可能な印刷装置(いわゆる、プリンタ)を含んでいてもよい。
[7-3:オンライン会議制御装置7が行うオンライン会議制御動作]
[7-3:オンライン会議制御装置7が行うオンライン会議制御動作]
図11を参照して、第7実施形態におけるオンライン会議制御装置7が行うオンライン会議制御動作の流れを説明する。図11は、第7実施形態におけるオンライン会議制御装置7が行うオンライン会議制御動作の流れを示すフローチャートである。
図11に示すように、取得部711は、会議を行う複数の端末70のうちの少なくとも1台の端末70から、少なくとも人物の画像を含む当該人物に関する情報を取得する(ステップS70)。取得部711は、少なくとも端末70を操作する人物の画像を含む当該人物に関する情報を取得してもよい。取得部711は、端末70を操作する人物の動画を含む当該人物に関する情報を取得してもよい。
検出部712は、画像から人物の顔を含む顔領域を検出する(ステップS71)。領域推定部713は、顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する(ステップS72)。表情推定部714は、人物に関する情報に基づいて人物の表情を推定する(ステップS73)。推定表情画像生成部715は、表情推定部714により推定された表情に応じた、遮蔽領域に対応する領域の推定表情画像を生成する(ステップS74)。合成画像生成部716は、画像、及び推定表情画像に基づき合成画像を生成する(ステップS75)。
なお、検出部712が行う動作は、第2実施形態から第6実施形態における検出部212の少なくとも1つが行う動作と同様であってもよい。また、領域推定部713が行う動作は、第2実施形態から第6実施形態における領域推定部213の少なくとも1つが行う動作と同様であってもよい。また、表情推定部714が行う動作は、第2実施形態から第6実施形態における表情推定部214の少なくとも1つが行う動作と同様であってもよい。また、推定表情画像生成部715が行う動作は、第2実施形態から第6実施形態における推定表情画像生成部215の少なくとも1つが行う動作と同様であってもよい。また、合成画像生成部716が行う動作は、第2実施形態から第6実施形態における合成画像生成部216の少なくとも1つが行う動作と同様であってもよい。
出力制御部719は、合成画像生成部716が合成画像を生成した場合、画像に替えて合成画像を複数の端末70に出力する(ステップS76)。取得部711が端末70を操作する人物の動画を取得する場合、出力制御部719は、画像又は合成画像を、複数の端末70にリアルタイム出力してもよい。または、出力制御部719は、複数の端末70に合成画像を出力する場合、複数の端末70に画像を出力する場合と比較して遅く出力してもよい。出力制御部719は、複数の端末70に合成画像を出力する場合、複数の端末70に画像を出力する場合と比較して、例えば数秒間等の遅れを伴って出力してもよい。
なお、第2実施形態における情報処理装置2から第6実施形態における情報処理装置6の少なくとも1つにおいても、合成画像の生成動作をリアルタイムで実施してもよい。または、第2実施形態における情報処理装置2から第6実施形態における情報処理装置6の少なくとも1つにおいても、例えば数秒間等のタイムラグが生じてもよい。
また、取得部711が端末70を操作する人物の静止画を取得する場合、学習部717はオフラインで合成画像を生成し、出力制御部719は、オフラインで生成された合成画像を複数の端末70に出力してもよい。
なお、取得部711が、人物の動画を含む当該人物に関する情報を取得した場合、領域推定部713は、フレーム毎に推定処理を実施しなくてもよい。すなわち、領域推定部713は、所定のフレーム数毎に推定処理を実施してもよい。すなわち、表情推定部714は、所定のフレーム数の間は同じ表情に応じた推定表情画像を生成してもよい。
さらに、第7実施形態におけるオンライン会議制御装置7は、演算装置71が学習部717を備えていてもよい。すなわち、学習部717は、第4実施形態の学習部417と同様に、表情ラベルと表情推定部714によるサンプル人物の表情の推定結果とに基づいて、表情推定部714に人物の表情の推定方法の学習を行わせてもよい。
さらに、第7実施形態におけるオンライン会議制御装置7は、演算装置71が表示制御部718を備えていてもよい。すなわち、表示制御部718は、第6実施形態の表示制御部618と同様に、合成画像生成部716が合成画像を生成した場合、画像に替えて合成画像を表示させ、合成画像生成部716が生成した画像であることを示す情報を合成画像に重畳して表示させてもよい。
[7-4:オンライン会議制御装置7の技術的効果]
[7-4:オンライン会議制御装置7の技術的効果]
第7実施形態におけるオンライン会議制御装置7は、画像、及び推定された人物の表情に応じたマスク領域の画像に基づき合成画像を生成するので、人物がマスクを着用している場合にも、人物の口元が遮蔽されていない、人物の表情に応じた画像を取得することができる。
昨今、衛生意識の変化から、特に人の多い場所においては、マスクの着用が推奨されている。オンラインのコミュニケーションには、マスク非着用で参加することを希望するも、サテライトオフィス等の共用の場所から参加する場合には、マスクの着用が推奨されてしまう。つまり、人の多い場所等のマスクを外すことが躊躇われる場所においても、マスク非着用の自然な顔画像の配信の需要がある。
これに対し、第7実施形態におけるオンライン会議制御装置7は、人物がマスクを着用している場合に、推定された人物の表情に応じた、マスク領域に対応する領域の画像に基づき、マスク非着用の合成画像を生成するので、マスク非着用の自然な顔画像を提供することができる。したがって、サテライトオフィス等の共用の場所から参加する場合にも、マスク非着用の自然な顔画像を配信することができる。
[8:付記]
[8:付記]
以上説明した実施形態に関して、更に以下の付記を開示する。
[付記1]
少なくとも人物の画像を含む当該人物に関する情報を取得する取得手段と、
前記画像から前記人物の顔を含む顔領域を検出する検出手段と、
前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する推定手段と、
前記人物に関する情報に基づいて前記人物の表情を推定する表情推定手段と、
前記表情推定手段により推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成する推定表情画像生成手段と、
前記画像、及び前記推定表情画像に基づき合成画像を生成する合成画像生成手段と
を備える情報処理装置。
[付記2]
前記顔領域の少なくとも一部の領域が遮蔽されている遮蔽領域は、前記人物が着用しているマスクによって遮蔽されているマスク領域である
付記1に記載の情報処理装置。
[付記3]
前記表情推定手段は、前記顔領域における前記人物の目の周囲の領域に基づいて前記人物の表情を推定する
付記2に記載の情報処理装置。
[付記4]
前記取得手段は、所定の表情のサンプル人物に関するサンプル情報と、前記所定の表情を示す表情ラベルとを含む学習情報を取得し、
前記表情推定手段は、前記サンプル情報に基づいて前記サンプル人物の表情を推定し、
前記表情ラベルと前記表情推定手段による前記サンプル人物の表情の推定結果とに基づいて、前記表情推定手段に前記人物の表情の推定方法の学習を行わせる学習手段を更に備える
付記1から3の何れか一項に記載の情報処理装置。
[付記5]
前記推定表情画像生成手段は、予め登録されている、少なくとも前記遮蔽領域が遮蔽されていない前記人物の画像に基づいて、前記推定表情画像を生成する
付記1から3の何れか一項に記載の情報処理装置。
[付記6]
前記推定表情画像生成手段は、前記表情推定手段が推定した表情に対応する表情の予め登録されている前記人物の画像に基づいて、前記推定表情画像を生成する
付記5に記載の情報処理装置。
[付記7]
前記合成画像生成手段が前記合成画像を生成した場合、前記画像に替えて前記合成画像を表示させ、前記合成画像生成手段が生成した画像であることを示す情報を前記合成画像に重畳して表示させる表示制御手段を更に備える
付記1から3の何れか一項に記載の情報処理装置。
[付記8]
会議を行う複数の端末のうちの少なくとも1台の端末から、少なくとも人物の画像を含む当該人物に関する情報を取得する取得手段と、
前記画像から前記人物の顔を含む顔領域を検出する検出手段と、
前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する推定手段と、
前記人物に関する情報に基づいて前記人物の表情を推定する表情推定手段と、
前記表情推定手段により推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成する推定表情画像生成手段と、
前記画像、及び前記推定表情画像に基づき合成画像を生成する合成画像生成手段と、
前記合成画像生成手段が前記合成画像を生成した場合、前記画像に替えて前記合成画像を前記複数の端末に出力する出力制御手段と
を備えるオンライン会議システム。
[付記9]
少なくとも人物の画像を含む当該人物に関する情報を取得し、
前記画像から前記人物の顔を含む顔領域を検出し、
前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定し、
前記人物に関する情報に基づいて前記人物の表情を推定し、
推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成し、
前記画像、及び前記推定表情画像に基づき合成画像を生成する
情報処理方法。
[付記10]
コンピュータに、
少なくとも人物の画像を含む当該人物に関する情報を取得し、
前記画像から前記人物の顔を含む顔領域を検出し、
前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定し、
前記人物に関する情報に基づいて前記人物の表情を推定し、
推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成し、
前記画像、及び前記推定表情画像に基づき合成画像を生成する
情報処理方法を実行させるためのコンピュータプログラムが記録されている記録媒体。
[付記1]
少なくとも人物の画像を含む当該人物に関する情報を取得する取得手段と、
前記画像から前記人物の顔を含む顔領域を検出する検出手段と、
前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する推定手段と、
前記人物に関する情報に基づいて前記人物の表情を推定する表情推定手段と、
前記表情推定手段により推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成する推定表情画像生成手段と、
前記画像、及び前記推定表情画像に基づき合成画像を生成する合成画像生成手段と
を備える情報処理装置。
[付記2]
前記顔領域の少なくとも一部の領域が遮蔽されている遮蔽領域は、前記人物が着用しているマスクによって遮蔽されているマスク領域である
付記1に記載の情報処理装置。
[付記3]
前記表情推定手段は、前記顔領域における前記人物の目の周囲の領域に基づいて前記人物の表情を推定する
付記2に記載の情報処理装置。
[付記4]
前記取得手段は、所定の表情のサンプル人物に関するサンプル情報と、前記所定の表情を示す表情ラベルとを含む学習情報を取得し、
前記表情推定手段は、前記サンプル情報に基づいて前記サンプル人物の表情を推定し、
前記表情ラベルと前記表情推定手段による前記サンプル人物の表情の推定結果とに基づいて、前記表情推定手段に前記人物の表情の推定方法の学習を行わせる学習手段を更に備える
付記1から3の何れか一項に記載の情報処理装置。
[付記5]
前記推定表情画像生成手段は、予め登録されている、少なくとも前記遮蔽領域が遮蔽されていない前記人物の画像に基づいて、前記推定表情画像を生成する
付記1から3の何れか一項に記載の情報処理装置。
[付記6]
前記推定表情画像生成手段は、前記表情推定手段が推定した表情に対応する表情の予め登録されている前記人物の画像に基づいて、前記推定表情画像を生成する
付記5に記載の情報処理装置。
[付記7]
前記合成画像生成手段が前記合成画像を生成した場合、前記画像に替えて前記合成画像を表示させ、前記合成画像生成手段が生成した画像であることを示す情報を前記合成画像に重畳して表示させる表示制御手段を更に備える
付記1から3の何れか一項に記載の情報処理装置。
[付記8]
会議を行う複数の端末のうちの少なくとも1台の端末から、少なくとも人物の画像を含む当該人物に関する情報を取得する取得手段と、
前記画像から前記人物の顔を含む顔領域を検出する検出手段と、
前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する推定手段と、
前記人物に関する情報に基づいて前記人物の表情を推定する表情推定手段と、
前記表情推定手段により推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成する推定表情画像生成手段と、
前記画像、及び前記推定表情画像に基づき合成画像を生成する合成画像生成手段と、
前記合成画像生成手段が前記合成画像を生成した場合、前記画像に替えて前記合成画像を前記複数の端末に出力する出力制御手段と
を備えるオンライン会議システム。
[付記9]
少なくとも人物の画像を含む当該人物に関する情報を取得し、
前記画像から前記人物の顔を含む顔領域を検出し、
前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定し、
前記人物に関する情報に基づいて前記人物の表情を推定し、
推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成し、
前記画像、及び前記推定表情画像に基づき合成画像を生成する
情報処理方法。
[付記10]
コンピュータに、
少なくとも人物の画像を含む当該人物に関する情報を取得し、
前記画像から前記人物の顔を含む顔領域を検出し、
前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定し、
前記人物に関する情報に基づいて前記人物の表情を推定し、
推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成し、
前記画像、及び前記推定表情画像に基づき合成画像を生成する
情報処理方法を実行させるためのコンピュータプログラムが記録されている記録媒体。
この開示は、請求の範囲及び明細書全体から読み取ることのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴う情報処理装置、情報処理方法、及び記録媒体もまたこの開示の技術思想に含まれる。
1,2,3,4,5,6 情報処理装置
11,211,711 取得部
12,212,712 検出部
13,213,713 領域推定部
14,214,714 表情推定部
15,215,715 推定表情画像生成部
16,216,716 合成画像生成部
417,717 学習部
618,718 表示制御部
700 オンライン会議システム
7 オンライン会議制御装置
70 端末
719 出力制御部
11,211,711 取得部
12,212,712 検出部
13,213,713 領域推定部
14,214,714 表情推定部
15,215,715 推定表情画像生成部
16,216,716 合成画像生成部
417,717 学習部
618,718 表示制御部
700 オンライン会議システム
7 オンライン会議制御装置
70 端末
719 出力制御部
Claims (10)
- 少なくとも人物の画像を含む当該人物に関する情報を取得する取得手段と、
前記画像から前記人物の顔を含む顔領域を検出する検出手段と、
前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する推定手段と、
前記人物に関する情報に基づいて前記人物の表情を推定する表情推定手段と、
前記表情推定手段により推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成する推定表情画像生成手段と、
前記画像、及び前記推定表情画像に基づき合成画像を生成する合成画像生成手段と
を備える情報処理装置。 - 前記顔領域の少なくとも一部の領域が遮蔽されている遮蔽領域は、前記人物が着用しているマスクによって遮蔽されているマスク領域である
請求項1に記載の情報処理装置。 - 前記表情推定手段は、前記顔領域における前記人物の目の周囲の領域に基づいて前記人物の表情を推定する
請求項2に記載の情報処理装置。 - 前記取得手段は、所定の表情のサンプル人物に関するサンプル情報と、前記所定の表情を示す表情ラベルとを含む学習情報を取得し、
前記表情推定手段は、前記サンプル情報に基づいて前記サンプル人物の表情を推定し、
前記表情ラベルと前記表情推定手段による前記サンプル人物の表情の推定結果とに基づいて、前記表情推定手段に前記人物の表情の推定方法の学習を行わせる学習手段を更に備える
請求項1から3の何れか一項に記載の情報処理装置。 - 前記推定表情画像生成手段は、予め登録されている、少なくとも前記遮蔽領域が遮蔽されていない前記人物の画像に基づいて、前記推定表情画像を生成する
請求項1から3の何れか一項に記載の情報処理装置。 - 前記推定表情画像生成手段は、前記表情推定手段が推定した表情に対応する表情の予め登録されている前記人物の画像に基づいて、前記推定表情画像を生成する
請求項5に記載の情報処理装置。 - 前記合成画像生成手段が前記合成画像を生成した場合、前記画像に替えて前記合成画像を表示させ、前記合成画像生成手段が生成した画像であることを示す情報を前記合成画像に重畳して表示させる表示制御手段を更に備える
請求項1から3の何れか一項に記載の情報処理装置。 - 会議を行う複数の端末のうちの少なくとも1台の端末から、少なくとも人物の画像を含む当該人物に関する情報を取得する取得手段と、
前記画像から前記人物の顔を含む顔領域を検出する検出手段と、
前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する推定手段と、
前記人物に関する情報に基づいて前記人物の表情を推定する表情推定手段と、
前記表情推定手段により推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成する推定表情画像生成手段と、
前記画像、及び前記推定表情画像に基づき合成画像を生成する合成画像生成手段と、
前記合成画像生成手段が前記合成画像を生成した場合、前記画像に替えて前記合成画像を前記複数の端末に出力する出力制御手段と
を備えるオンライン会議システム。 - 少なくとも人物の画像を含む当該人物に関する情報を取得し、
前記画像から前記人物の顔を含む顔領域を検出し、
前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定し、
前記人物に関する情報に基づいて前記人物の表情を推定し、
推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成し、
前記画像、及び前記推定表情画像に基づき合成画像を生成する
情報処理方法。 - コンピュータに、
少なくとも人物の画像を含む当該人物に関する情報を取得し、
前記画像から前記人物の顔を含む顔領域を検出し、
前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定し、
前記人物に関する情報に基づいて前記人物の表情を推定し、
推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成し、
前記画像、及び前記推定表情画像に基づき合成画像を生成する
情報処理方法を実行させるためのコンピュータプログラムが記録されている記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2022/020343 WO2023223377A1 (ja) | 2022-05-16 | 2022-05-16 | 情報処理装置、情報処理方法、及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2022/020343 WO2023223377A1 (ja) | 2022-05-16 | 2022-05-16 | 情報処理装置、情報処理方法、及び記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023223377A1 true WO2023223377A1 (ja) | 2023-11-23 |
Family
ID=88834798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2022/020343 WO2023223377A1 (ja) | 2022-05-16 | 2022-05-16 | 情報処理装置、情報処理方法、及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2023223377A1 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017534096A (ja) * | 2014-08-04 | 2017-11-16 | フェイスブック,インク. | 仮想現実環境において遮られた顔部分を再構築する方法およびシステム |
JP2018151919A (ja) * | 2017-03-14 | 2018-09-27 | オムロン株式会社 | 画像解析装置、画像解析方法、及び画像解析プログラム |
JP2020048149A (ja) * | 2018-09-21 | 2020-03-26 | ヤマハ株式会社 | 画像処理装置、カメラ装置、および画像処理方法 |
JP2021149961A (ja) * | 2020-03-23 | 2021-09-27 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 情報処理方法及び情報処理装置 |
-
2022
- 2022-05-16 WO PCT/JP2022/020343 patent/WO2023223377A1/ja unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017534096A (ja) * | 2014-08-04 | 2017-11-16 | フェイスブック,インク. | 仮想現実環境において遮られた顔部分を再構築する方法およびシステム |
JP2018151919A (ja) * | 2017-03-14 | 2018-09-27 | オムロン株式会社 | 画像解析装置、画像解析方法、及び画像解析プログラム |
JP2020048149A (ja) * | 2018-09-21 | 2020-03-26 | ヤマハ株式会社 | 画像処理装置、カメラ装置、および画像処理方法 |
JP2021149961A (ja) * | 2020-03-23 | 2021-09-27 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 情報処理方法及び情報処理装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9348950B2 (en) | Perceptually guided capture and stylization of 3D human figures | |
CN113781610B (zh) | 一种虚拟人脸的生成方法 | |
Bhat et al. | High fidelity facial animation capture and retargeting with contours | |
JP2020047237A (ja) | データ融合を用いた顔表情生成の方法 | |
JP2018538593A (ja) | 表情検出機能を備えたヘッドマウントディスプレイ | |
JP2019532374A (ja) | ユーザの感情状態を用いて仮想画像生成システムを制御するための技術 | |
WO2018079255A1 (ja) | 画像処理装置、画像処理方法、および画像処理プログラム | |
KR101743763B1 (ko) | 감성 아바타 이모티콘 기반의 스마트 러닝 학습 제공 방법, 그리고 이를 구현하기 위한 스마트 러닝 학습 단말장치 | |
US10467793B2 (en) | Computer implemented method and device | |
Lance et al. | Emotionally expressive head and body movement during gaze shifts | |
JP2009020761A (ja) | 画像処理装置及びその方法 | |
JP7070435B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
TWI736054B (zh) | 化身臉部表情產生系統及化身臉部表情產生方法 | |
EP4073682B1 (en) | Generating videos, which include modified facial images | |
US7257538B2 (en) | Generating animation from visual and audio input | |
KR20200019297A (ko) | 표정 인식 모델 생성 장치 및 방법, 및 이를 이용한 표정 인식 장치 및 방법 | |
Agarwal et al. | Synthesis of realistic facial expressions using expression map | |
CN116489299A (zh) | 视频通信平台中的化身生成 | |
JP2008140385A (ja) | キャラクタアニメーション時の皮膚のしわのリアルタイム表現方法及び装置 | |
Ma et al. | Accurate automatic visible speech synthesis of arbitrary 3D models based on concatenation of diviseme motion capture data | |
Patterson et al. | Comparison of synthetic face aging to age progression by forensic sketch artist | |
KR102229056B1 (ko) | 표정 인식 모델 생성 장치, 방법 및 이러한 방법을 수행하도록 프로그램된 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능한 기록매체 | |
WO2023223377A1 (ja) | 情報処理装置、情報処理方法、及び記録媒体 | |
JP2021189674A (ja) | コンピュータプログラム、サーバ装置、端末装置、及び方法 | |
JP2011215709A (ja) | 漫画作成支援装置、漫画作成支援方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22942582 Country of ref document: EP Kind code of ref document: A1 |