WO2024070610A1 - 情報処理方法及び情報処理装置 - Google Patents

情報処理方法及び情報処理装置 Download PDF

Info

Publication number
WO2024070610A1
WO2024070610A1 PCT/JP2023/032952 JP2023032952W WO2024070610A1 WO 2024070610 A1 WO2024070610 A1 WO 2024070610A1 JP 2023032952 W JP2023032952 W JP 2023032952W WO 2024070610 A1 WO2024070610 A1 WO 2024070610A1
Authority
WO
WIPO (PCT)
Prior art keywords
information processing
dimensional model
learning
state
avatar
Prior art date
Application number
PCT/JP2023/032952
Other languages
English (en)
French (fr)
Inventor
直之 川畑
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2024070610A1 publication Critical patent/WO2024070610A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/72Data preparation, e.g. statistical preprocessing of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions

Definitions

  • This technology relates to an information processing method and an information processing device, and in particular to an information processing method and an information processing device used for machine learning.
  • a training dataset which is a collection of training data that includes pairs of input data, including sample images of people, and correct answer data.
  • the correct answer data includes gaze information that indicates the correct gaze direction of the sample.
  • training data sets is important. In other words, it is important to collect a large amount of high-quality training data.
  • the first method is to collect learning data using samples of actual people.
  • learning data including pairs of live-action images of people's faces and their gaze directions are collected (see, for example, Patent Document 1).
  • the second method is to collect learning data using samples consisting of three-dimensional human models (hereafter referred to as avatars) created using three-dimensional CG (Computer Graphics).
  • learning data is collected that includes, for example, a pair of a one-eye image rendered from one of the avatar's eyes, and gaze information based on the inclination of the avatar's eyeball object in the one-eye image (see, for example, Non-Patent Document 1).
  • the first method is currently declining in popularity because the gaze information included in the correct answer data contains errors (noise) and it is difficult to collect large-scale, unbiased data.
  • data bias refers to bias in the position of the face within the face image, unnecessary correlation in the position and tilt of the face when the gaze is directed in a specific direction, etc.
  • biases such as, for example, there are many face images in which the face is positioned downward within the image, or when the gaze direction is to the right, there are many face images in which the face is facing to the right, etc. are expected.
  • the second method has the advantage that it can accurately annotate gaze information, can automatically generate large amounts of data, and can generate a variety of eye images by varying the unevenness and texture of the face. For this reason, gaze estimation models are often trained using training datasets collected by the second method these days.
  • This technology was developed in light of these circumstances, and aims to improve the quality of learning datasets that use 3D models created by 3D CG. As a result, it also aims to improve the accuracy of machine learning. Furthermore, it aims to improve the accuracy of processing that uses the learning models obtained by machine learning.
  • an information processing device controls the state of a three-dimensional model of a person in a three-dimensional virtual space and the rendering conditions for rendering the three-dimensional model, and generates, based on the state of the three-dimensional model and the rendering conditions, input data including a three-dimensional model image, which is an image obtained by rendering the three-dimensional model, and learning data including ground truth data regarding the three-dimensional model.
  • the information processing device includes an estimation unit that performs estimation processing related to a person by using a learning model generated by learning using input data including a 3D model image, which is an image obtained by rendering the 3D model, and a learning data set that is a collection of learning data including ground truth data related to the 3D model, the learning data being generated based on the state of the 3D model of the person in a 3D virtual space and the rendering conditions under which the 3D model is rendered, while changing the state of the 3D model and the rendering conditions under which the 3D model is rendered.
  • an information processing device performs an estimation process related to a person by using a learning model generated by learning using input data including a 3D model image, which is an image obtained by rendering the 3D model, and a learning data set, which is a collection of learning data including ground truth data related to the 3D model, and the learning data is generated based on the state of the 3D model and the rendering conditions while changing the state of the 3D model of the person in a 3D virtual space and the rendering conditions for rendering the 3D model.
  • the state of a three-dimensional model of a person in a three-dimensional virtual space and the rendering conditions for rendering the three-dimensional model are controlled, and input data including a three-dimensional model image, which is an image obtained by rendering the three-dimensional model, and learning data including ground truth data regarding the three-dimensional model are generated based on the state of the three-dimensional model and the rendering conditions.
  • an estimation process for a person is performed using a learning model generated by learning using input data including a three-dimensional model image, which is an image obtained by rendering the three-dimensional model, and a learning dataset, which is a collection of learning data including ground truth data for the three-dimensional model.
  • FIG. 1A and 1B are diagrams illustrating examples of one-eye images for training and one-eye images for fine tuning.
  • 1 is a block diagram showing a first embodiment of an information processing system to which the present technology is applied;
  • 3 is a block diagram showing an example of the configuration of a learning dataset generation unit in FIG. 2 .
  • 3 is a flowchart for explaining information processing executed by the information processing system of FIG. 2 .
  • 11 is a flowchart for explaining details of a learning dataset generation process.
  • FIG. 13 is a diagram showing an example of an object generated in a CG space.
  • FIG. 13 is a diagram showing an example of a direction in which the face orientation of an avatar is changed.
  • FIG. 13 is a diagram showing an example of a direction in which the face orientation of an avatar is changed.
  • FIG. 13 is a diagram showing an example of a direction in which the face orientation of an avatar is changed.
  • FIG. 13 is a diagram showing an example of a direction in which the face orientation of an avatar is changed.
  • FIG. 13 is a diagram showing an example of a direction in which the face orientation of an avatar is changed.
  • FIG. 13 is a diagram showing an example of a direction in which the face orientation of an avatar is changed.
  • FIG. 13 is a diagram showing an example of a moving direction of a camera object.
  • FIG. 13 is a diagram showing an example of a method for changing the position of an avatar's face.
  • FIG. 13 is a diagram showing an example of the position of a gaze point object.
  • FIG. 13 is a diagram showing an example of the position of a gaze point object.
  • 11A to 11C are diagrams illustrating examples of relationships between the positions of objects and avatar images.
  • FIG. 13 is a diagram showing an example of an avatar image.
  • FIG. 13 is a diagram showing an example of an avatar image.
  • FIG. 13 is a diagram showing an example in which an avatar has a state similar to the white of the eyes.
  • FIG. 11 is a block diagram showing a second embodiment of an information processing system to which the present technology is applied.
  • FIG. 21 is a block diagram showing an example configuration of a learning dataset generation unit in FIG. 20 . 22 is a flowchart for explaining details of the learning dataset generation process executed by the information processing system of FIG. 21 .
  • FIG. 11 is a block diagram showing a third embodiment of an information processing system to which the present technology is applied.
  • FIG. 13 is a block diagram showing a configuration example of a learning dataset supplementation unit.
  • 24 is a flowchart for explaining information processing executed by the information processing system of FIG. 23 .
  • 11 is a flowchart for explaining details of a learning dataset generation process.
  • FIG. 1 is a block diagram illustrating an example
  • a training dataset is used, which is a collection of training data including a pair of one-eye images and gaze information based on the one-eye image.
  • a gaze estimation model obtained by machine learning to estimate gaze direction based on captured images of an actual person for example, the following four problems arise.
  • gaze estimation is performed on each eye at a time using a single-eye image extracted from a captured image, there are cases where the estimated gaze directions of each eye do not intersect due to estimation errors. In such cases, the gaze estimation model cannot handle the situation, and a separate algorithm is required to estimate the final gaze direction.
  • the characteristics of the one-eye image for fine tuning obtained from the captured image may differ significantly from the characteristics of the one-eye image for training included in the training data.
  • a in FIG. 1 shows a schematic example of a one-eye image for training
  • B in FIG. 1 shows a schematic example of a one-eye image for fine tuning.
  • the one-eye image for training and the one-eye image for fine tuning may differ significantly in eye tilt, eye size, number of pixels, etc. Therefore, it may be difficult to process the one-eye image for training and the one-eye image for fine tuning in the same way.
  • the positional relationship between the avatar's eyes and the camera is roughly constant, so the resolution of the rendered one-eye image is also roughly constant.
  • the relative position between the camera and the person changes dynamically, so the one-eye image is not always obtained with the same resolution.
  • the eyes appear differently depending on the position of the face in the captured image due to perspective and distortion of the captured image. Therefore, when gaze estimation is performed using a one-eye image cut out from a captured image, the estimation accuracy may decrease.
  • Non-Patent Document 1 does not take into account the tilt of the face in the roll direction (the direction in which the head is tilted). Therefore, when extracting an eye image from a captured image in which the face is tilted in the roll direction, a mechanism for separately detecting the tilt of the face is required.
  • the present technology aims to resolve these issues and improve the accuracy of learning models (hereinafter referred to as estimation models) that perform estimation processing related to people, such as gaze estimation models.
  • estimation models learning models that perform estimation processing related to people, such as gaze estimation models.
  • the information processing system 101 is a system that performs machine learning using an avatar, which is a three-dimensional CG model of a person, and performs inference processing regarding the person based on the results of the machine learning.
  • the information processing system 101 includes a learning dataset generation unit 111, a learning dataset storage unit 112, a learning unit 113, and an estimation unit 114.
  • the training dataset generation unit 111 generates an avatar in a CG space and generates a training dataset using the avatar.
  • the training dataset generation unit 111 stores the generated training dataset in the training dataset storage unit 112.
  • the learning unit 113 performs machine learning using the learning dataset stored in the learning dataset storage unit 112, and generates an estimation model that performs estimation processing regarding people.
  • the learning unit 113 supplies the estimation model to the estimation unit 114.
  • the estimation unit 114 is configured as a system, device, or program that uses an estimation model to execute estimation processing related to a person based on a captured image of an actual person. For example, the estimation unit 114 estimates non-verbal information (e.g., at least one of a state and a characteristic) of the person based on the captured image. Furthermore, the estimation unit 114 further executes various types of processing based on the results of the estimation processing as necessary.
  • non-verbal information e.g., at least one of a state and a characteristic
  • FIG. 3 shows an example of the configuration of the learning dataset generation unit 111.
  • the learning dataset generation unit 111 includes an object generation unit 151, a state control unit 152, and a learning data generation unit 153.
  • the object generation unit 151 generates various objects in the CG space. For example, the object generation unit 151 generates an avatar, a camera object used to control the rendering conditions of the avatar (virtually photographing the avatar), a gaze point object that indicates the position at which the avatar is gazing, and the like in the CG space. The object generation unit 151 supplies information about each generated object to the state control unit 152.
  • the state control unit 152 controls the conditions for generating learning data, for example, by controlling the state of the CG space and the state of each object in the CG space.
  • the state of the CG space includes, for example, the state related to the rendering conditions (virtual shooting conditions) when rendering.
  • the state of the CG space includes the state of light or illumination in the CG space, the background of the CG space, etc.
  • the state of each object in the CG space includes, for example, the state of the avatar, camera object, and gaze point object described above.
  • the state control unit 152 supplies information related to the CG space (hereinafter referred to as CG space information) to the learning data generation unit 153.
  • the CG space information includes, for example, information related to the state of the CG space and the state of each object in the CG space.
  • the state control unit 152 also instructs the object generation unit 151 to generate objects in the CG space as necessary.
  • the learning data generation unit 153 generates learning data based on the state of the CG space and the state of each object in the CG space.
  • the learning data includes input data and correct answer data for the input data.
  • the input data includes images (hereafter referred to as avatar images) obtained by rendering an avatar in CG space (virtually capturing a picture using a camera object).
  • images hereafter referred to as avatar images
  • the correct answer data includes information indicating the correct answer for at least one of the states and characteristics of the avatar in the avatar image. For example, when learning an estimation model that estimates a person's gaze (gaze estimation model), the correct answer data includes gaze information that is information indicating the correct gaze direction of the avatar.
  • the learning data generation unit 153 adds the generated learning data to the learning dataset stored in the learning dataset storage unit 112.
  • the information processing system 101 learns a gaze estimation model that estimates a person's gaze direction, and estimates the person's gaze direction using the gaze estimation model.
  • step S1 the learning dataset generation unit 111 executes a learning dataset generation process.
  • step S51 the object generation unit 151 generates each object in the CG space.
  • the object generation unit 151 generates an avatar 201, a camera object 202, and a gaze point object 203 in the CG space.
  • the avatar 201 has an eyeball object for each eye, and the direction of each eyeball can be controlled individually. Therefore, the avatar 201 can, for example, direct the gaze of both eyes toward the gaze point object 203 (the same coordinates in CG space).
  • the object generation unit 151 supplies information about each generated object to the state control unit 152.
  • step S52 the state control unit 152 updates the state of each object.
  • the conditions under which the person whose gaze is to be estimated is photographed will change in various ways.
  • the relative position and orientation of the person's face to the camera, as well as the direction of the person's eyes will change in various ways. This will cause the position, size, and direction of the person's face, as well as the direction of the eyes, to change in the captured image.
  • the state control unit 152 changes the state of each object in the CG space so as to increase the variation in the position, size, and orientation of the face of the avatar 201 and the direction of the eyes in the avatar image for one avatar 201, for example. Specifically, for example, the state control unit 152 changes the relative position and orientation of the face of the avatar 201 and the camera object 202, and the position of the gaze point object 203 relative to the eyes of the avatar 201.
  • the state control unit 152 changes the facial orientation of the avatar 201 around three axes: the roll axis, the pitch axis, and the yaw axis. This causes the facial orientation of the avatar 201 to change in the direction of the arrow A11 (roll direction), the direction of the arrow A12 (pitch direction), and the direction of the arrow A13 (yaw direction).
  • the roll angle of the face of avatar 201 is changed in predetermined increments within a predetermined range.
  • the roll angle is based (0°) on the direction in which avatar 201's face faces forward, as shown in FIG. 8B, for example.
  • the direction in which avatar 201's face tilts to the right is considered to be the negative direction
  • the direction in which avatar 201's face tilts to the left is considered to be the positive direction.
  • the roll angle of the face of avatar 201 will change in 11 steps. This solves problem 4 of the prior art mentioned above.
  • the pitch angle of the face of avatar 201 is changed in predetermined increments within a predetermined range.
  • the pitch angle is based (0°) on the direction in which avatar 201's face faces forward, as shown in FIG. 9B, for example.
  • the direction in which avatar 201's face tilts upward, as shown in FIG. 9A, is considered to be the negative direction
  • the direction in which avatar 201's face tilts downward, as shown in FIG. 9C is considered to be the positive direction.
  • the pitch angle of the face of avatar 201 can change in 11 steps.
  • the yaw angle of the face of avatar 201 is changed in predetermined increments within a predetermined range.
  • the yaw angle is based (0°) on the direction in which avatar 201's face faces forward, as shown in FIG. 10B, for example.
  • FIG. 10A the direction in which avatar 201's face faces to the right is set as the negative direction
  • FIG. 10C the direction in which avatar 201's face faces to the left is set as the positive direction.
  • the yaw angle of the face of avatar 201 can change in 11 steps.
  • the orientation of the face of the avatar 201 may be changed by combining two or more of the roll angle, pitch angle, and yaw angle.
  • the state control unit 152 translates the camera object 202 in the left-right, up-down, and front-back directions relative to the face of the avatar 201. This changes the relative position between the face of the avatar 201 and the camera object 202. In addition, by combining this with a change in the direction of the face of the avatar 201, the relative posture between the face of the avatar 201 and the camera object 202 changes.
  • the relative position of the face of the avatar 201 and the camera object 202 may be changed by moving only the avatar 201 or by moving both the avatar 201 and the camera object 202.
  • FIG. 13 shows an example in which the camera object 202 is a camera mounted on a laptop PC (Personal Computer) 204.
  • a laptop PC Personal Computer
  • the state control unit 152 moves the position of the face of the avatar 201 within the virtual shooting range A21 of the camera object 202.
  • the distance of the avatar 201 from the camera object 202 is changed in five steps, from distance D1 to distance D5. Furthermore, at each distance, the position of the face of the avatar 201 in the up-down direction (height direction) and left-right direction (horizontal direction) is changed. For example, in the example of FIG. 13, when the distance between the avatar 201 and the camera object 202 is distance D5, the position of the face of the avatar 201 is set to a total of 20 positions within the shooting range A21, that is, 4 positions at a predetermined interval in the up-down direction ⁇ 5 positions at a predetermined interval in the left-right direction. And, for example, by setting the position of the face of the avatar 201 to 20 positions at each distance, the relative position of the face of the avatar 201 and the camera object 202 changes in 100 ways.
  • the relative orientation between the face of the avatar 201 and the camera object 202 may be changed by changing only the orientation of the camera object 202, or by changing the orientation of both the avatar 201 and the camera object 202. Furthermore, not only the orientation of the face of the avatar 201, but also the orientation of the entire body of the avatar 201 may be changed.
  • the state control unit 152 moves the gaze point object 203 in the left-right and up-down directions on the camera plane, as shown in FIG. 14.
  • the camera plane is, for example, a plane perpendicular to the optical axis of the camera object 202 at the front end of the camera object 202.
  • the rectangular parallelepiped frames arranged in a grid pattern on the camera plane indicate candidate positions for the gaze point object 203. Among them, the rectangular parallelepiped frame indicated by a diagonal line pattern indicates the current position of the gaze point object 203.
  • FIG. 15 shows another example of a candidate position for the gaze point object 203.
  • FIG. 15 shows an example in which a camera mounted on a laptop PC 204 is assumed as the camera object 202.
  • a total of 81 locations, 9 locations in the left-right direction and 9 locations in the up-down direction are set as candidates for the position of the gaze point object 203, with the optical axis of the camera object 202 at the center.
  • the intervals between each candidate position are set to 5 cm in both the up-down and left-right directions.
  • each gaze point object 203 does not necessarily have to be placed on the camera plane. Also, each gaze point object 203 does not necessarily have to be placed on the same plane.
  • the state control unit 152 changes the combination of states of each object, for example, by a predetermined algorithm. Then, in step S52, the state control unit 152 updates the state of each object to one of the combinations of states of each object for which learning data has not yet been generated.
  • the state control unit 152 directs the gaze of the avatar 201 in the direction of the gaze point object 203.
  • the state control unit 152 calculates the relative position between the eyeball object of each eye of the avatar 201 and the gaze point object 203. Based on the relative position between the eyeball object of each eye of the avatar 201 and the gaze point object 203, the state control unit 152 calculates the orientation (rotation angle) of the eyeball object of each eye when the gaze of each eye of the avatar 201 is directed in the direction of the gaze point object 203.
  • the state control unit 152 rotates the eyeball object of each eye of the avatar 201 based on the calculated rotation angle.
  • the eyeball object is rotated so that the line connecting the center of the eyeball object of each eye of the avatar 201 and the point in the center of the iris (pupil centerline) faces the direction of the gaze point object 203.
  • the misalignment between the pupil centerline and the actual fovea that occurs in an actual person may be reflected.
  • taking into account dynamic gaze movement, saccades, drift, etc. of the eyes may be reflected in the movement of the eyeball object.
  • the line of sight of the avatar 201 faces the direction of the gaze point object 203.
  • both eyes of the avatar 201 are looking in the direction of the gaze point object 203.
  • the state control unit 152 supplies the learning data generation unit 153 with CG space information including information indicating the state of the CG space set by the processing of steps S52 and S53 and the state of each object in the CG space.
  • step S54 the learning data generation unit 153 generates gaze information of the avatar 201. Specifically, the learning data generation unit 153 generates the gaze information of the avatar 201 based on one or more of the relative position and orientation of the face of the avatar 201 and the camera object 202 in the CG space, the rotation angle of the eyeball object of each eye of the avatar 201, and the position of the gaze point object.
  • the gaze information of the avatar 201 includes information regarding the gaze direction of the avatar 201.
  • the gaze direction of the avatar 201 is represented, for example, by the rotation angle of the eyeball object of each eye of the avatar 201 when viewed from the camera object 202.
  • the gaze direction of the avatar is represented by the relative position with respect to the camera object 202 of the point where the gazes of the eyes of the avatar 201 intersect.
  • the gaze direction of the avatar is represented by the relative position of the gaze point object 203 with respect to the camera object 202.
  • the gaze direction of the avatar 201 may be represented by coordinates in the avatar image, rather than by a relative position with respect to the camera object 202.
  • the gaze direction of the avatar 201 in the gaze information it is desirable to narrow down the gaze direction of the avatar 201 in the gaze information to a single value so that the gaze direction of the person can be determined to be one even when the gazes of the person's eyes do not intersect due to estimation errors, etc.
  • the intersection of the gazes of both eyes of the avatar 201, the coordinates of the gaze point object 203, etc. are used for the gaze direction of the avatar 201.
  • the learning data generation unit 153 may select the gaze direction that is closer to the gaze point object 203, or may calculate one gaze direction based on the gaze directions of both eyes.
  • step S55 the learning data generation unit 153 generates an avatar image.
  • the learning data generation unit 153 renders an image of the avatar 201 captured by the camera object 202 in CG space based on the relative position and orientation of the avatar 201 and the camera object 202. This generates an avatar image including the face of the avatar 201.
  • a in FIG. 16 shows an example in which the camera object 202 and the gaze point object 203 are in approximately the same position.
  • the line of sight of the avatar 201 faces the direction of the camera object 202. Therefore, in the avatar image IM11 generated in this state, for example, the avatar 201 is approximately in the center and faces forward.
  • FIG. 16 shows an example in which the camera object 202 and the gaze point object 203 are positioned apart.
  • the line of sight of the avatar 201 faces in a different direction from the camera object 202. Therefore, in the avatar image IM12 generated in this state, for example, the avatar 201 faces diagonally downward and left in the lower right corner of the image.
  • the gaze information needs to be recalculated. This is a process that does not occur with conventional technology, where the eyeball is always located in the center of the one-eye image.
  • Figures 17 and 18 show examples of avatar images.
  • Figure 17 shows an example of an avatar image when the avatar 201 is not looking in the direction of the camera object 202.
  • Figures 18A to 18C show examples of avatar images when the orientation of the face of the avatar 201 and the relative position of the face of the avatar 201 and the camera object 202 are different.
  • a in FIG. 18 shows an example of an avatar image in which the face and gaze direction of the avatar 201 do not match.
  • B and C of FIG. 18 show examples of avatar images in which the face and gaze of the avatar 201 are facing diagonally upward to the right.
  • the relative position of the camera object 202 to the avatar 201 is different between B and C of FIG. 18, and therefore the position and size of the avatar 201 in the avatar image are different.
  • the learning data generation unit 153 generates learning data based on the avatar image and gaze information, and adds it to the learning dataset. Specifically, the learning data generation unit 153 generates input data including (the data of) the avatar image generated in the process of step S55. The learning data generation unit 153 generates correct answer data including the gaze information of the avatar 201 generated in the process of step S54. The learning data generation unit 153 generates learning data including the input data and correct answer data. As a result, the avatar image included in the input data and the gaze information included in the correct answer data are paired. In other words, the correct gaze direction of the avatar 201 in the avatar image is indicated by the gaze information.
  • the learning data generation unit 153 adds the generated learning data to the learning dataset stored in the learning dataset storage unit 112.
  • step S57 the state control unit 152 determines whether the quantity and quality of the training data set are sufficient.
  • the state control unit 152 determines whether the amount of data in the learning dataset stored in the learning dataset storage unit 112 is sufficient.
  • the state control unit 152 determines whether the variation of the learning dataset stored in the learning dataset storage unit 112 is sufficient.
  • the variation of the learning dataset is determined based on, for example, at least one of the variation of the avatar images included in the input data of each learning data included in the learning dataset and the variation of the gaze information included in the ground truth data.
  • the variation of the avatar image is determined based on, for example, at least one of the facial position, facial size, facial direction, eye direction, and characteristics of the avatar 201 in the avatar image.
  • the characteristics of the avatar 201 are expected to be, for example, at least one of the avatar's race, sex, age, facial structure, facial size, skin color, etc.
  • the variation in gaze information is determined, for example, based on the variation in gaze direction indicated by the gaze information.
  • the state control unit 152 determines that at least one of the quantity and quality of the training dataset is still insufficient, and the process proceeds to step S58.
  • step S58 the learning dataset generation unit 111 changes the avatar 201 as necessary.
  • the state control unit 152 instructs the object generation unit 151 to change the characteristics of the avatar 201 so as to increase the variation in the characteristics of the avatar 201 in the learning data set.
  • the state control unit 152 instructs the object generation unit 151 to change at least one of the avatar's race, sex, age, facial structure, facial size, and skin color.
  • the object generation unit 151 In response to this, the object generation unit 151 generates a new avatar 201 in the CG space and deletes the old avatar 201 in accordance with instructions from the state control unit 152. The object generation unit 151 supplies information about the generated avatar 201 to the state control unit 152.
  • the learning data generation unit 153 determines to continue generating learning data using the current avatar 201.
  • step S57 the process returns to step S52, and steps S52 through S58 are repeated until it is determined in step S57 that the quantity and quality of the training data set is sufficient.
  • step S57 if the amount of data in the training dataset is sufficient and the variation in the training dataset is sufficient, the state control unit 152 determines that the quantity and quality of the training dataset are sufficient, and the training dataset generation process ends.
  • the learning unit 113 performs machine learning using the generated training dataset to generate a gaze estimation model. Specifically, the learning unit 113 performs machine learning using the training dataset stored in the training dataset storage unit 112, for example, using a neural network-based learning method. The learning unit 113 supplies the gaze estimation model obtained by machine learning to the estimation unit 114.
  • the gaze estimation model is a neural network-based model that estimates the gaze direction of a person in a captured image based on pixel information from the captured image of the target person and facial feature point information of the person extracted from the input image.
  • a gaze estimation model by statistically analyzing the position and orientation of the face in the avatar image, the amount of movement of the pupil, etc., and the gaze information of the ground truth data.
  • the estimation unit 114 executes gaze estimation processing using the generated gaze estimation model. For example, the estimation unit 114 uses the gaze estimation model to estimate the gaze direction of a target person based on a captured image of the person. Specifically, for example, the estimation unit 114 inputs the captured image to the gaze estimation model and obtains gaze information indicating the gaze direction of the person that is output from the gaze estimation model.
  • the estimation unit 114 may use the gaze estimation model to execute various applications.
  • the estimation unit 114 executes an application that uses the gaze estimation model to estimate which part of a shared document an audience member is looking at during an online meeting. This enables the presenter to add detailed explanations about content that the audience member is interested in during the presentation, or to supplement and explain content that the audience member may have overlooked.
  • the quality of training datasets using avatars can be improved. Specifically, for example, it becomes possible to automatically generate large amounts of training datasets with little bias. As a result, it becomes possible to improve the learning accuracy of the gaze estimation model while suppressing an increase in the load involved in generating the training dataset. In addition, it becomes possible to estimate the gaze direction of a person with high accuracy using the generated gaze estimation model. In other words, problem 3 of the conventional technology described above is resolved.
  • the learning data generation unit 153 saves a script when each learning data is generated.
  • Each script includes, for example, the type of avatar 201, the state of the CG space, and the state of each object in the CG space when the learning data is generated.
  • the state of each object in the CG space includes the position and orientation of the avatar 201 in the CG space, the position and orientation of the camera object 202 in the CG space, the position of the gaze point object 203 in the CG space, etc.
  • the training data can be reproduced by saving the script. This means that, for example, when making a training dataset public, there is no need to consider the privacy of individuals included in the training dataset.
  • an abnormal state of the avatar 201 means, for example, that an avatar image including the avatar 201 in that state becomes an unrealistic image, etc., and if used in machine learning, there is a possibility that the learning efficiency will decrease.
  • FIG. 19 shows an example in which the state of avatar 201 becomes abnormal.
  • the face of avatar 201 is tilted significantly to the lower left.
  • gaze point object 203 is positioned at a position tilted significantly to the lower right from the face of avatar 201. Therefore, the line of sight of both eyes of avatar 201 is tilted significantly to the lower right. And because the direction of the line of sight of avatar 201's face is significantly different, the pupils of avatar 201's eyes become almost invisible, and both eyes of avatar 201 are almost completely white.
  • the second embodiment of the present technology improves the quality of the training dataset by excluding avatar images that correspond to avatars 201 in abnormal states, such as avatar image IM21, from the training dataset.
  • Fig. 20 shows a configuration example of an information processing system 301 according to a second embodiment of the information processing system to which the present technology is applied.
  • the same reference numerals are used to designate parts corresponding to those in the information processing system 101 in Fig. 2, and the description thereof will be omitted as appropriate.
  • the information processing system 301 differs in that a learning dataset generation unit 311 is provided instead of the learning dataset generation unit 111.
  • the learning dataset generation unit 311 differs from the learning dataset generation unit 111 in that a state determination unit 351 has been added.
  • the state determination unit 351 acquires CG space information from the state control unit 152.
  • the state determination unit 351 judges whether the state of the avatar 201 is abnormal or not based on the state of the CG space included in the CG space information and the state of each object in the CG space. If the state determination unit 351 judges that the state of the avatar 201 is abnormal, it notifies the state control unit 152 that the state of the avatar 201 is abnormal. On the other hand, if the state determination unit 351 judges that the state of the avatar 201 is normal, it supplies the CG space information acquired from the state control unit 152 to the learning data generation unit 153.
  • Information processing by the information processing system 301 is executed according to the flowchart of FIG. 4 described above, similar to information processing by the information processing system 101. However, this differs from the processing by the information processing system 101 in that the learning dataset generation process in step S1 is executed according to the flowchart of FIG. 22.
  • steps S101 and S102 the same processing as in steps S51 and S52 in FIG. 5 is performed.
  • step S103 the state control unit 152 directs the gaze of the avatar 201 toward the gaze point object 203, similar to the processing in step S53 of FIG. 5.
  • the state control unit 152 supplies the state determination unit 351 with CG space information including information indicating the state of the CG space and the state of each object in the CG space.
  • step S104 the state determination unit 351 determines whether the state of the avatar 201 is abnormal.
  • the state determination unit 351 determines whether the avatar 201 is in an abnormal state based on, for example, one or more of the relative position between the face of the avatar 201 and the camera object 202, the relative orientation between the face of the avatar 201 and the camera object 202, and the orientation (rotation angle) of the eyeball object of the avatar 201.
  • an abnormal state of the avatar 201 may be when at least one of the eyes of the avatar 201 is not visible in the avatar image.
  • an out-of-angle of view state As an example of a state in which at least one eye of the avatar 201 is not visible in the avatar image, a state in which at least one eye of the avatar 201 is outside the angle of view of the camera object 202 (hereinafter referred to as an out-of-angle of view state) is assumed. In other words, this is a state in which at least one eye of the avatar 201 is outside the avatar image.
  • the out-of-angle-of-view state can be detected, for example, based on the relative positions of the eyeball objects of each eye of the avatar 201 and the camera object 202.
  • a state in which at least one eye of the avatar 201 is not visible in the avatar image is when, for example, the face of the avatar 201 is facing in a different direction from the camera object 202, and at least one eye of the avatar 201 is hidden from the view of the camera object 202 (hereinafter referred to as a hidden state).
  • this is a state in which at least one eye of the avatar 201 is hidden in the avatar image.
  • the occlusion state occurs, for example, when the face of the avatar 201 is present on a line segment connecting the eyeball object of at least one of the avatar's eyes and the camera object 202. Therefore, the occlusion state can be detected, for example, based on the relative positions of the eyeball objects of each eye of the avatar 201 and the camera object 202, and the relative positions of the face of the avatar 201 and the camera object 202.
  • an abnormal state of the avatar 201 may be, for example, a state in which at least one of the eyes of the avatar 201 is in a state similar to the white of the eye when viewed from the camera object 202 (hereinafter referred to as a white-eye state). In other words, this is a state in which at least one of the eyes of the avatar 201 is in a state similar to the white of the eye in the avatar image.
  • a state similar to the white of the eye is, for example, a state in which the proportion or area of the black eye area in the avatar 201's eyes is less than a predetermined threshold.
  • the white-eye state occurs, for example, as described above with reference to FIG. 19, when the difference between the facial direction and gaze direction of the avatar 201 is too large. Therefore, the white-eye state can be detected, for example, based on the facial direction of the avatar 201 and the direction (rotation angle) of the eyeball objects of each eye.
  • the state determination unit 351 determines that the state of the avatar 201 is normal, and supplies the CG space information acquired from the state control unit 152 to the learning data generation unit 153. After that, the process proceeds to step S105.
  • steps S105 through S107 the same processing as in steps S54 through S56 in FIG. 5 is executed. Then, the processing proceeds to step S108.
  • step S104 if the state determination unit 351 detects at least one of the out-of-angle state, the hidden state, and the white-eye state, it determines that the state of the avatar 201 is abnormal, and notifies the state control unit 152 that the state of the avatar 201 is abnormal. Thereafter, the processes of steps S105 to S107 are skipped, and the process proceeds to step S108. In other words, if the state of the avatar 201 is abnormal, no learning data is generated, and the learning data based on the avatar 201 determined to be abnormal is not added to the learning dataset.
  • step S108 similar to the process in step S57 of FIG. 7, it is determined whether the quantity and quality of the training data set are sufficient. If it is determined that at least one of the quantity and quality of the training data set is still insufficient, the process proceeds to step S109.
  • step S109 the avatar 201 is changed as necessary, similar to the processing in step S58 of FIG. 7.
  • step S108 the process returns to step S102, and steps S102 to S109 are repeated until it is determined in step S108 that the quantity and quality of the training data set is sufficient.
  • This generates training data while changing the state of each object in the CG space and the avatar 201. However, if the state of the avatar 201 is abnormal, no training data is generated.
  • step S108 if it is determined in step S108 that the quantity and quality of the training dataset are sufficient, the training dataset generation process ends.
  • bias in the training dataset may occur. Details of bias in the training dataset will be described later, but for example, bias in the position of the person's face or the direction of gaze in the captured images may be expected.
  • Gaze estimation models trained using biased training datasets tend to be non-robust models against biased elements. For example, if a person's face is simply located to the right in the captured image, the gaze direction may be estimated to be to the right.
  • the avatar 201 is used to supplement the deficiencies in the acquired training dataset, thereby reducing bias in the training dataset and improving the quantity and quality of the training dataset.
  • Fig. 23 shows a configuration example of an information processing system 401 according to a third embodiment of the information processing system to which the present technology is applied.
  • the same reference numerals are used to designate parts corresponding to those in the information processing system 101 in Fig. 2, and the description thereof will be omitted as appropriate.
  • the information processing system 401 differs in that a learning dataset acquisition unit 411 and a learning dataset supplementation unit 412 are added, and the learning dataset generation unit 111 is deleted.
  • the learning dataset acquisition unit 411 acquires a learning dataset and stores the acquired learning dataset in the learning dataset storage unit 112.
  • the learning dataset supplementation unit 412 supplements any shortages in the acquired learning datasets stored in the learning dataset storage unit 112.
  • Fig. 24 shows an example of the configuration of the learning dataset supplementation unit 412. Note that in the figure, parts corresponding to the learning dataset generation unit 311 in Fig. 21 are given the same reference numerals, and descriptions thereof will be omitted as appropriate.
  • the learning dataset replenishment unit 412 includes a data analysis unit 451, a replenishment planning unit 452, and a learning dataset generation unit 453.
  • the learning dataset generation unit 453 differs from the learning dataset generation unit 311 in that an object generation unit 461 and a state control unit 462 are provided instead of the object generation unit 151 and the state control unit 152.
  • the data analysis unit 451 analyzes the acquired learning dataset stored in the learning dataset storage unit 112.
  • the data analysis unit 451 supplies information indicating the analysis results of the learning dataset to the replenishment planning unit 452.
  • the replenishment planning unit 452 creates a plan for replenishing the deficiency of the training dataset based on the analysis results of the training dataset.
  • the replenishment planning unit 452 supplies information indicating the replenishment plan for the training dataset to the object generation unit 461 and the state control unit 462.
  • the object generation unit 461 generates various objects in the CG space based on a replenishment plan for the learning dataset. For example, the object generation unit 461 generates an avatar 201, a camera object 202, a gaze point object 203, etc. in the CG space. The object generation unit 461 supplies information about each generated object to the state control unit 462.
  • the state control unit 462 controls the conditions for generating learning data by controlling the state of the CG space and the state of each object in the CG space based on a replenishment plan for the learning data set.
  • the state control unit 462 supplies CG space information including information indicating the state of each object in the CG space and the state of the CG space to the state determination unit 351.
  • the state control unit 462 also instructs the object generation unit 461 to generate objects in the CG space as necessary.
  • step S201 the learning dataset acquisition unit 411 acquires a learning dataset.
  • the method of acquiring the training dataset is not particularly limited.
  • the training dataset acquisition unit 411 automatically collects training datasets that are publicly available on the Internet, etc.
  • the training dataset acquisition unit 411 acquires a training dataset input by a user.
  • sample images of people used as input data for the learning dataset may be images obtained by actually photographing a person (photographed images), or may be images generated by CG (avatar images).
  • the learning dataset acquisition unit 411 may collect sample images that are publicly available on the Internet, etc., and generate a learning dataset using each sample image and the correct answer data assigned to the collected sample images.
  • the learning dataset acquisition unit 411 stores the acquired learning dataset in the learning dataset storage unit 112.
  • step S202 the learning dataset replenishment unit 412 executes the learning dataset replenishment process.
  • step S251 the data analysis unit 451 analyzes the acquired learning dataset. That is, the data analysis unit 451 analyzes the learning dataset acquired in the processing of step S201 and stored in the learning dataset storage unit 112.
  • the data analysis unit 451 detects a shortage of learning data based on the results of the analysis of the learning dataset.
  • a shortage of a training dataset refers to, for example, a shortage of at least one of the quantity and quality of the training dataset.
  • a shortage of the quantity of the training dataset refers to, for example, a shortage of the amount of data in the training dataset.
  • a shortage of the quality of the training dataset includes, for example, a shortage of variation in the training dataset.
  • bias in the training dataset includes, for example, bias in the input data and bias in the ground truth data.
  • the bias of the input data includes, for example, bias of the sample and bias of the sample image.
  • the bias of the sample includes, for example, bias of the characteristics of the sample.
  • the bias of the characteristics of the sample includes, for example, bias in at least one of the following: race, sex, age, facial structure, facial size, facial color, etc.
  • the bias of the sample image includes, for example, bias of the information obtained from the face in the sample image.
  • the bias of the information obtained from the face in the sample image includes, for example, bias in at least one of the following: facial position, facial size, facial direction, eye direction, correlation between gaze direction and facial direction, etc.
  • the bias in the correct answer data includes, for example, a bias in the gaze information.
  • the bias in the gaze information includes, for example, a bias in the gaze direction indicated by the gaze information.
  • the data analysis unit 451 supplies information indicating the detection result of a shortage of learning data to the replenishment planning unit 452.
  • step S252 the replenishment planning unit 452 plans the replenishment of learning data based on the analysis results.
  • the replenishment planning unit 452 plans the replenishment of the training dataset so that the training dataset has a sufficient amount of data and so that bias in the training dataset is corrected.
  • the replenishment planning unit 452 plans the characteristics of the avatar 201 and the state of each object in the CG space when generating the replenishment training data.
  • Avatar characteristics include, for example, at least one of the following: race, sex, age, facial structure, facial size, facial color, etc.
  • the state of each object in the CG space includes, for example, the relative position and orientation of the face of the avatar 201 and the camera object 202, as well as the relative position of the gaze point object 203 with respect to the eyes of the avatar 201.
  • the state of each object in the CG space is planned so that avatar images are generated in which the distance between the face of the avatar 201 and the camera object 202 varies.
  • the state of each object in the CG space is planned so that avatar images are generated in which the distance between the face of the avatar 201 and the camera object 202 is 40 cm, 60 cm, or 70 cm.
  • the state of each object in the CG space is planned so that an avatar image is generated in which the avatar 201 looks above the camera object 202.
  • the state of each object in the CG space is planned so that an avatar image is generated in which the gaze point object is positioned 5 cm, 10 cm, and 15 cm above the camera object 202.
  • the generation of the avatars 201 is planned so that the variety of races of the avatars 201 is increased.
  • the generation of the avatars 201 is planned so that the ratio of races of the avatars 201 is constant.
  • the replenishment planning unit 452 generates a replenishment parameter list that parameterizes the characteristics of the avatar 201 when generating the replenishment learning data and the state of each object in the CG space based on the replenishment plan for the learning data set.
  • the replenishment planning unit 452 supplies the replenishment parameter list to the object generation unit 461 and the state control unit 462.
  • the object generation unit 461 generates each object in the CG space based on the replenishment plan. For example, the object generation unit 461 sets the characteristics of the avatar 201 based on the replenishment parameter list, and generates the avatar 201 having the set characteristics in the CG space. The object generation unit 461 generates the camera object 202 and the gaze point object 203 in the CG space. The object generation unit 461 supplies information about each generated object to the state control unit 462.
  • step S254 the state control unit 462 updates the state in the CG space based on the replenishment plan. Specifically, the state control unit 462 updates the state of each object to one of the combinations of states of each object for which learning data has not yet been generated, based on the replenishment parameter list, similar to the process of step S52 in FIG. 5.
  • steps S255 through S259 the same processing as in steps S103 through S107 in FIG. 22 is performed.
  • an avatar image is generated in the same format as the sample image included in the acquired training dataset. This makes it possible for the training data included in the acquired training dataset and the supplemented training data to be processed in the same way during training without being differentiated. This solves problem 2 of the conventional technology described above.
  • step S260 the state control unit 462 determines whether or not replenishment of the learning dataset has been completed. If there are parameters remaining in the replenishment parameter list for which learning data has not yet been generated, the state control unit 462 determines that replenishment of the learning dataset has not been completed, and the process proceeds to step S261.
  • step S261 the learning dataset generation unit 453 changes the avatar 201 as necessary based on the replenishment plan.
  • the state control unit 462 determines whether or not learning data for all parameters has been generated using the current avatar 201 based on the supplementary parameter list. If the state control unit 462 determines that learning data for all parameters has been generated using the current avatar 201, it selects one of the characteristics of the avatar 201 for which learning data has not yet been generated based on the supplementary parameter list. The state control unit 462 instructs the object generation unit 461 to change the characteristic of the avatar 201 to the selected characteristic.
  • the object generation unit 461 In response to this, the object generation unit 461 generates a new avatar 201 in the CG space and deletes the old avatar 201 in accordance with instructions from the state control unit 462. The object generation unit 461 supplies information about the generated avatar 201 to the state control unit 462.
  • the state control unit 462 determines that learning data for all parameters has not yet been generated using the current avatar 201, it determines to continue generating learning data for the current avatar 201.
  • step S254 the process returns to step S254, and steps S254 through S261 are repeated until it is determined in step S260 that replenishment of the training data set has been completed.
  • step S260 if there are no parameters remaining in the replenishment parameter list for which learning data has not been generated, the state control unit 462 determines that replenishment of the learning dataset has been completed, and the learning dataset replenishment process ends.
  • the learning unit 113 performs machine learning using the supplemented learning dataset to generate a gaze estimation model. Specifically, the learning unit 113 performs machine learning using a predetermined learning method using the supplemented learning dataset stored in the learning dataset storage unit 112. The learning unit 113 supplies the gaze estimation model obtained by machine learning to the estimation unit 114.
  • step S204 similar to the processing in step S3 of FIG. 4, gaze estimation processing is performed using the generated gaze estimation model.
  • the third embodiment of the present technology can also be applied to cases where fine-tuning of a gaze estimation model is performed for a specific user (hereinafter referred to as a target user) to optimize the gaze estimation model for the target user.
  • the gaze estimation model will be optimized for the training data set, reducing the robustness of the gaze estimation model.
  • the quantity and quality of the training dataset for the target user is improved.
  • the amount of data in the training dataset acquired using images captured in advance of the target user can be reduced, and the load required for generating the training dataset is reduced.
  • Whether the avatar 201 resembles the target user can be determined, for example, by comparing features related to facial structure. For example, the avatar 201 with the closest ratio of the distance between the inner corners of the eyes to the length of the entire face to the target user is used as the avatar 201 similar to the target user.
  • additional learning is performed using the supplemented training dataset, improving the accuracy of fine-tuning and improving the accuracy of the gaze estimation model in estimating the gaze of the target user. For example, the robustness of the gaze estimation model is improved.
  • two or more avatars 201 may be generated in the CG space at one time.
  • the rotation angle of the eyeball object for that eye may be corrected to a range that does not result in the white of the eye.
  • learning data is generated while changing the relative position and orientation between the face of the avatar 201 and the camera object 202, and the relative position between the face of the avatar 201 and the gaze point object 203
  • learning data may also be generated while changing other states of each object.
  • states of each object include the relative position and orientation between the entire body or parts other than the face of the avatar 201 and the camera object 202, and the relative position between the entire body or parts other than the face of the avatar 201 and the gaze point object 203.
  • the facial expressions and gestures of the avatar 201 are also envisioned.
  • learning data may be generated while changing the state of the CG space.
  • a state of the CG space may be, for example, the state of light or lighting in the CG space, the background of the CG space, etc.
  • the gaze point object 203 only needs to be able to specify coordinates for controlling the orientation (rotation angle) of the eyeball object of the avatar 201, and the appearance is not limited to the above-mentioned example. In addition, the gaze point object 203 does not necessarily have to be visible.
  • an anomaly determination may be performed to detect avatar images that may lead to a decrease in the quality of the learning dataset.
  • This technology can also be applied, for example, to generating a training dataset for an estimation model that performs estimation processing on a person's non-verbal information other than gaze (e.g., at least one of the person's state and characteristics).
  • this technology can be applied to generating a training dataset for an estimation model that estimates a person's gestures or emotions.
  • this technology can be applied to generating a training dataset for an estimation model that performs lip reading to estimate what a person is saying based on the movement of their lips.
  • this technology can be applied to generating a training dataset for an estimation model that estimates a person's characteristics such as race, gender, and age.
  • FIG. 27 is a block diagram showing an example of the hardware configuration of a computer that executes the above-mentioned series of processes using a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • an input/output interface 1005 Connected to the input/output interface 1005 are an input unit 1006, an output unit 1007, a storage unit 1008, a communication unit 1009, and a drive 1010.
  • the input unit 1006 includes an input switch, a button, a microphone, an image sensor, etc.
  • the output unit 1007 includes a display, a speaker, etc.
  • the storage unit 1008 includes a hard disk, a non-volatile memory, etc.
  • the communication unit 1009 includes a network interface, etc.
  • the drive 1010 drives removable media 1011 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 1001 loads a program recorded in the storage unit 1008, for example, into the RAM 1003 via the input/output interface 1005 and the bus 1004, and executes the program, thereby performing the above-mentioned series of processes.
  • the program executed by the computer 1000 can be provided by being recorded on a removable medium 1011 such as a package medium, for example.
  • the program can also be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the storage unit 1008 via the input/output interface 1005 by inserting the removable medium 1011 into the drive 1010.
  • the program can also be received by the communication unit 1009 via a wired or wireless transmission medium and installed in the storage unit 1008.
  • the program can be pre-installed in the ROM 1002 or storage unit 1008.
  • the program executed by the computer may be a program in which processing is performed chronologically in the order described in this specification, or a program in which processing is performed in parallel or at the required timing, such as when called.
  • a system refers to a collection of multiple components (devices, modules (parts), etc.), regardless of whether all the components are in the same housing. Therefore, multiple devices housed in separate housings and connected via a network, and a single device in which multiple modules are housed in a single housing, are both systems.
  • this technology can be configured as cloud computing, in which a single function is shared and processed collaboratively by multiple devices over a network.
  • each step described in the above flowchart can be executed by a single device, or can be shared and executed by multiple devices.
  • one step includes multiple processes
  • the multiple processes included in that one step can be executed by one device, or can be shared and executed by multiple devices.
  • An information processing device Controlling a state of a three-dimensional model of a person in a three-dimensional virtual space and a rendering condition for rendering the three-dimensional model; generating, based on a state of the three-dimensional model and the rendering conditions, input data including a three-dimensional model image that is an image obtained by rendering the three-dimensional model, and learning data including ground truth data regarding the three-dimensional model.
  • the information processing method according to any one of (1) to (5), wherein the state of the three-dimensional model includes at least one of a position and an orientation of the three-dimensional model in the virtual space.
  • the three-dimensional model image includes both eyes of the three-dimensional model;
  • the information processing device includes: Further controlling a position of a gaze point indicating a position at which the three-dimensional model is gazed upon in the virtual space;
  • the information processing device includes: The information processing method according to any one of (2) to (6), further comprising controlling a relative position and orientation between the three-dimensional model and a camera object used for controlling the rendering conditions.
  • the information processing device includes: The information processing method according to any one of (1) to (8), further comprising controlling a state of the three-dimensional model and the rendering conditions, and expanding the variation of at least one of the state of the three-dimensional model in the three-dimensional model image and the ground truth data in a learning dataset, which is a collection of the learning data.
  • the information processing device includes: Determining a state of the three-dimensional model; The information processing method described in any one of (1) to (10), wherein, when it is determined that the state of the three-dimensional model is abnormal, the learning data based on the three-dimensional model determined to be abnormal is not added to a learning data set which is a collection of the learning data.
  • the information processing method described in (11) above, wherein the three-dimensional model is in an abnormal state, is a state in which there is a possibility that learning efficiency will decrease when the learning data including the three-dimensional model image based on the three-dimensional model is used for learning.
  • the abnormal state of the three-dimensional model is at least one of a state in which at least one of the eyes of the three-dimensional model is not included in the three-dimensional model image, and a state in which at least one of the eyes of the three-dimensional model is in a state similar to the white of the eye.
  • the information processing device includes: Analyze the acquired training dataset, The information processing method according to any one of (1) to (13), further comprising supplementing at least one of a quantity and a quality deficiency of the training dataset based on a result of the analysis of the training dataset.
  • the information processing device includes: Detecting bias in the training data set; The information processing method according to (14), further comprising generating the learning data for correcting bias in the learning data set and adding the learning data to the learning data set.
  • the information processing device includes: The information processing method according to any one of (1) to (15), further comprising generating the three-dimensional model and changing a characteristic of the three-dimensional model.
  • the information processing device includes: The information processing method according to any one of (1) to (16), further comprising controlling a state of the virtual space. (18) The information processing method according to any one of (1) to (17), wherein the state of the three-dimensional model includes at least one of a facial expression and a gesture of the three-dimensional model.
  • An information processing device comprising: an estimation unit that performs an estimation process related to a person by using a learning model generated by learning using input data including a 3D model image that is an image obtained by rendering the 3D model, and a learning dataset that is a collection of learning data including ground truth data related to the 3D model, while changing a state of a 3D model of a person in a 3D virtual space and rendering conditions for rendering the 3D model, the learning data being generated based on the state of the 3D model and the rendering conditions.
  • An information processing device An information processing method, comprising: performing an estimation process related to a person using a learning model generated by learning using input data including a 3D model image, which is an image obtained by rendering the 3D model, and a learning data set, which is a collection of learning data including ground truth data related to the 3D model, while changing a state of a 3D model of a person in a 3D virtual space and rendering conditions for rendering the 3D model.
  • An information processing device An information processing method, comprising: performing learning of a learning model that performs an inference process related to a person, using a learning dataset that is a collection of learning data generated based on the state of a 3D model of a person in a 3D virtual space and rendering conditions for rendering the 3D model, while changing the state of the 3D model and the rendering conditions, the learning data including input data including a 3D model image that is an image obtained by rendering the 3D model, and ground truth data related to the 3D model.
  • 101 Information processing system 111 Learning dataset generation unit, 112 Learning dataset storage unit, 113 Learning unit, 114 Estimation unit, 151 Object generation unit, 152 State control unit, 153 Learning data generation unit, 301 Information processing system, 311 Learning dataset generation unit, 351 State determination unit, 401 Information processing system, 411 Learning dataset acquisition unit, 412 Learning dataset replenishment unit, 451 Data analysis unit, 452 Replenishment planning unit, 453 Learning dataset generation unit, 461 Object generation unit, 462 State control unit

Abstract

本技術は、3次元CGによる3次元モデルを用いた学習用データセットの質を向上させることができるようにする情報処理方法及び情報処理装置に関する。 情報処理装置が、3次元の仮想空間内の人物の3次元モデルの状態、及び、前記3次元モデルをレンダリングするレンダリング条件を制御し、前記3次元モデルの状態及び前記レンダリング条件に基づいて、前記3次元モデルをレンダリングした画像である3次元モデル画像を含む入力データ、及び、前記3次元モデルに関する正解データを含む学習用データを生成する。本技術は、例えば、視線推定モデルの学習用データセットの生成処理に適用できる。

Description

情報処理方法及び情報処理装置
 本技術は、情報処理方法及び情報処理装置に関し、特に、機械学習に用いられる情報処理方法及び情報処理装置に関する。
 近年、深層学習技術の発展により、画像内の人物や行動の認識精度が飛躍的に向上し、画像内の人物の非言語情報を推定する技術の開発が盛んである。その中でも、人物の興味や注意の対象に関連する視線推定技術に、大きな注目が集まっている。
 視線推定技術では、他の非言語情報の推定技術と同様に、人物のサンプルの画像を含む入力データと正解データのペアを含む学習用データの集合である学習用データセットを用いた機械学習が一般的に行われる。ここで、正解データには、サンプルの視線方向の正解を示す視線情報が含まれる。
 また、機械学習においては、学習用データセットの収集が重要になる。すなわち、いかに質の良い学習用データを大量に集めるかが重要になる。
 ここで、視線推定用の学習用データを収集する手法には、大きく分けて以下の2種類がある。
 第1の手法は、実際の人物からなるサンプルを用いた学習用データを収集する手法である。この手法では、例えば、実写による人物の顔画像と視線方向のペアを含む学習用データが収集される(例えば、特許文献1参照)。
 第2の手法は、3次元CG(Computer Graphics)による人物の3次元モデル(以下、アバターと称する)からなるサンプルを用いた学習用データを収集する手法である。この手法では、例えば、アバターの片目の目元をレンダリングした片目画像と、アバターの眼球オブジェクトの片目画像内の傾きに基づく視線情報のペアを含む学習用データが収集される(例えば、非特許文献1参照)。
特開2021-190041号公報
X. Zhang, 外3名, "Appearance-based gaze estimation in the wild", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015, p.4511-4520
 第1の手法は、正解データに含まれる視線情報に誤差(ノイズ)が含まれたり、大規模かつ偏りのないデータの収集が困難であったりするため、現在では下火になりつつある。ここで、データの偏りとは、顔画像内の顔の位置の偏り、特定の方向に視線を向けたときの顔の位置や傾きの不必要な相関等である。具体的には、例えば、顔の位置が画像内の下方向にある顔画像が多いとか、視線方向が右方向である場合、顔が右方向を向いている顔画像が多い等の偏りが想定される。
 一方、第2の手法は、例えば、正確な視線情報のアノテーションが可能であったり、自動で大量のデータを生成できたり、顔の凹凸やテクスチャを変化させることにより様々な目元画像を生成できたりする利点がある。そのため、最近では、第2の手法により収集された学習用データセットを用いて、視線推定モデルの学習が行われることが多い。
 以上の経緯により、アバターを用いた学習用データセットの質を向上させることが望まれている。
 本技術は、このような状況に鑑みてなされたものであり、3次元CGによる3次元モデルを用いた学習用データセットの質を向上させるようにするものである。また、その結果、機械学習の精度を向上させるようにするものである。さらに、機械学習により得られた学習モデルを用いた処理の精度を向上させるようにするものである。
 本技術の第1の側面の情報処理方法は、情報処理装置が、3次元の仮想空間内の人物の3次元モデルの状態、及び、前記3次元モデルをレンダリングするレンダリング条件を制御し、前記3次元モデルの状態及び前記レンダリング条件に基づいて、前記3次元モデルをレンダリングした画像である3次元モデル画像を含む入力データ、及び、前記3次元モデルに関する正解データを含む学習用データを生成する。
 本技術の第2の側面の情報処理装置は、3次元の仮想空間内の人物の3次元モデルの状態、及び、前記3次元モデルをレンダリングするレンダリング条件を変化させながら、前記3次元モデルの状態及び前記レンダリング条件に基づいて生成された学習用データであって、前記3次元モデルをレンダリングした画像である3次元モデル画像を含む入力データ、及び、前記3次元モデルに関する正解データを含む学習用データの集合である学習用データセットを用いた学習により生成された学習モデルを用いて、人物に関する推定処理を実行する推定部を備える。
 本技術の第2の側面の情報処理方法は、情報処理装置が、3次元の仮想空間内の人物の3次元モデルの状態、及び、前記3次元モデルをレンダリングするレンダリング条件を変化させながら、前記3次元モデルの状態及び前記レンダリング条件に基づいて生成された学習用データであって、前記3次元モデルをレンダリングした画像である3次元モデル画像を含む入力データ、及び、前記3次元モデルに関する正解データを含む学習用データの集合である学習用データセットを用いた学習により生成された学習モデルを用いて、人物に関する推定処理を実行する。
 本技術の第1の側面においては、3次元の仮想空間内の人物の3次元モデルの状態、及び、前記3次元モデルをレンダリングするレンダリング条件が制御され、前記3次元モデルの状態及び前記レンダリング条件に基づいて、前記3次元モデルをレンダリングした画像である3次元モデル画像を含む入力データ、及び、前記3次元モデルに関する正解データを含む学習用データが生成される。
 本技術の第2の側面においては、3次元の仮想空間内の人物の3次元モデルの状態、及び、前記3次元モデルをレンダリングするレンダリング条件を変化させながら、前記3次元モデルの状態及び前記レンダリング条件に基づいて生成された学習用データであって、前記3次元モデルをレンダリングした画像である3次元モデル画像を含む入力データ、及び、前記3次元モデルに関する正解データを含む学習用データの集合である学習用データセットを用いた学習により生成された学習モデルを用いて、人物に関する推定処理が実行される。
学習用の片目画像とファインチューン用の片目画像の例を示す図である。 本技術を適用した情報処理システムの第1の実施の形態を示すブロック図である。 図2の学習用データセット生成部の構成例を示すブロック図である。 図2の情報処理システムにより実行される情報処理を説明するためのフローチャートである。 学習用データセット生成処理の詳細を説明するためのフローチャートである。 CG空間内に生成されるオブジェクトの例を示す図である。 アバターの顔の向きを変化させる方向の例を示す図である。 アバターの顔の向きを変化させる方向の例を示す図である。 アバターの顔の向きを変化させる方向の例を示す図である。 アバターの顔の向きを変化させる方向の例を示す図である。 アバターの顔の向きを変化させる方向の例を示す図である。 カメラオブジェクトの移動方向の例を示す図である。 アバターの顔の位置を変化させる方法の例を示す図である。 注視点オブジェクトの位置の例を示す図である。 注視点オブジェクトの位置の例を示す図である。 各オブジェクトの位置とアバター画像の関係の例を示す図である。 アバター画像の例を示す図である。 アバター画像の例を示す図である。 アバターが白目と同様の状態になる例を示す図である。 本技術を適用した情報処理システムの第2の実施の形態を示すブロック図である。 図20の学習用データセット生成部の構成例を示すブロック図である。 図21の情報処理システムにより実行される学習用データセット生成処理の詳細を説明するためのフローチャートである。 本技術を適用した情報処理システムの第3の実施の形態を示すブロック図である。 学習用データセット補充部の構成例を示すブロック図である。 図23の情報処理システムにより実行される情報処理を説明するためのフローチャートである。 学習用データセット生成処理の詳細を説明するためのフローチャートである。 コンピュータの構成例を示すブロック図である。
 以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
 1.本技術の背景
 2.第1の実施の形態
 3.第2の実施の形態
 4.第3の実施の形態
 5.変形例
 6.その他
 <<1.本技術の背景>>
 まず、本技術の背景について説明する。
 非特許文献1に示されるように、従来のアバターを用いた視線推定モデルの機械学習では、片目画像、及び、片目画像に基づく視線情報のペアを含む学習用データの集合である学習用データセットが用いられる。この場合、機械学習により得られた視線推定モデルを用いて、実際の人物を撮影した撮影画像に基づいて視線方向を推定する場合、例えば、以下の4つの問題が生じる。
1.撮影画像から切り出された片目画像を用いて、片目ずつ視線推定が実行されるため、推定誤差により各目の視線の推定方向が交わらない場合がある。この場合、視線推定モデルでは対処できないため、最終的な視線方向を推定するために、別のアルゴリズムが必要になる。
2.運用時に、ユーザを撮影した撮影画像を用いて視線推定モデルのファインチューンを実行する場合、撮影画像から得られるファインチューン用の片目画像が、学習用データに含まれる学習用の片目画像の特性と大きく異なる場合がある。例えば、図1のAは、学習用の片目画像の例を模式的に示し、図1のBは、ファインチューン用の片目画像の例を模式的に示している。例えば、学習用の片目画像とファインチューン用の片目画像とで、目の傾き、目の大きさ、画素数等が大きく異なる場合がある。従って、学習用の片目画像とファインチューン用の片目画像とを同じように処理することが困難になる場合がある。
3.従来のアバターを用いた視線推定モデルの機械学習では、アバターの目とカメラとの位置関係が略一定のため、レンダリングされた片目画像の解像度もほぼ一定になる。一方、運用時には、カメラと人間との相対位置が動的に変化するため、片目画像が常に同じ解像度で得られるとは限らない。また、撮影画像の遠近感や歪み等により、撮影画像内の顔の位置によって、目の写り方が異なる。従って、撮影画像から切り出した片目画像を用いて視線推定を実行した場合、推定精度が低下するときがある。
4.非特許文献1では、ロール方向(首をかしげる方向)の顔の傾きが考慮されていない。従って、ロール方向に顔が傾いた撮影画像から目元画像を切り出す場合に、顔の傾きを別途検出する仕組みが必要になる。
 これに対して、本技術は、これらの問題を解消し、視線推定モデル等の人物に関する推定処理を実行する学習モデル(以下、推定モデルと称する)の精度を向上させるようにするものである。
 <<2.第1の実施の形態>>
 次に、図2乃至図18を参照して、本技術の第1の実施の形態について説明する。
  <情報処理システム101の構成例>
 まず、図2を参照して、本技術を適用した情報処理システム101の構成例について説明する。
 情報処理システム101は、CGによる人物の3次元モデルであるアバターを用いて機械学習を実行し、機械学習の結果に基づいて人物に関する推定処理を実行するシステムである。
 情報処理システム101は、学習用データセット生成部111、学習用データセット蓄積部112、学習部113、及び、推定部114を備える。
 学習用データセット生成部111は、CG空間内にアバターを生成し、アバターを用いて学習用データセットを生成する。学習用データセット生成部111は、生成した学習用データセットを学習用データセット蓄積部112に蓄積する。
 学習部113は、学習用データセット蓄積部112に蓄積されている学習用データセットを用いて機械学習を行い、人物に関する推定処理を実行する推定モデルを生成する。学習部113は、推定モデルを推定部114に供給する。
 推定部114は、推定モデルを用いて、実際の人物を撮影した撮影画像に基づいて、人物に関する推定処理を実行するシステム、装置、又は、プログラムにより構成される。例えば、推定部114は、撮影画像に基づいて、人物の非言語情報(例えば、状態及び特性のうち少なくとも1つ)を推定する。また、推定部114は、必要に応じて、推定処理の結果に基づいて、さらに各種の処理を実行する。
  <学習用データセット生成部111の構成例>
 図3は、学習用データセット生成部111の構成例を示している。
 学習用データセット生成部111は、オブジェクト生成部151、状態制御部152、及び、学習用データ生成部153を備える。
 オブジェクト生成部151は、CG空間内に各種のオブジェクトを生成する。例えば、オブジェクト生成部151は、アバター、アバターのレンダリング条件の制御(アバターの仮想的な撮影)に用いられるカメラオブジェクト、アバターが注視する位置を示す注視点オブジェクト等をCG空間内に生成する。オブジェクト生成部151は、生成した各オブジェクトに関する情報を状態制御部152に供給する。
 状態制御部152は、例えば、CG空間の状態、及び、CG空間内の各オブジェクトの状態を制御することにより、学習用データを生成する条件を制御する。CG空間の状態は、例えば、レンダリングする際のレンダリング条件(仮想的な撮影条件)に関する状態を含む。具体的には、例えば、CG空間の状態は、CG空間の光線又は照明の状態、CG空間の背景等を含む。CG空間内の各オブジェクトの状態は、例えば、上述したアバター、カメラオブジェクト、及び、注視点オブジェクトの状態を含む。状態制御部152は、CG空間に関する情報(以下、CG空間情報と称する)を学習用データ生成部153に供給する。CG空間情報は、例えば、CG空間の状態及びCG空間内の各オブジェクトの状態に関する情報を含む。
 また、状態制御部152は、必要に応じて、CG空間内のオブジェクトの生成をオブジェクト生成部151に指示する。
 学習用データ生成部153は、CG空間の状態及びCG空間内の各オブジェクトの状態に基づいて、学習用データを生成する。学習用データは、入力データ、及び、入力データに対する正解データを含む。
 入力データは、CG空間内のアバターをレンダリングする(カメラオブジェクトにより仮想的に撮影する)ことにより得られる画像(以下、アバター画像と称する)を含む。
 正解データは、アバター画像内のアバターの状態及び特性のうちの少なくとも1つの正解を示す情報を含む。例えば、人物の視線を推定する推定モデル(視線推定モデル)を学習する場合、正解データは、アバターの視線方向の正解を示す情報である視線情報を含む。
 学習用データ生成部153は、学習用データセット蓄積部112に蓄積されている学習用データセットに、生成した学習用データを追加する。
 なお、以下、情報処理システム101が、人物の視線方向を推定する視線推定モデルの学習を行い、視線推定モデルを用いて、人物の視線方向を推定する場合の例について説明する。
  <情報処理システム101による情報処理>
 次に、図4のフローチャートを参照して、情報処理システム101により実行される情報処理について説明する。
 ステップS1において、学習用データセット生成部111は、学習用データセット生成処理を実行する。
 ここで、図5のフローチャートを参照して、学習用データセット生成処理の詳細について説明する。
 ステップS51において、オブジェクト生成部151は、CG空間内に各オブジェクトを生成する。例えば、図6に示されるように、オブジェクト生成部151は、アバター201、カメラオブジェクト202、及び、注視点オブジェクト203をCG空間内に生成する。
 上述した従来技術では、単純にアバターの片目の眼球の回転角を指定するだけで、片目画像の生成が可能であった。一方、本技術では、アバターの両目の視線を同一座標に向ける仕組みが必要となる。
 これに対して、アバター201は、各目にそれぞれ眼球オブジェクトを備えており、各目の眼球の向きを個別に制御可能である。従って、アバター201は、例えば、両目の視線を注視点オブジェクト203(CG空間内の同一座標)に向けることが可能である。
 なお、以下、図によって、アバター201の種類が異なる場合があるが、基本的に符号の区別は行わない。
 オブジェクト生成部151は、生成した各オブジェクトに関する情報を状態制御部152に供給する。
 ステップS52において、状態制御部152は、各オブジェクトの状態を更新する。
 視線推定モデルを実際に運用する場合、視線の推定対象となる人物を撮影する条件が様々に変化する。例えば、人物の顔とカメラとの相対的な位置及び姿勢、並びに、人物の眼球の向きが様々に変化する。これにより、撮影画像内の人物の顔の位置、大きさ、向き、並びに、眼球の向きが変化する。
 これに対して、状態制御部152は、例えば、1つのアバター201に対して、アバター画像内のアバター201の顔の位置、大きさ、向き、並びに、眼球の向きのバリエーションが広がるように、CG空間内の各オブジェクトの状態を変化させる。具体的には、例えば、状態制御部152は、アバター201の顔とカメラオブジェクト202との相対的な位置及び姿勢、並びに、アバター201の目に対する注視点オブジェクト203の位置を変化させる。
 例えば、状態制御部152は、図7に示されるように、アバター201の顔の向きを、ロール軸、ピッチ軸、及び、ヨー軸の3軸を中心に変化させる。これにより、アバター201の顔の向きが、矢印A11の方向(ロール方向)、矢印A12の方向(ピッチ方向)、及び、A13の方向(ヨー方向)に変化する。
 より具体的には、例えば、図8に示されるように、アバター201の顔のロール角が、所定の範囲内において所定の刻み幅で変えられる。なお、ロール角は、例えば、図8のBに示されるように、アバター201の顔が正面を向いている方向を基準(0°)とする。そして、図8のAに示されるように、アバター201の顔が右方向に傾く方向を負の方向とし、図8のCに示されるように、アバター201の顔が左方向に傾く方向を正の方向とする。
 例えば、アバター201の顔のロール角を変化させる範囲を-25°~+25°とし、刻み幅を5°とした場合、アバター201の顔のロール角は11段階に変化する。これにより、上述した従来技術の問題4が解消する。
 例えば、図9に示されるように、アバター201の顔のピッチ角が、所定の範囲内において所定の刻み幅で変えられる。なお、ピッチ角は、例えば、図9のBに示されるように、アバター201の顔が正面を向いている方向を基準(0°)とする。そして、図9のAに示されるように、アバター201の顔が上方向に傾く方向を負の方向とし、図9のCに示されるように、アバター201の顔が下方向に傾く方向を正の方向とする。
 例えば、アバター201の顔のピッチ角を変化させる範囲を-25°~+25°とし、刻み幅を5°とした場合、アバター201の顔のピッチ角は11段階に変化する。
 例えば、図10に示されるように、アバター201の顔のヨー角が、所定の範囲内において所定の刻み幅で変化される。なお、ヨー角は、例えば、図10のBに示されるように、アバター201の顔が正面を向いている方向を基準(0°)とする。そして、図10のAに示されるように、アバター201の顔が右に向く方向を負の方向とし、図10のCに示されるように、アバター201の顔が左に向く方向を正の方向とする。
 例えば、アバター201の顔のヨー角を変化させる範囲を-25°~+25°とし、刻み幅を5°とした場合、アバター201の顔のヨー角は11段階に変化する。
 なお、例えば、図11のA乃至Cに示されるように、ロール角、ピッチ角、及び、ヨー角のうち2つ以上を組み合わせて、アバター201の顔の向きを変化させるようにしてもよい。
 また、例えば、状態制御部152は、図12に示されるように、アバター201の顔に対して、カメラオブジェクト202を左右方向、上下方向、及び、前後方向に平行移動させる。これにより、アバター201の顔とカメラオブジェクト202との相対的な位置が変化する。また、アバター201の顔の向きの変化と組み合わせることにより、アバター201の顔とカメラオブジェクト202との相対的な姿勢が変化する。
 なお、例えば、アバター201のみを移動させたり、アバター201とカメラオブジェクト202の両方を移動させたりすることにより、アバター201の顔とカメラオブジェクト202の相対位置を変化させるようにしてもよい。
 例えば、図13は、カメラオブジェクト202として、ラップトップ型のPC(Personal Computer)204に搭載されたカメラを想定した場合の例を示している。
 例えば、状態制御部152は、カメラオブジェクト202の仮想的な撮影範囲A21内においてアバター201の顔の位置を移動させる。
 例えば、カメラオブジェクト202に対するアバター201の距離が、距離D1乃至距離D5の5段階に変えられる。また、各距離において、アバター201の顔の上下方向(高さ方向)及び左右方向(横方向)の位置が変えられる。例えば、図13の例では、アバター201とカメラオブジェクト202との距離が距離D5の場合に、アバター201の顔の位置が、撮影範囲A21内において、上下方向に所定の間隔で4か所×左右方向に所定の間隔で5か所の合計20か所に設定される。そして、例えば、各距離において、アバター201の顔の位置がそれぞれ20か所に設定されることにより、アバター201の顔とカメラオブジェクト202との相対位置が、100通りに変化する。
 なお、以下では、カメラオブジェクト202の位置を移動させて、アバター201とカメラオブジェクト202との相対位置を変化させる例について説明する。
 また、例えば、カメラオブジェクト202の姿勢のみを変化させたり、アバター201とカメラオブジェクト202の両方の姿勢を変化させたりすることにより、アバター201の顔とカメラオブジェクト202との相対姿勢を変化させるようにしてもよい。また、アバター201の顔の向きだけでなく、アバター201の全身の向きを変化させるようにしてもよい。
 なお、以下では、アバター201の顔の向きを変化させて、アバター201の顔とカメラオブジェクト202との相対姿勢を変化させる例について説明する。
 さらに、例えば、状態制御部152は、図14に示されるように、注視点オブジェクト203を、カメラ平面上において左右方向及び上下方向に移動させる。カメラ平面とは、例えば、カメラオブジェクト202の前端において、カメラオブジェクト202の光軸に垂直な面とされる。カメラ平面上に格子状に並べられた直方体の枠は、注視点オブジェクト203の位置の候補を示している。そのうち、斜線パターンで示される直方体の枠が、現在の注視点オブジェクト203の位置を示している。
 図15は、注視点オブジェクト203の位置の候補の他の例を示している。図15は、図12の例と同様に、カメラオブジェクト202として、ラップトップ型のPC204に搭載されたカメラを想定した場合の例を示している。
 例えば、カメラオブジェクト202のカメラ平面P1において、カメラオブジェクト202の光軸を中心にして、左右方向に9か所×上下方向に9か所の合計81か所が、注視点オブジェクト203の位置の候補に設定されている。例えば、各候補位置の間隔は、上下方向及び左右方向とも5cmに設定される。
 このように、注視点オブジェクト203の位置を移動させることにより、アバター201の顔と注視点オブジェクト203との相対的な位置が変化する。
 なお、各注視点オブジェクト203は、必ずしもカメラ平面上に配置されなくてもよい。また、各注視点オブジェクト203は、必ずしも同一平面上に配置されなくてもよい。
 以上のように、状態制御部152は、アバター画像のバリエーションを広げるために、例えば所定のアルゴリズムにより、各オブジェクトの状態の組み合わせを変化させる。そして、ステップS52において、状態制御部152は、まだ学習用データを生成していない各オブジェクトの状態の組み合わせのうちの1つに各オブジェクトの状態を更新する。
 図5に戻り、ステップS53において、状態制御部152は、アバター201の視線を注視点オブジェクト203の方向に向ける。例えば、状態制御部152は、アバター201の各目の眼球オブジェクトと注視点オブジェクト203との相対位置を計算する。状態制御部152は、アバター201の各目の眼球オブジェクトと注視点オブジェクト203との相対位置に基づいて、アバター201の各目の視線が注視点オブジェクト203の方向を向いた場合の各目の眼球オブジェクトの向き(回転角)を計算する。
 状態制御部152は、計算した回転角に基づいて、アバター201の各目の眼球オブジェクトを回転させる。例えば、アバター201の各目の眼球オブジェクトの中心と黒目中央の点を結んだ線(瞳孔中心線)が、注視点オブジェクト203の方向を向くように、眼球オブジェクトが回転される。この場合、例えば、実際の人物において生じる瞳孔中心線と実際の中心窩のずれが反映されてもよい。また、例えば、動的な視線の移動を考慮して、目のサッカード、ドリフト等が、眼球オブジェクトの動きに反映されてもよい。
 これにより、アバター201の視線が注視点オブジェクト203の方向に向く。すなわち、アバター201の両目が注視点オブジェクト203の方向を見た状態になる。
 状態制御部152は、ステップS52及びステップS53の処理により設定したCG空間の状態及びCG空間内の各オブジェクトの状態を示す情報を含むCG空間情報を学習用データ生成部153に供給する。
 ステップS54において、学習用データ生成部153は、アバター201の視線情報を生成する。具体的には、学習用データ生成部153は、CG空間内のアバター201の顔とカメラオブジェクト202との相対的な位置及び姿勢、アバター201の各目の眼球オブジェクトの回転角、並びに、注視点オブジェクトの位置のうちの1つ以上に基づいて、アバター201の視線情報を生成する。
 アバター201の視線情報は、アバター201の視線方向に関する情報を含む。アバター201の視線方向は、例えば、カメラオブジェクト202から見た場合のアバター201の各目の眼球オブジェクトの回転角により表される。または、例えば、アバターの視線方向は、アバター201の各目の視線が交わる点のカメラオブジェクト202に対する相対位置により表される。または、アバターの視線方向は、例えば、カメラオブジェクト202に対する注視点オブジェクト203の相対位置により表される。または、例えば、アバター201の視線方向は、カメラオブジェクト202に対する相対位置ではなく、アバター画像における座標により表されてもよい。
 なお、運用時に、推定誤差等により人物の各目の視線が交わらない場合にも人物の視線方向を1つに定めることができるように、視線情報におけるアバター201の視線方向を1つの値に絞るようにすることが望ましい。この場合、例えば、アバター201の両目の視線の交点や、注視点オブジェクト203の座標等が、アバター201の視線方向に用いられる。
 なお、アバター201の両目の視線が交わらない場合、例えば、学習用データ生成部153は、注視点オブジェクト203により近い方の視線方向を選択したり、両目の視線方向に基づいて、1つの視線方向を算出したりしてもよい。
 これにより、運用時に人物の両目の視線が交わらなくても、視線推定モデル以外の演算を行うことなく、正確に人物の視線方向を推定することが可能になる。すなわち、上述した従来技術の問題1が解消する。
 ステップS55において、学習用データ生成部153は、アバター画像を生成する。例えば、学習用データ生成部153は、アバター201とカメラオブジェクト202との相対的な位置及び姿勢に基づいて、CG空間においてカメラオブジェクト202によりキャプチャされるアバター201の画像をレンダリングする。これにより、アバター201の顔を含むアバター画像が生成される。
 なお、図16に示されるように、アバター201と注視点オブジェクト203との位置関係が同じでも、カメラオブジェクト202の位置が異なる場合、生成されるアバター画像は変化する。
 図16のAは、カメラオブジェクト202と注視点オブジェクト203との位置が略同じ場合の例を示している。この場合、アバター201の視線が、カメラオブジェクト202の方向を向く。従って、この状態で生成されるアバター画像IM11では、例えば、アバター201が略中央で正面方向を向くようになる。
 図16のBは、カメラオブジェクト202と注視点オブジェクト203との位置が離れている場合の例を示している。この場合、アバター201の視線が、カメラオブジェクト202と異なる方向を向く。従って、この状態で生成されるアバター画像IM12では、例えば、アバター201が画像内の右下隅で左斜め下方向に向くようになる。
 従って、アバター201及び注視点オブジェクト203が動かなくても、アバター201とカメラオブジェクト202との相対的な位置及び姿勢のうちの少なくとも1つが変化した場合、視線情報を再計算する必要がある。これは、常に眼球が片目画像の中央に位置している従来技術では、発生しない処理である。
 図17及び図18は、アバター画像の例を示している。
 図17は、アバター201が、カメラオブジェクト202の方向を見ていない場合のアバター画像の例を示している。
 図18のA乃至Cは、アバター201の顔の向き、及び、アバター201の顔とカメラオブジェクト202との相対的な位置が異なる場合のアバター画像の例を示している。
 図18のAは、アバター201の顔と視線の向きが一致しない場合のアバター画像の例を示している。
 図18のB及びCは、アバター201の顔及び視線が右斜め上方向を向いている場合のアバター画像の例を示している。ただし、図18のBとCとでは、アバター201に対するカメラオブジェクト202の相対位置が異なるため、アバター画像内のアバター201の位置及び大きさが異なる。
 図5に戻り、ステップS56において、学習用データ生成部153は、アバター画像及び視線情報に基づいて学習用データを生成し、学習用データセットに追加する。具体的には、学習用データ生成部153は、ステップS55の処理で生成したアバター画像(のデータ)を含む入力データを生成する。学習用データ生成部153は、ステップS54の処理で生成したアバター201の視線情報を含む正解データを生成する。学習用データ生成部153は、入力データ及び正解データを含む学習用データを生成する。これにより、入力データに含まれるアバター画像と正解データに含まれる視線情報がペアにされる。すなわち、アバター画像内のアバター201の視線方向の正解が視線情報により示される。
 学習用データ生成部153は、生成した学習用データを、学習用データセット蓄積部112に蓄積されている学習用データセットに追加する。
 ステップS57において、状態制御部152は、学習用データセットの量及び質が十分であるか否かを判定する。
 例えば、状態制御部152は、学習用データセット蓄積部112に蓄積されている学習用データセットのデータ量が十分であるか否かを判定する。
 また、例えば、状態制御部152は、学習用データセット蓄積部112に蓄積されている学習用データセットのバリエーションが十分であるか否かを判定する。学習用データセットのバリエーションは、例えば、学習用データセットに含まれる各学習用データの入力データに含まれるアバター画像のバリエーション、及び、正解データに含まれる視線情報のバリエーションのうち少なくとも1つに基づいて判定される。
 アバター画像のバリエーションは、例えば、アバター画像内のアバター201の顔の位置、顔の大きさ、顔の向き、眼球の向き、及び、特性のうち少なくとも1つに基づいて判定される。アバター201の特性は、例えば、アバターの人種、性別、年齢、顔のつくり、顔の大きさ、肌の色等のうち少なくとも1つが想定される。
 視線情報のバリエーションは、例えば、視線情報により示される視線方向のバリエーションに基づいて判定される。
 状態制御部152は、学習用データセットのデータ量がまだ十分でない場合、又は、学習用データセットのバリエーションがまだ十分でない場合、まだ学習用データセットの量及び質のうち少なくとも一方が不十分であると判定し、処理はステップS58に進む。
 ステップS58において、学習用データセット生成部111は、必要に応じてアバター201を変更する。
 例えば、状態制御部152は、現在のアバター201を用いて生成された学習用データのバリエーションが十分である場合、学習用データセットのアバター201の特性のバリエーションが広がるように、アバター201の特性の変更をオブジェクト生成部151に指示する。例えば、状態制御部152は、アバターの人種、性別、年齢、顔のつくり、顔の大きさ、及び、肌の色のうち少なくとも1つの変更をオブジェクト生成部151に指示する。
 これに対して、オブジェクト生成部151は、状態制御部152の指示に従って、新たなアバター201をCG空間内に生成し、古いアバター201を削除する。オブジェクト生成部151は、生成したアバター201に関する情報を状態制御部152に供給する。
 一方、学習用データ生成部153は、現在のアバター201を用いて生成された学習用データのバリエーションがまだ不十分である場合、現在のアバター201のまま学習用データの生成を継続すると判定する。
 その後、処理はステップS52に戻り、ステップS57において、学習用データセットの量及び質が十分であると判定されるまで、ステップS52乃至ステップS58の処理が繰り返し実行される。
 一方、ステップS57において、状態制御部152は、学習用データセットのデータ量が十分である場合、かつ、学習用データセットのバリエーションが十分である場合、学習用データセットの量及び質が十分であると判定し、学習用データセット生成処理は終了する。
 図4に戻り、ステップS2において、学習部113は、生成された学習用データセットを用いて、機械学習を実行し、視線推定モデルを生成する。具体的には、学習部113は、学習用データセット蓄積部112に蓄積されている学習用データセットを用いて、例えばニューラルネットワークベースの学習手法を用いて、機械学習を実行する。学習部113は、機械学習により得られた視線推定モデルを推定部114に供給する。
 例えば、視線推定モデルは、対象となる人物を撮影した撮影画像のピクセル情報や入力画像から抽出した人物の顔の特徴点情報に基づいて、撮影画像内の人物の視線方向を推定するニューラルネットワークベースのモデルとされる。
 なお、例えば、アバター画像内の顔の位置及び向き、並びに、黒目の移動量等と、正解データの視線情報とを統計分析することより、視線推定モデルを生成することも可能である。
 ステップS3において、推定部114は、生成された視線推定モデルを用いて、視線推定処理を実行する。例えば、推定部114は、視線推定モデルを用いて、対象となる人物を撮影した撮影画像に基づいて、当該人物の視線方向を推定する。具体的には、例えば、推定部114は、撮影画像を視線推定モデルに入力し、視線推定モデルから出力される、当該人物の視線方向を示す視線情報を取得する。
 なお、例えば、推定部114は、視線推定モデルを用いて、各種のアプリケーションを実行するようにしてもよい。例えば、推定部114は、視線推定モデルを用いて、オンラインミーティング時に聴講者が共有資料のどの部分を見ているのかを推定するアプリケーションを実行する。これにより、発表者は、発表中に聴講者の興味のある内容に関して詳細な説明を追加したり、聴講者が見落としていそうな内容を補って説明したりすることが可能になる。
 その後、情報処理は終了する。
 以上のようにして、アバターを用いた学習用データセットの質を向上させることができる。具体的には、例えば、偏りの少ない大量の学習用データセットを自動で生成することが可能になる。その結果、学習用データセットの生成にかかる負荷の増大を抑制しつつ、視線推定モデルの学習精度を向上させることが可能になる。また、生成した視線推定モデルを用いて、人物の視線方向を高精度に推定することが可能になる。すなわち、上述した従来技術の問題3が解消する。
 さらに、学習用データのトレーサビリティが向上する。
 例えば、学習用データ生成部153は、各学習用データ生成時のスクリプトを保存する。各スクリプトは、例えば、学習用データ生成時のアバター201の種類、CG空間の状態、及び、CG空間内の各オブジェクトの状態を含む。CG空間内の各オブジェクトの状態は、CG空間内のアバター201の位置及び姿勢、CG空間内のカメラオブジェクト202の位置及び姿勢、CG空間内の注視点オブジェクト203の位置等を含む。
 これにより、各学習用データの生成に用いたアバター201の種類、CG空間の状態、及び、CG空間内の各オブジェクトの状態を後から確認することが可能になる。
 また、学習用データが保存されなくても、スクリプトが保存されることにより、学習用データの再生が可能になる。これにより、例えば、学習用データセットの公開時に、学習用データセット内に含まれる個人のプライバシーの考慮が不要になる。
 さらに、例えば、学習用データセットを保持していなくても、アバター201の権利を持っていれば、学習用データセットの公開が要求された場合、スクリプトを用いて容易に対応することが可能になる。
 <<3.第2の実施の形態>>
 次に、図19乃至図22を参照して、本技術の第2の実施の形態について説明する。
 例えば、上述したようにCG空間内の各オブジェクトの状態を変化させながら学習用データセットを生成した場合、各オブジェクトの状態の組み合わせによっては、アバター201の状態が異常になる場合が想定される。
 ここで、アバター201が異常な状態とは、例えば、その状態のアバター201を含むアバター画像が非現実的な画像等になり、機械学習に用いられた場合、学習効率が低下する可能性がある状態である。
 例えば、図19は、アバター201の状態が異常となる例を示している。
 この例では、アバター201の顔が、左下方向に大きく傾いている。一方、注視点オブジェクト203は、アバター201の顔から右下方向に大きく傾いた位置に配置されている。従って、アバター201の両目の視線が、右下方向に大きく傾いている。そして、アバター201の顔と視線の向きが大きく異なるため、アバター201の黒目の部分がほとんど見えなくなり、アバター201の両目が、ほぼ白目になっている。
 その結果、カメラオブジェクト202によりレンダリングされたアバター画像IM21において、アバター201の両目がほぼ白目になり、アバター201の視線方向が不明瞭になる。従って、アバター画像IM21のアバター201の視線方向と、正解データの視線情報により示される視線方向とが一致せず、学習効率が低下する可能性がある。
 これに対して、本技術の第2の実施の形態は、アバター画像IM21のように、異常な状態のアバター201に対応するアバター画像を学習用データセットから除外することにより、学習用データセットの質を向上させるものである。
  <情報処理システム301の構成例>
 図20は、本技術を適用した情報処理システムの第2の実施の形態である情報処理システム301の構成例を示している。なお、図中、図2の情報処理システム101と対応する部分には同じ符号を付しており、その説明は適宜省略する。
 情報処理システム301は、情報処理システム101と比較して、学習用データセット生成部111の代わりに、学習用データセット生成部311が設けられている点が異なる。
  <学習用データセット生成部311の構成例>
 次に、図21を参照して、学習用データセット生成部311の構成例について説明する。なお、図中、図3の学習用データセット生成部111と対応する部分には同じ符号を付しており、その説明は適宜省略する。
 学習用データセット生成部311は、学習用データセット生成部111と比較して、状態判定部351が追加されている点が異なる。
 状態判定部351は、CG空間情報を状態制御部152から取得する。状態判定部351は、CG空間情報に含まれるCG空間の状態、及び、CG空間内の各オブジェクトの状態に基づいて、アバター201の状態が異常であるか否かを判定する。状態判定部351は、アバター201の状態が異常であると判定した場合、アバター201の状態が異常であることを状態制御部152に通知する。一方、状態判定部351は、アバター201の状態が正常であると判定した場合、状態制御部152から取得したCG空間情報を学習用データ生成部153に供給する。
  <情報処理システム301の処理>
 次に、情報処理システム301の処理について説明する。
 なお、情報処理システム301による情報処理は、情報処理システム101による情報処理と同様に、上述した図4のフローチャートに従って実行される。ただし、ステップS1の学習用データセット生成処理が、図22のフローチャートに従って実行されている点が、情報処理システム101の処理と異なる。
  <学習用データセット生成処理>
 ここで、図22のフローチャートを参照して、情報処理システム301の学習用データセット生成処理の詳細について説明する。
 ステップS101及びステップS102において、図5のステップS51及びステップS52と同様の処理が実行される。
 ステップS103において、状態制御部152は、図5のステップS53の処理と同様に、アバター201の視線を注視点オブジェクト203の方向に向ける。状態制御部152は、CG空間の状態及びCG空間内の各オブジェクトの状態を示す情報を含むCG空間情報を状態判定部351に供給する。
 ステップS104において、状態判定部351は、アバター201の状態が異常であるか否かを判定する。
 具体的には、状態判定部351は、例えば、アバター201の顔とカメラオブジェクト202との相対的な位置、アバター201の顔とカメラオブジェクト202との相対的な姿勢、及び、アバター201の眼球オブジェクトの向き(回転角)のうち1つ以上に基づいて、アバター201が異常な状態であるか否かを判定する。
 例えば、アバター201が異常な状態として、アバター画像においてアバター201の少なくとも一方の目が見えない状態が想定される。
 アバター画像においてアバター201の少なくとも一方の目が見えない状態の例として、例えば、アバター201の少なくとも一方の目がカメラオブジェクト202の画角からはみ出ている状態(以下、画角外状態と称する)が想定される。すなわち、アバター201の少なくとも一方の目がアバター画像からはみ出ている状態である。
 画角外状態は、例えば、アバター201の各目の眼球オブジェクトとカメラオブジェクト202との相対位置に基づいて検出することが可能である。
 アバター画像においてアバター201の少なくとも一方の目が見えない状態の他の例として、例えば、アバター201の顔がカメラオブジェクト202と異なる方向を向いており、カメラオブジェクト202から見て、アバター201の少なくとも一方の目が隠れている状態(以下、隠れ状態と称する)が想定される。すなわち、アバター画像においてアバター201の少なくとも一方の目が隠れている状態である。
 隠れ状態は、例えば、アバター201の少なくとも一方の目の眼球オブジェクトとカメラオブジェクト202とを結んだ線分上にアバター201の顔が存在する場合に発生する。従って、隠れ状態は、例えば、アバター201の各目の眼球オブジェクトとカメラオブジェクト202との相対位置、及び、アバター201の顔とカメラオブジェクト202との相対位置に基づいて検出することが可能である。
 さらに、アバター201が異常な状態として、例えば、カメラオブジェクト202から見て、アバター201の少なくとも一方の目が白目と同様の状態になっている状態(以下、白目状態と称する)が想定される。すなわち、アバター画像においてアバター201の少なくとも一方の目が白目と同様の状態になっている状態である。
 なお、白目と同様の状態とは、例えば、アバター201の目における黒目の領域の割合又は面積が所定の閾値未満の状態とされる。
 白目状態は、例えば、図19を参照して上述したように、アバター201の顔向きと視線方向の差が大きすぎる場合に発生する。従って、白目状態は、例えば、アバター201の顔の向き、及び、各目の眼球オブジェクトの向き(回転角)に基づいて検出することが可能である。
 例えば、状態判定部351は、画角外状態、隠れ状態、及び、白目状態のいずれも検出できなかった場合、アバター201の状態が正常であると判定し、状態制御部152から取得したCG空間情報を学習用データ生成部153に供給する。その後、処理はステップS105に進む。
 ステップS105乃至ステップS107において、図5のステップS54乃至ステップS56と同様の処理が実行される。その後、処理はステップS108に進む。
 一方、ステップS104において、状態判定部351は、画角外状態、隠れ状態、及び、白目状態のうち少なくとも1つを検出した場合、アバター201の状態が異常であると判定し、アバター201の状態が異常であることを状態制御部152に通知する。その後、ステップS105乃至ステップS107の処理はスキップされ、処理はステップS108に進む。すなわち、アバター201の状態が異常である場合、学習用データは生成されず、異常であると判定されたアバター201に基づく学習用データが、学習用データセットに追加されない。
 ステップS108において、図7のステップS57の処理と同様に、学習用データセットの量及び質が十分であるか否かが判定される。学習用データセットの量及び質のうち少なくとも一方がまだ不十分であると判定された場合、処理はステップS109に進む。
 ステップS109において、図7のステップS58の処理と同様に、必要に応じてアバター201が変更される。
 その後、処理はステップS102に戻り、ステップS108において、学習用データセットの量及び質が十分であると判定されるまで、ステップS102乃至ステップS109の処理が繰り返し実行される。これにより、CG空間内の各オブジェクトの状態、及び、アバター201を変化させながら、学習用データが生成される。ただし、アバター201の状態が異常である場合、学習用データは生成されない。
 一方、ステップS108において、学習用データセットの量及び質が十分であると判定された場合、学習用データセット生成処理は終了する。
 以上のようにして、アバター201が異常な状態で生成される学習用データが除外され、学習用データセットの質が向上する。その結果、視線推定モデルの精度が向上する。
 <<4.第3の実施の形態>>
 次に、図23乃至図26を参照して、本技術の第3の実施の形態について説明する。
 上述した特許文献1のように、実際に人物を撮影した撮影画像を用いて学習用データセットを生成し、利用する場合、学習用データセットの偏りが生じるときがある。学習用データセットの偏りの詳細については後述するが、例えば、撮影画像における人物の顔の位置や視線方向等の偏りが想定される。
 偏りがある学習用データセットを用いて学習された視線推定モデルは、偏りのある要素に対して非ロバストなモデルになってしまう傾向にある。例えば、撮影画像内において人物の顔の位置が右にあるだけで、視線方向が右方向であると推定されるような事象が発生する場合がある。
 これに対して、本技術の第3の実施の形態では、アバター201を用いて、取得済みの学習用データセットの不足を補充することにより、学習用データセットの偏り等を低減させ、学習用データセットの量及び質を向上させるものである。
  <情報処理システム401の構成例>
 図23は、本技術を適用した情報処理システムの第3の実施の形態である情報処理システム401の構成例を示している。なお、図中、図2の情報処理システム101と対応する部分には同じ符号を付しており、その説明は適宜省略する。
 情報処理システム401は、情報処理システム101と比較して、学習用データセット取得部411及び学習用データセット補充部412が追加され、学習用データセット生成部111が削除されている点が異なる。
 学習用データセット取得部411は、学習用データセットを取得し、取得した学習用データセットを学習用データセット蓄積部112に蓄積する。
 学習用データセット補充部412は、学習用データセット蓄積部112に蓄積されている取得済みの学習用データセットの不足を補充する。
  <学習用データセット補充部412の構成例>
 図24は、学習用データセット補充部412の構成例を示している。なお、図中、図21の学習用データセット生成部311と対応する部分には同じ符号を付しており、その説明は適宜省略する。
 学習用データセット補充部412は、データ分析部451、補充計画部452、及び、学習用データセット生成部453を備える。学習用データセット生成部453は、学習用データセット生成部311と比較して、オブジェクト生成部151及び状態制御部152の代わりに、オブジェクト生成部461及び状態制御部462が設けられている点が異なる。
 データ分析部451は、学習用データセット蓄積部112に蓄積されている取得済みの学習用データセットを分析する。データ分析部451は、学習用データセットの分析結果を示す情報を補充計画部452に供給する。
 補充計画部452は、学習用データセットの分析結果に基づいて、学習用データセットの不足を補充するための計画を作成する。補充計画部452は、学習用データセットの補充計画を示す情報をオブジェクト生成部461及び状態制御部462に供給する。
 オブジェクト生成部461は、学習用データセットの補充計画に基づいて、CG空間内に各種のオブジェクトを生成する。例えば、オブジェクト生成部461は、アバター201、カメラオブジェクト202、注視点オブジェクト203等をCG空間内に生成する。オブジェクト生成部461は、生成した各オブジェクトに関する情報を状態制御部462に供給する。
 状態制御部462は、学習用データセットの補充計画に基づいて、CG空間の状態、及び、CG空間内の各オブジェクトの状態を制御することにより、学習用データを生成する条件を制御する。状態制御部462は、CG空間内の各オブジェクトの状態及びCG空間の状態を示す情報を含むCG空間情報を状態判定部351に供給する。
 また、状態制御部462は、必要に応じて、CG空間内のオブジェクトの生成をオブジェクト生成部461に指示する。
  <情報処理システム401による情報処理>
 次に、図25のフローチャートを参照して、情報処理システム401により実行される情報処理について説明する。
 ステップS201において、学習用データセット取得部411は、学習用データセットを取得する。
 なお、学習用データセットの取得方法は、特に限定されない。例えば、学習用データセット取得部411は、インターネット等において公開されている学習用データセットを自動的に収集する。例えば、学習用データセット取得部411は、ユーザにより入力される学習用データセットを取得する。
 また、学習用データセットの入力データに用いられる人物のサンプルの画像(以下、サンプル画像と称する)は、実際に人物を撮影することにより得られる画像(撮影画像)でもよいし、CGにより生成される画像(アバター画像)でもよい。
 さらに、例えば、学習用データセット取得部411は、インターネット等に公開されているサンプル画像を収集し、各サンプル画像、及び、収集したサンプル画像に対して付与される正解データを用いて、学習用データセットを生成するようにしてもよい。
 学習用データセット取得部411は、取得した学習用データセットを学習用データセット蓄積部112に蓄積する。
 ステップS202において、学習用データセット補充部412は、学習用データセット補充処理を実行する。
 ここで、図26のフローチャートを参照して、学習用データセット補充処理の詳細について説明する。
 ステップS251において、データ分析部451は、取得済みの学習用データセットを分析する。すなわち、データ分析部451は、ステップS201の処理で取得され、学習用データセット蓄積部112に蓄積されている学習用データセットを分析する。
 データ分析部451は、学習用データセットの分析結果に基づいて、学習用データの不足を検出する。
 ここで、学習用データセットの不足とは、例えば、学習用データセットの量及び質のうち少なくとも1つの不足である。学習用データセットの量の不足とは、例えば、学習用データセットのデータ量の不足である。学習用データセットの質の不足とは、例えば、学習用データセットのバリエーションの不足を含む。
 学習用データセットのバリエーションの不足は、例えば、学習用データセットの偏りにより表される。学習用データセットの偏りは、例えば、入力データの偏り及び正解データの偏りを含む。
 入力データの偏りは、例えば、サンプルの偏り、及び、サンプル画像の偏りを含む。サンプルの偏りは、例えば、サンプルの特性の偏りを含む。サンプルの特性の偏りは、例えば、人種、性別、年齢、顔のつくり、顔の大きさ、顔の色等のうち少なくとも1つの偏りを含む。サンプル画像の偏りは、例えば、サンプル画像内の顔から得られる情報の偏りを含む。サンプル画像内の顔から得られる情報の偏りは、例えば、顔の位置、顔の大きさ、顔向き、眼球の向き、視線方向と顔向きの相関等のうち少なくとも1つの偏りを含む。
 正解データの偏りは、例えば、視線情報の偏りを含む。視線情報の偏りは、例えば、視線情報により示される視線方向の偏りを含む。
 データ分析部451は、学習用データの不足の検出結果を示す情報を補充計画部452に供給する。
 ステップS252において、補充計画部452は、分析結果に基づいて、学習用データの補充を計画する。
 具体的には、例えば、補充計画部452は、学習用データセットが十分なデータ量になり、かつ、学習用データセットの偏りが補正されるように、学習用データセットの補充を計画する。例えば、補充計画部452は、補充分の学習用データを生成する際のアバター201の特性、及び、CG空間内の各オブジェクトの状態を計画する。
 アバターの特性は、例えば、人種、性別、年齢、顔のつくり、顔の大きさ、顔の色等のうち少なくとも1つを含む。
 CG空間内の各オブジェクトの状態は、例えば、アバター201の顔とカメラオブジェクト202との相対的な位置及び姿勢、並びに、アバター201の目に対する注視点オブジェクト203の相対位置等を含む。
 例えば、取得済みの学習用データセットのサンプル画像において、サンプルの顔とカメラとの距離が略一定である場合、アバター201の顔とカメラオブジェクト202との距離が異なるアバター画像が生成されるように、CG空間内の各オブジェクトの状態が計画される。例えば、サンプル画像におけるサンプルの顔とカメラとの距離が主に50cm前後である場合、アバター201の顔とカメラオブジェクト202との距離が40cm、60cm、70cmの状態でアバター画像が生成されるように、CG空間内の各オブジェクトの状態が計画される。
 例えば、取得済みの学習用データセットにおいて、サンプルがカメラより下を見たサンプル画像がほとんどである場合、アバター201がカメラオブジェクト202より上を見たアバター画像が生成されるように、CG空間内の各オブジェクトの状態が計画される。例えば、カメラオブジェクト202の上方5cm、10cm、15cmの位置に注視点オブジェクトが配置された状態でアバター画像が生成されるように、CG空間内の各オブジェクトの状態が計画される。
 例えば、取得済みの学習用データセットに特定の人種のサンプル画像しか含まれていない場合、アバター201の人種の種類が増えるように、アバター201の生成が計画される。例えば、アバター201の人種の割合が一定になるように、アバター201の生成が計画される。
 補充計画部452は、学習用データセットの補充計画に基づいて、補充分の学習用データを生成する際のアバター201の特性、及び、CG空間内の各オブジェクトの状態をパラメータ化した補充パラメータリストを生成する。補充計画部452は、補充パラメータリストをオブジェクト生成部461及び状態制御部462に供給する。
 ステップS253において、オブジェクト生成部461は、補充計画に基づいて、CG空間内に各オブジェクトを生成する。例えば、オブジェクト生成部461は、補充パラメータリストに基づいて、アバター201の特性を設定し、設定した特性を有するアバター201をCG空間内に生成する。オブジェクト生成部461は、カメラオブジェクト202及び注視点オブジェクト203をCG空間内に生成する。オブジェクト生成部461は、生成した各オブジェクトに関する情報を状態制御部462に供給する。
 ステップS254において、状態制御部462は、補充計画に基づいて、CG空間内の状態を更新する。具体的には、状態制御部462は、補充パラメータリストに基づいて、図5のステップS52の処理と同様に、まだ学習用データを生成していない各オブジェクトの状態の組み合わせのうちの1つに各オブジェクトの状態を更新する。
 ステップS255乃至ステップS259において、図22のステップS103乃至ステップS107と同様の処理が実行される。
 このとき、例えば、取得済み学習用データセットに含まれるサンプル画像と同様の形式で、アバター画像が生成される。これにより、学習時に、取得済み学習用データセットに含まれる学習用データと補充された学習用データとが、区別されずに同様に処理されることが可能になる。これにより、上述した従来技術の問題2が解消する。
 ステップS260において、状態制御部462は、学習用データセットの補充が終了したか否かを判定する。状態制御部462は、補充パラメータリストの中に、まだ学習用データを生成していないパラメータが残っている場合、学習用データセットの補充が終了していないと判定し、処理はステップS261に進む。
 ステップS261において、学習用データセット生成部453は、補充計画に基づいて、必要に応じてアバター201を変更する。
 例えば、状態制御部462は、補充パラメータリストに基づいて、現在のアバター201を用いて全てのパラメータの学習用データが生成済みであるか否かを判定する。状態制御部462は、現在のアバター201を用いて全てのパラメータの学習用データが生成済みであると判定した場合、補充パラメータリストに基づいて、まだ学習用データを生成していないアバター201の特性のうちの1つを選択する。状態制御部462は、アバター201の特性を、選択した特性に変更するようにオブジェクト生成部461に指示する。
 これに対して、オブジェクト生成部461は、状態制御部462の指示に従って、新たなアバター201をCG空間内に生成し、古いアバター201を削除する。オブジェクト生成部461は、生成したアバター201に関する情報を状態制御部462に供給する。
 一方、状態制御部462は、現在のアバター201を用いてまだ全てのパラメータの学習用データが生成済みでないと判定した場合、現在のアバター201のまま学習用データの生成を継続すると判定する。
 その後、処理はステップS254に戻り、ステップS260において、学習用データセットの補充が終了したと判定されるまで、ステップS254乃至ステップS261の処理が繰り返し実行される。
 一方、ステップS260において、状態制御部462は、補充パラメータリストの中に、学習用データを生成していないパラメータが残っていない場合、学習用データセットの補充が終了したと判定し、学習用データセット補充処理は終了する。
 図25に戻り、ステップS203において、学習部113は、補充後の学習用データセットを用いて、機械学習を実行し、視線推定モデルを生成する。具体的には、学習部113は、学習用データセット蓄積部112に蓄積されている補充後の学習用データセットを用いて、所定の学習手法を用いて、機械学習を実行する。学習部113は、機械学習により得られた視線推定モデルを推定部114に供給する。
 ステップS204において、図4のステップS3の処理と同様に、生成された視線推定モデルを用いて、視線推定処理が実行される。
 以上のようにして、取得済みの学習用データセットを補充することにより、学習用データセットの量及び質が向上する。そして、補充後の学習用データセットを用いて機械学習が行われることにより、視線推定モデルの精度が向上する。
 また、本技術の第3の実施の形態は、特定のユーザ(以下、対象ユーザと称する)に対して視線推定モデルのファインチューンを実行し、対象ユーザに対して視線推定モデルを最適化する場合に適用することができる。
 例えば、対象ユーザに対して視線推定モデルのファインチューンを実行する場合、対象ユーザを撮影した撮影画像を用いて取得された学習用データセットを用いて追加学習が行われる。
 この場合、例えば、撮影画像を用いて取得された学習用データセットの量が十分でなかったり、学習用データセットの偏りが大きかったりする場合、視線推定モデルが学習用データセットに対して最適化されることにより、視線推定モデルのロバスト性が低下する。
 これに対して、例えば、対象ユーザに類似するアバター201を用いて、上述したように、取得済みの学習用データセットの補充が実行されることにより、対象ユーザ用の学習用データセットの量及び質が向上する。また、事前に対象ユーザを撮影した撮影画像を用いて取得する学習用データセットのデータ量を削減することができ、学習用データセットの生成に必要な負荷が軽減される。
 なお、アバター201が対象ユーザに類似するか否かは、例えば、顔のつくりに関する特徴量を比較することにより判定可能である。例えば、対象ユーザの目頭間の距離と顔全体の長さの比が最も近いアバター201が、対象ユーザに類似するアバター201として用いられる。
 そして、補充された学習用データセットを用いて追加学習が実行されることにより、ファインチューンの精度が向上し、視線推定モデルによる対象ユーザの視線の推定精度が向上する。例えば、視線推定モデルのロバスト性が向上する。
 <<5.変形例>>
 以下、上述した本技術の実施の形態の変形例について説明する。
 例えば、一度に2体以上のアバター201がCG空間内に生成されるようにしてもよい。
 例えば、アバター201の少なくとも一方の目が白目と同様の状態になっている場合、その目の眼球オブジェクトの回転角を白目にならない範囲で補正するようにしてもよい。
 以上の説明では、アバター201の顔とカメラオブジェクト202との相対的な位置及び姿勢、並びに、アバター201の顔と注視点オブジェクト203との相対位置を変化させながら、学習用データを生成する例を示したが、各オブジェクトの他の状態を変化させながら、学習用データを生成するようにしてもよい。そのような各オブジェクトの状態として、例えば、アバター201の全身又は顔以外の部分とカメラオブジェクト202との相対的な位置及び姿勢、アバター201の全身又は顔以外の部分と注視点オブジェクト203の相対位置が想定される。また、例えば、アバター201の表情やジェスチャ等が想定される。
 例えば、CG空間の状態を変化させながら、学習用データを生成するようにしてもよい。そのようなCG空間の状態としては、例えば、CG空間の光線又は照明の状態、CG空間の背景等が想定される。
 注視点オブジェクト203は、アバター201の眼球オブジェクトの向き(回転角)を制御するための座標を指定できればよく、外観は上述した例に限定されない。また、注視点オブジェクト203は、必ずしも視認可能でなくてもよい。
 アバター201の状態の異常判定に加えて、又は、アバター201の状態の異常判定に代えて、学習用データセットの質の低下につながるようなアバター画像を検出するための異常判定が実行されるようにしてもよい。
 本技術は、例えば、視線以外の人物の非言語情報(例えば、人物の状態及び特性のうち少なくとも1つ)に関する推定処理を実行する推定モデルの学習用データセットを生成する場合にも適用することが可能である。例えば、本技術は、人物のジェスチャや感情を推定する推定モデルの学習用データセットを生成する場合に適用することが可能である。例えば、本技術は、人物の唇の動きにより人物の発言内容を推定する読唇を実行する推定モデルの学習用データセットを生成する場合に適用することができる。例えば、本技術は、人物の人種、性別、年齢等の特性を推定する推定モデルの学習用データセットを生成する場合に適用することができる。
 <<6.その他>>
  <コンピュータの構成例>
 上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図27は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 コンピュータ1000において、CPU(Central Processing Unit)1001、ROM(Read Only Memory)1002、RAM(Random Access Memory)1003は、バス1004により相互に接続されている。
 バス1004には、さらに、入出力インタフェース1005が接続されている。入出力インタフェース1005には、入力部1006、出力部1007、記憶部1008、通信部1009、及びドライブ1010が接続されている。
 入力部1006は、入力スイッチ、ボタン、マイクロフォン、撮像素子などよりなる。出力部1007は、ディスプレイ、スピーカなどよりなる。記憶部1008は、ハードディスクや不揮発性のメモリなどよりなる。通信部1009は、ネットワークインタフェースなどよりなる。ドライブ1010は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア1011を駆動する。
 以上のように構成されるコンピュータ1000では、CPU1001が、例えば、記憶部1008に記録されているプログラムを、入出力インタフェース1005及びバス1004を介して、RAM1003にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ1000(CPU1001)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア1011に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータ1000では、プログラムは、リムーバブルメディア1011をドライブ1010に装着することにより、入出力インタフェース1005を介して、記憶部1008にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部1009で受信し、記憶部1008にインストールすることができる。その他、プログラムは、ROM1002や記憶部1008に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
  <構成の組み合わせ例>
 本技術は、以下のような構成をとることもできる。
(1)
 情報処理装置が、
 3次元の仮想空間内の人物の3次元モデルの状態、及び、前記3次元モデルをレンダリングするレンダリング条件を制御し、
 前記3次元モデルの状態及び前記レンダリング条件に基づいて、前記3次元モデルをレンダリングした画像である3次元モデル画像を含む入力データ、及び、前記3次元モデルに関する正解データを含む学習用データを生成する
 情報処理方法。
(2)
 前記3次元モデルの状態は、前記仮想空間における前記3次元モデルの位置及び姿勢のうち少なくとも1つを含む
 前記(1)に記載の情報処理方法。
(3)
 前記3次元モデルの状態は、前記仮想空間における前記3次元モデルの眼球の向きをさらに含む
 前記(2)に記載の情報処理方法。
(4)
 前記正解データは、前記3次元モデルの視線方向を示す視線情報を含む
 前記(3)に記載の情報処理方法。
(5)
 前記3次元モデル画像は、前記3次元モデルの両目を含み、
 前記視線情報は、前記3次元モデルの両目に対して1つの視線方向を示す
 前記(4)に記載の情報処理方法。
(6)
 前記情報処理装置は、
 前記仮想空間内において前記3次元モデルが注視する位置を示す注視点の位置をさらに制御し、
 前記3次元モデルの眼球と前記注視点との相対位置に基づいて、前記3次元モデルの眼球の向きを制御する
 前記(3)乃至(5)のいずれかに記載の情報処理方法。
(7)
 前記情報処理装置は、
 前記3次元モデルと、前記レンダリング条件の制御に用いられるカメラオブジェクトとの相対的な位置及び姿勢を制御する
 前記(2)乃至(6)のいずれかに記載の情報処理方法。
(8)
 前記3次元モデルの姿勢は、前記仮想空間における前記3次元モデルの顔の向きを含む
 前記(2)乃至(7)のいずれかに記載の情報処理方法。
(9)
 前記情報処理装置は、
 前記3次元モデルの状態及び前記レンダリング条件を制御し、前記学習用データの集合である学習用データセットにおいて、前記3次元モデル画像内の前記3次元モデルの状態、及び、前記正解データのうち少なくとも1つのバリエーションを広げる
 前記(1)乃至(8)のいずれかに記載の情報処理方法。
(10)
 前記学習用データセットは、人物の状態及び特性のうち少なくとも1つを推定する学習モデルの学習に用いられる
 前記(9)に記載の情報処理方法。
(11)
 前記情報処理装置は、
 前記3次元モデルの状態を判定し、
 前記3次元モデルの状態が異常であると判定した場合、異常であると判定された前記3次元モデルに基づく前記学習用データを、前記学習用データの集合である学習用データセットに追加しない
 前記(1)乃至(10)のいずれかに記載の情報処理方法。
(12)
 前記3次元モデルが異常な状態とは、前記3次元モデルに基づく前記3次元モデル画像を含む前記学習用データが学習に用いられた場合、学習効率が低下する可能性がある状態である
 前記(11)に記載の情報処理方法。
(13)
 前記3次元モデルが異常な状態は、前記3次元モデル画像において前記3次元モデルの少なくとも一方の目が含まれない状態、及び、前記3次元モデルの少なくとも一方の目が白目と同様の状態である状態のうち少なくとも1つである
 前記(12)に記載の情報処理方法。
(14)
 前記情報処理装置は、
 取得済みの学習用データセットを分析し、
 前記学習用データセットの分析結果に基づいて、前記学習用データセットの量及び質のうち少なくとも1つの不足を補充する
 前記(1)乃至(13)のいずれかに記載の情報処理方法。
(15)
 前記情報処理装置は、
 前記学習用データセットの偏りを検出し、
 前記学習用データセットの偏りを補正する前記学習用データを生成し、前記学習用データセットに追加する
 前記(14)に記載の情報処理方法。
(16)
 前記情報処理装置は、
 前記3次元モデルを生成するとともに、前記3次元モデルの特性を変化させる
 前記(1)乃至(15)のいずれかに記載の情報処理方法。
(17)
 前記情報処理装置は、
 前記仮想空間の状態をさらに制御する
 前記(1)乃至(16)のいずれかに記載の情報処理方法。
(18)
 前記3次元モデルの状態は、前記3次元モデルの表情及びジェスチャのうち少なくとも1つを含む
 前記(1)乃至(17)のいずれかに記載の情報処理方法。
(19)
 3次元の仮想空間内の人物の3次元モデルの状態、及び、前記3次元モデルをレンダリングするレンダリング条件を変化させながら、前記3次元モデルの状態及び前記レンダリング条件に基づいて生成された学習用データであって、前記3次元モデルをレンダリングした画像である3次元モデル画像を含む入力データ、及び、前記3次元モデルに関する正解データを含む学習用データの集合である学習用データセットを用いた学習により生成された学習モデルを用いて、人物に関する推定処理を実行する推定部を
 備える情報処理装置。
(20)
 情報処理装置が、
 3次元の仮想空間内の人物の3次元モデルの状態、及び、前記3次元モデルをレンダリングするレンダリング条件を変化させながら、前記3次元モデルの状態及び前記レンダリング条件に基づいて生成された学習用データであって、前記3次元モデルをレンダリングした画像である3次元モデル画像を含む入力データ、及び、前記3次元モデルに関する正解データを含む学習用データの集合である学習用データセットを用いた学習により生成された学習モデルを用いて、人物に関する推定処理を実行する
 情報処理方法。
(21)
 情報処理装置が、
 3次元の仮想空間内の人物の3次元モデルの状態、及び、前記3次元モデルをレンダリングするレンダリング条件を変化させながら、前記3次元モデルの状態及び前記レンダリング条件に基づいて生成された学習用データであって、前記3次元モデルをレンダリングした画像である3次元モデル画像を含む入力データ、及び、前記3次元モデルに関する正解データを含む学習用データの集合である学習用データセットを用いて、人物に関する推定処理を実行する学習モデルの学習を実行する
 情報処理方法。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
 101 情報処理システム, 111 学習用データセット生成部, 112 学習用データセット蓄積部, 113 学習部, 114 推定部, 151 オブジェクト生成部, 152 状態制御部, 153 学習用データ生成部, 301 情報処理システム, 311 学習用データセット生成部, 351 状態判定部, 401 情報処理システム, 411 学習用データセット取得部, 412 学習用データセット補充部, 451 データ分析部, 452 補充計画部, 453 学習用データセット生成部, 461 オブジェクト生成部, 462 状態制御部

Claims (20)

  1.  情報処理装置が、
     3次元の仮想空間内の人物の3次元モデルの状態、及び、前記3次元モデルをレンダリングするレンダリング条件を制御し、
     前記3次元モデルの状態及び前記レンダリング条件に基づいて、前記3次元モデルをレンダリングした画像である3次元モデル画像を含む入力データ、及び、前記3次元モデルに関する正解データを含む学習用データを生成する
     情報処理方法。
  2.  前記3次元モデルの状態は、前記仮想空間における前記3次元モデルの位置及び姿勢のうち少なくとも1つを含む
     請求項1に記載の情報処理方法。
  3.  前記3次元モデルの状態は、前記仮想空間における前記3次元モデルの眼球の向きをさらに含む
     請求項2に記載の情報処理方法。
  4.  前記正解データは、前記3次元モデルの視線方向を示す視線情報を含む
     請求項3に記載の情報処理方法。
  5.  前記3次元モデル画像は、前記3次元モデルの両目を含み、
     前記視線情報は、前記3次元モデルの両目に対して1つの視線方向を示す
     請求項4に記載の情報処理方法。
  6.  前記情報処理装置は、
     前記仮想空間内において前記3次元モデルが注視する位置を示す注視点の位置をさらに制御し、
     前記3次元モデルの眼球と前記注視点との相対位置に基づいて、前記3次元モデルの眼球の向きを制御する
     請求項3に記載の情報処理方法。
  7.  前記情報処理装置は、
     前記3次元モデルと、前記レンダリング条件の制御に用いられるカメラオブジェクトとの相対的な位置及び姿勢を制御する
     請求項2に記載の情報処理方法。
  8.  前記3次元モデルの姿勢は、前記仮想空間における前記3次元モデルの顔の向きを含む
     請求項2に記載の情報処理方法。
  9.  前記情報処理装置は、
     前記3次元モデルの状態及び前記レンダリング条件を制御し、前記学習用データの集合である学習用データセットにおいて、前記3次元モデル画像内の前記3次元モデルの状態、及び、前記正解データのうち少なくとも1つのバリエーションを広げる
     請求項1に記載の情報処理方法。
  10.  前記学習用データセットは、人物の状態及び特性のうち少なくとも1つを推定する学習モデルの学習に用いられる
     請求項9に記載の情報処理方法。
  11.  前記情報処理装置は、
     前記3次元モデルの状態を判定し、
     前記3次元モデルの状態が異常であると判定した場合、異常であると判定された前記3次元モデルに基づく前記学習用データを、前記学習用データの集合である学習用データセットに追加しない
     請求項1に記載の情報処理方法。
  12.  前記3次元モデルが異常な状態とは、前記3次元モデルに基づく前記3次元モデル画像を含む前記学習用データが学習に用いられた場合、学習効率が低下する可能性がある状態である
     請求項11に記載の情報処理方法。
  13.  前記3次元モデルが異常な状態は、前記3次元モデル画像において前記3次元モデルの少なくとも一方の目が含まれない状態、及び、前記3次元モデルの少なくとも一方の目が白目と同様の状態である状態のうち少なくとも1つである
     請求項12に記載の情報処理方法。
  14.  前記情報処理装置は、
     取得済みの学習用データセットを分析し、
     前記学習用データセットの分析結果に基づいて、前記学習用データセットの量及び質のうち少なくとも1つの不足を補充する
     請求項1に記載の情報処理方法。
  15.  前記情報処理装置は、
     前記学習用データセットの偏りを検出し、
     前記学習用データセットの偏りを補正する前記学習用データを生成し、前記学習用データセットに追加する
     請求項14に記載の情報処理方法。
  16.  前記情報処理装置は、
     前記3次元モデルを生成するとともに、前記3次元モデルの特性を変化させる
     請求項1に記載の情報処理方法。
  17.  前記情報処理装置は、
     前記仮想空間の状態をさらに制御する
     請求項1に記載の情報処理方法。
  18.  前記3次元モデルの状態は、前記3次元モデルの表情及びジェスチャのうち少なくとも1つを含む
     請求項1に記載の情報処理方法。
  19.  3次元の仮想空間内の人物の3次元モデルの状態、及び、前記3次元モデルをレンダリングするレンダリング条件を変化させながら、前記3次元モデルの状態及び前記レンダリング条件に基づいて生成された学習用データであって、前記3次元モデルをレンダリングした画像である3次元モデル画像を含む入力データ、及び、前記3次元モデルに関する正解データを含む学習用データの集合である学習用データセットを用いた学習により生成された学習モデルを用いて、人物に関する推定処理を実行する推定部を
     備える情報処理装置。
  20.  情報処理装置が、
     3次元の仮想空間内の人物の3次元モデルの状態、及び、前記3次元モデルをレンダリングするレンダリング条件を変化させながら、前記3次元モデルの状態及び前記レンダリング条件に基づいて生成された学習用データであって、前記3次元モデルをレンダリングした画像である3次元モデル画像を含む入力データ、及び、前記3次元モデルに関する正解データを含む学習用データの集合である学習用データセットを用いた学習により生成された学習モデルを用いて、人物に関する推定処理を実行する
     情報処理方法。
PCT/JP2023/032952 2022-09-29 2023-09-11 情報処理方法及び情報処理装置 WO2024070610A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-155831 2022-09-29
JP2022155831 2022-09-29

Publications (1)

Publication Number Publication Date
WO2024070610A1 true WO2024070610A1 (ja) 2024-04-04

Family

ID=90477469

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/032952 WO2024070610A1 (ja) 2022-09-29 2023-09-11 情報処理方法及び情報処理装置

Country Status (1)

Country Link
WO (1) WO2024070610A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019023858A (ja) * 2017-07-21 2019-02-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 学習データ生成装置、学習データ生成方法、機械学習方法及びプログラム
WO2021235247A1 (ja) * 2020-05-21 2021-11-25 ソニーグループ株式会社 学習装置、生成方法、推論装置、推論方法、およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019023858A (ja) * 2017-07-21 2019-02-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 学習データ生成装置、学習データ生成方法、機械学習方法及びプログラム
WO2021235247A1 (ja) * 2020-05-21 2021-11-25 ソニーグループ株式会社 学習装置、生成方法、推論装置、推論方法、およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ERROLL WOOD, BALTRUAITIS TADAS, ZHANG XUCONG ,SUGANO YUSUKE ,ROBINSON PETER; BULLING ANDREAS: "Rendering of Eyes for Eye-Shape Registration and Gaze Estimation", 2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), IEEE, 13 December 2015 (2015-12-13), pages 3756 - 3764, XP032866733, DOI: 10.1109/ICCV.2015.428 *

Similar Documents

Publication Publication Date Title
US11087519B2 (en) Facial animation implementation method, computer device, and storage medium
US9224060B1 (en) Object tracking using depth information
Sugano et al. Calibration-free gaze sensing using saliency maps
KR102334139B1 (ko) 적응적 호모그래피 매핑에 기초한 눈 시선 추적
US9443325B2 (en) Image processing apparatus, image processing method, and computer program
US20150302239A1 (en) Information processor and information processing method
WO2015026902A1 (en) Multi-tracker object tracking
WO2015041983A1 (en) Dynamic object tracking for user interfaces
ES2883563T3 (es) Método y aparato de estimación de la mirada
US10062216B2 (en) Applying facial masks to faces in live video
US9747695B2 (en) System and method of tracking an object
US20230230305A1 (en) Online streamer avatar generation method and apparatus
CN111815768B (zh) 三维人脸重建方法和装置
US20230195224A1 (en) Systems and methods for gaze-tracking
CN109859857A (zh) 身份信息的标注方法、装置和计算机可读存储介质
Yang et al. Visage: A face interpretation engine for smartphone applications
CN113192132A (zh) 眼神捕捉方法及装置、存储介质、终端
Chen et al. 3D face reconstruction and gaze tracking in the HMD for virtual interaction
WO2024070610A1 (ja) 情報処理方法及び情報処理装置
CN112700568A (zh) 一种身份认证的方法、设备及计算机可读存储介质
JP2004157778A (ja) 鼻位置の抽出方法、およびコンピュータに当該鼻位置の抽出方法を実行させるためのプログラムならびに鼻位置抽出装置
WO2023044233A1 (en) Region of interest capture for electronic devices
Bulbul et al. A face tracking algorithm for user interaction in mobile devices
Burch et al. Convolutional neural networks for real-time eye tracking in interactive applications
WO2020255645A1 (ja) 3次元データ更新装置、顔向き推定装置、3次元データ更新方法およびコンピュータ読み取り可能な記録媒体