WO2023127005A1 - データ拡張装置、データ拡張方法、及びコンピュータ読み取り可能な記録媒体 - Google Patents

データ拡張装置、データ拡張方法、及びコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
WO2023127005A1
WO2023127005A1 PCT/JP2021/048544 JP2021048544W WO2023127005A1 WO 2023127005 A1 WO2023127005 A1 WO 2023127005A1 JP 2021048544 W JP2021048544 W JP 2021048544W WO 2023127005 A1 WO2023127005 A1 WO 2023127005A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
dimensional
dimensional coordinates
coordinates
image
Prior art date
Application number
PCT/JP2021/048544
Other languages
English (en)
French (fr)
Inventor
遊哉 石井
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2023570502A priority Critical patent/JPWO2023127005A5/ja
Priority to PCT/JP2021/048544 priority patent/WO2023127005A1/ja
Publication of WO2023127005A1 publication Critical patent/WO2023127005A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present invention relates to a data extension device and a data extension method for extending training data for constructing a learning model for estimating a person's posture, and a computer-readable record recording a program for realizing them. Regarding the medium.
  • Patent Document 1 a technique for estimating a person's posture by detecting the three-dimensional coordinates of each joint of the person from a two-dimensional image.
  • Such technology is expected to be used in the fields of image monitoring systems, sports, games, and the like.
  • a learning model is used to detect the three-dimensional coordinates of each joint of a person.
  • the learning model includes, as training data, two-dimensional coordinates of joints extracted from a person in an image (hereinafter referred to as "two-dimensional joint point coordinates”) and three-dimensional coordinates of extracted joints (hereinafter referred to as “three-dimensional joint points”). point coordinates”) and machine learning (see, for example, Non-Patent Document 1).
  • Non-Patent Document 1 discloses a technique for expanding training data.
  • each joint point that constitutes the three-dimensional joint point coordinates of a specific person is first projected onto a two-dimensional plane.
  • the joint points of a part of the person are compared with the two-dimensional joint point coordinates prepared in advance, and the matching two-dimensional joint point coordinates are specified.
  • a portion corresponding to the specified two-dimensional joint point coordinates is cut out from the two-dimensional image corresponding to the specified two-dimensional joint point coordinates.
  • the clipped portion is pasted on another two-dimensional image, and a two-dimensional image corresponding to the original three-dimensional joint point coordinates is obtained.
  • the 2D joint point coordinates extracted from the obtained 2D image and the original 3D joint point coordinates are used as new training data.
  • the original 3D joint point coordinates and the 3D joint point coordinates corresponding to the 2D joint point coordinates that match the projected joint points do not match. sometimes not.
  • the human posture corresponding to the original three-dimensional joint point coordinates and the human posture corresponding to the matched two-dimensional joint point coordinates may differ in real space.
  • An example of an object of the present disclosure is to provide a data extension device, a data extension method, and a computer-readable recording medium that can extend training data in constructing a learning model for detecting three-dimensional joint point coordinates. It is in.
  • a data expansion device includes: a data acquisition unit that acquires data containing a set of three-dimensional coordinates of each joint point of a specific person; a projection processing unit that projects each of the three-dimensional coordinates included in the acquired data onto a two-dimensional plane to generate projected coordinates of each of the joint points; For each pair of data in which a set of three-dimensional coordinates of joint points of a person, a two-dimensional image of the person, and camera parameters are associated with each other, each of the three-dimensional coordinates of the pair of data is obtained using the camera parameters.
  • the obtained data or a set of three-dimensional coordinates included in the pair of data are manipulated such that the generated set of projected coordinates overlaps the specified set of two-dimensional coordinates.
  • a data search unit that identifies the grouped data corresponding to the acquired data based on the similarity calculated for each grouped data
  • an image generation unit that generates a new two-dimensional image by synthesizing a part or all of the two-dimensional image of the identified group data with another two-dimensional image; is equipped with It is characterized by
  • the data augmentation method in one aspect of the present disclosure includes: a data acquisition step of acquiring data comprising a set of three-dimensional coordinates for each joint point of a particular person; a projection processing step of projecting each of the three-dimensional coordinates included in the acquired data onto a two-dimensional plane to generate projected coordinates of each of the joint points; For each pair of data in which a set of three-dimensional coordinates of joint points of a person, a two-dimensional image of the person, and camera parameters are associated with each other, each of the three-dimensional coordinates of the pair of data is obtained using the camera parameters.
  • the obtained data or a set of three-dimensional coordinates included in the pair of data are manipulated such that the generated set of projected coordinates overlaps the specified set of two-dimensional coordinates. and, after the operation, calculating the degree of similarity between the set of three-dimensional coordinates included in the acquired data and the set of three-dimensional coordinates included in the paired data, a data search step of identifying the grouped data corresponding to the acquired data based on the similarity calculated for each grouped data; an image generating step of generating a new two-dimensional image by synthesizing part or all of the two-dimensional image of the identified group data with another two-dimensional image; characterized by having
  • a computer-readable recording medium in one aspect of the present disclosure includes: to the computer, a data acquisition step of acquiring data comprising a set of three-dimensional coordinates for each joint point of a particular person; a projection processing step of projecting each of the three-dimensional coordinates included in the acquired data onto a two-dimensional plane to generate projected coordinates of each of the joint points; For each pair of data in which a set of three-dimensional coordinates of joint points of a person, a two-dimensional image of the person, and camera parameters are associated with each other, each of the three-dimensional coordinates of the pair of data is obtained using the camera parameters.
  • the obtained data or a set of three-dimensional coordinates included in the pair of data are manipulated such that the generated set of projected coordinates overlaps the specified set of two-dimensional coordinates.
  • a program is recorded that includes instructions for executing
  • training data can be expanded in constructing a learning model for detecting three-dimensional joint point coordinates.
  • FIG. 1 is a configuration diagram showing a schematic configuration of a data expansion device according to Embodiment 1.
  • FIG. 2 is a configuration diagram specifically showing the configuration of the data extension device according to the first embodiment.
  • FIG. 3 is a diagram showing an example of target data used in the first embodiment.
  • FIG. 4 is an explanatory diagram for explaining the operation processing of the 3D pose data set according to the first embodiment.
  • FIG. 5 is an explanatory diagram for explaining similarity calculation processing according to the first embodiment.
  • 6 is a diagram schematically showing a new two-dimensional image created in Embodiment 1.
  • FIG. FIG. 7 is a flowchart showing the operation of the data extension device according to Embodiment 1.
  • FIG. 8 is a configuration diagram showing the configuration of the data expansion device according to the second embodiment.
  • FIG. 9 is an explanatory diagram for explaining body shape change processing according to the second embodiment.
  • FIG. 10 is a flow chart showing the operation of the data extension device according to the second embodiment.
  • FIG. 11 is a block diagram showing an example of a computer that implements the data extension device according to the first and second embodiments.
  • Embodiment 1 A data extension device, a data extension method, and a program according to Embodiment 1 will be described below with reference to FIGS. 1 to 7.
  • FIG. 1 A data extension device, a data extension method, and a program according to Embodiment 1 will be described below with reference to FIGS. 1 to 7.
  • FIG. 1 A data extension device, a data extension method, and a program according to Embodiment 1 will be described below with reference to FIGS. 1 to 7.
  • FIG. 1 is a configuration diagram showing a schematic configuration of a data expansion device according to Embodiment 1. As shown in FIG.
  • the data extension device 10 in Embodiment 1 shown in FIG. 1 is a device that extends training data, specifically, training data for constructing a learning model for estimating a person's posture.
  • the data extension device 10 includes a data acquisition unit 11, a projection processing unit 12, a data search unit 13, and an image generation unit .
  • the data acquisition unit 11 acquires data (hereinafter referred to as "target data") including a set of three-dimensional coordinates of each joint point of a specific person.
  • the projection processing unit 12 projects each three-dimensional coordinate included in the acquired target data onto a two-dimensional plane to generate projected coordinates of each joint point.
  • the data search unit 13 executes the following processing for each pair of data.
  • Group data is data in which a set of three-dimensional coordinates of joint points of a person, a two-dimensional image of the person, and camera parameters are associated with each other.
  • the data searching unit 13 first uses the camera parameters for each set of data to specify the corresponding two-dimensional coordinates on the two-dimensional image of each of the three-dimensional coordinates of the set of data.
  • the data searching unit 13 calculates the three-dimensional coordinates included in the acquired target data or group data so that the generated set of projected coordinates and the specified set of two-dimensional coordinates overlap for each group data. Manipulate sets.
  • overlapping is not limited to the case where all the two-dimensional coordinates forming the set of projective coordinates completely match the two-dimensional coordinates forming the specified set of two-dimensional coordinates. There is no “overlapping”. A case where a part of the two-dimensional coordinates forming the set of projected coordinates coincides with a part of the two-dimensional coordinates of the specified set of two-dimensional coordinates is also included.
  • the degree of similarity between a set of projective coordinates and a specified set of two-dimensional coordinates is equal to or greater than a set value, it can be determined that the former and the latter "overlap".
  • the degree of similarity in this case is obtained, for example, for each two-dimensional coordinate that constitutes the set of projective coordinates, by obtaining the deviation from each two-dimensional coordinate of the set of specified two-dimensional coordinates, and based on the total value of the deviations, the average value, etc. calculated as
  • the data search unit 13 calculates the degree of similarity between the set of three-dimensional coordinates included in the post-operation target data and the set of three-dimensional coordinates of the set of data for each set of data. After that, the data searching unit 13 identifies grouped data corresponding to the acquired target data based on the similarity calculated for each grouped data.
  • the image generation unit 14 generates a new two-dimensional image by synthesizing part or all of the two-dimensional image of the identified paired data with another two-dimensional image. Image data of new two-dimensional images are used as training data.
  • the data expansion device 10 obtains the degree of similarity between the set of three-dimensional coordinates of the joint points of the target data and the set of three-dimensional coordinates of the joint points of the data stored in the database. are similar, the corresponding two-dimensional images are used to create new training data.
  • training data is augmented using 2D images in which the original 2D image and the 2D human pose are similar, but the human pose in real space is different. situation is avoided.
  • the data extension device 10 it is possible to extend the training data while solving the conventional problems in constructing a learning model for detecting three-dimensional joint point coordinates.
  • FIG. 2 is a configuration diagram specifically showing the configuration of the data extension device according to the first embodiment.
  • FIG. 3 is a diagram showing an example of target data used in the first embodiment.
  • the data expansion device 10 includes a database 20 in addition to the data acquisition unit 11, the projection processing unit 12, the data search unit 13, and the image generation unit 14 described above. ing.
  • the data acquisition unit 11 acquires the 3D pose data set shown in FIG. 3 as target data.
  • the three-dimensional pose data set 30 consists of a set of three-dimensional coordinates for each joint point 31 of one person. Identification data (right wrist, left wrist, neck, etc.) for identifying each joint point 31 is also given to the three-dimensional pose data set.
  • the three-dimensional coordinates of each joint point 31 are expressed in the camera coordinate system, but the coordinate system is not particularly limited.
  • the three-dimensional coordinates of each joint point 31 may be in the world coordinate system.
  • the camera coordinate system is a coordinate system whose origin is the position of the camera.
  • the horizontal direction of the camera is set as the x-axis
  • the vertical direction as the y-axis
  • the optical axis as the z-axis.
  • the z coordinate represents the distance from the camera.
  • the world coordinate system is a coordinate system arbitrarily set in real space, and the origin is set on the ground at the feet of the camera.
  • the vertical direction is set to the Z-axis.
  • the projection processing unit 12 projects all of the three-dimensional pose data set 30 or each joint point 31 (see FIG. 3) included in a specific part onto a two-dimensional plane, that is, onto the image coordinate system. Then, projective coordinates (two-dimensional coordinates) of each joint point 31 in the image coordinate system are generated.
  • the image coordinate system is a coordinate system on a two-dimensional image, and normally the upper left pixel is set as the origin.
  • a plurality of set data 21 are registered in the database 20 in advance.
  • the set data 21 includes a three-dimensional pose data set of a person, image data of a two-dimensional image of a person in the same pose as the three-dimensional pose data set, and camera parameters corresponding to these. , are associated data.
  • the internal parameters when the three-dimensional coordinates of the joint points are expressed in the camera coordinate system, the internal parameters are used, and when the three-dimensional coordinates of the joint points are expressed in the world coordinate system, the internal parameters and extrinsic parameters are used.
  • the internal parameters are represented by a matrix connecting the camera coordinate system and the image coordinate system, a focal length, an optical axis shift, and the like.
  • the extrinsic parameters are represented by a matrix connecting the world coordinate system and the camera coordinate system, the position of the camera with respect to the world coordinates, and the inclination of the camera.
  • the data search unit 13 uses the internal parameters for each set of data to obtain the image coordinates for the three-dimensional coordinates of each joint point included in all or a specific part in the three-dimensional pose data set of the set of data. Identify the corresponding two-dimensional coordinates in the system.
  • the data searching unit 13 performs the three-dimensional pose of the target data so that the set of projective coordinates generated from the target data and the set of specified two-dimensional coordinates overlap each set of data. Work with datasets. Then, the data searching unit 13 calculates the degree of similarity between the 3D pose data set after operation and the 3D pose data set of the tuple data for each tuple data. Moreover, when the projected coordinates and the two-dimensional coordinates are obtained for the specific part, the data searching unit 13 calculates the similarity using the three-dimensional pose data set of the specific part.
  • the data searching unit 13 for each pair of data, determines, for example, two or more joint points included in the generated set of projective coordinates and two or more joint points included in the specified set of two-dimensional coordinates. must match. Then, the data searching unit 13 performs one of translation, rotation, enlargement, and reduction on the three-dimensional pose data set (a set of three-dimensional coordinates) of the target data or group data as an operation so that the conditions are satisfied. , or a combination thereof.
  • the data search unit 13 also generates a unit vector from a specific joint point to another joint point in the three-dimensional coordinates after the operation, and a unit vector from a specific joint point to another joint point in the three-dimensional coordinates of the group data. and Then, the data search unit 13 calculates the degree of similarity based on the obtained unit vectors of both.
  • FIG. 4 is an explanatory diagram for explaining the operation processing of the 3D pose data set according to the first embodiment.
  • FIG. 5 is an explanatory diagram for explaining similarity calculation processing according to the first embodiment.
  • pn and qn indicate joint points, respectively.
  • p AD,j be a set of joint points p j and joint points connected to the joint points p j by bones.
  • the joint points p j and p i are denoted as p c j and p c i in the 3D pose data set.
  • the joint points obtained by projecting the joint points p c j and p c i onto the image coordinate system are denoted by p l j and p l i .
  • p l i ⁇ p l AD,j be the farthest articulation point from p l j .
  • pair data two corresponding joint points q j and q i are assumed, and a set of joint points connected to these by bones is q AD,j .
  • the joint points q j and q i are denoted as q c j and q c i in the 3D pose data set.
  • the joint points in the image coordinate system corresponding to the joint points q j and q i are denoted by q l j and q l i .
  • q l i ⁇ q l AD,j be the farthest articulation point from q l j .
  • the data search unit 13 performs three - dimensional Perform any or a combination of translation, rotation, expansion, and contraction on the pose data set qc .
  • This manipulation also manipulates the articulation points of the image coordinate system containing q l j and q l i .
  • the manipulated q l j and q c j are denoted by q l′ j and q c′ j respectively (see FIG. 5).
  • rotation is performed only within the xy plane of the camera coordinate system. Enlargement and reduction are performed by the same magnification on all of the x-axis, y-axis, and z-axis of the camera coordinate system.
  • one or a combination of translation, rotation, enlargement, and reduction is also performed on the two-dimensional image I that constitutes the set data. Let I′ be the two-dimensional image after the operation.
  • the data search unit 13 obtains a unit vector t jk from the joint point p c j to p c k ⁇ p CAD ,j in the target data, and in the group data, the joint point Find the unit vector s jk from q c′ j to q c′ k ⁇ q C′ AD,j . Subsequently, the data search unit 13 uses Equation 1 below to calculate the similarity D j between the structure centered on the joint point p c j and the structure centered on the joint point q c′ j . . k is the index of the joint point satisfying p c k ⁇ p c AD,j .
  • Equation 1 cosine similarity is used as the similarity.
  • Embodiment 1 is not limited to this, and the Euclidean distance between p c k ⁇ p CAD ,j and q c′ k ⁇ q C′ AD,j may be used as the degree of similarity.
  • the data search unit 13 calculates the similarity D j for all group data stored in the database 20, and specifies the group data having the maximum similarity D j . Note that when the projected coordinates and the two-dimensional coordinates are obtained for the specific parts, the set data in which only the specific parts are similar is specified.
  • the image generation unit 14 cuts out a specific part (for example, left leg, right leg, right arm, etc.) of the two-dimensional image I' after the operation described above, when group data having similar specific parts is identified. generates a patch image.
  • the image generation unit 14 uses the joint point q l′ j in the image coordinate system after the operation and the joint point q c′ j in the three-dimensional pose data set after the operation to generate the patch image, Allocate a portion of the corresponding 3D pose dataset.
  • the image generating unit 14 generates a new two-dimensional image by synthesizing the generated patch image with another two-dimensional image (such as an image showing a person whose specific part is shielded).
  • the new two-dimensional image thus obtained is used as training data for constructing a learning model for estimating a person's posture.
  • the data searching unit 13 can specify the set of data with the maximum similarity for each different part.
  • the image generation unit 14 generates a patch image for each part, and pastes the patch image of each part to the background image to create a new image of one person (a new two-dimensional image). to generate At this time, the image generator 14 also synthesizes a three-dimensional pose data set corresponding to each patch image. The new two-dimensional image thus obtained and the combined three-dimensional pose data set also serve as training data for constructing a learning model for estimating a person's posture.
  • FIG. 6 is a diagram schematically showing a new two-dimensional image created in Embodiment 1.
  • a new two-dimensional image is created by synthesizing a patch image 32, a patch image 33, a patch image 34, a patch image 35, and a background image 36 having different parts.
  • FIG. 7 is a flowchart showing the operation of the data extension device according to Embodiment 1.
  • FIG. 1 to 6 will be referred to as needed in the following description.
  • the data extension method is implemented by operating the data extension device 10 . Therefore, the explanation of the data expansion method in Embodiment 1 is replaced with the explanation of the operation of the data expansion device 10 below.
  • the data acquisition unit 11 acquires a 3D pose data set of a specific person as target data (step A1).
  • the projection processing unit 12 projects each of the joint points 31 (see FIG. 3) included in the specific part of the three-dimensional pose data set 30 acquired in step A1 onto the image coordinate system. Projective coordinates (two-dimensional coordinates) of each joint point 31 are generated (step A2).
  • the data search unit 13 reads the group data from the database 20, and uses the internal parameters for each group data to perform the three-dimensional calculation of each joint point included in the specific part of the three-dimensional pose data set of the group data. For the coordinates, identify the corresponding two-dimensional coordinates in the image coordinate system (step A3).
  • the data searching unit 13 extracts the three-dimensional pose data acquired in step A1 so that the set of projective coordinates generated in step A2 and the set of two-dimensional coordinates specified in step A3 overlap each set of data. Manipulate the 3D pose data set of the set or tuple data (step A4).
  • step A4 the data searching unit 13 extracts two or more joint points included in the set of projective coordinates generated in step A2 and the set of two-dimensional coordinates specified in step A3 for each pair of data.
  • the condition is that two or more included joint points match.
  • the data searching unit 13 performs any one of translation, rotation, enlargement, and reduction on the three-dimensional pose data set acquired in step A1 or the three-dimensional pose data set of the group data so that the conditions are satisfied. or a combination of these.
  • the data searching unit 13 calculates the degree of similarity between the 3D pose data set of the target data and the 3D pose data set of the tuple data after the operation of step A4 for each tuple data (step A5).
  • step A5 the data searching unit 13 generates a unit vector from a specific joint point in the three-dimensional coordinates after the operation to another joint point, and a unit vector from the specific joint point in the three-dimensional coordinates of the set data and the unit vector pointing to the joint point of . Then, the data search unit 13 calculates the degree of similarity based on the obtained unit vectors of both.
  • the data search unit 13 identifies the set of data with the highest similarity based on the similarity calculated for each set of data in step A5 (step A6).
  • the image generation unit 14 cuts out a specific part (eg, left leg, right leg, right arm, etc.) of the two-dimensional image of the group data identified in step A6 to generate a patch image (step A7).
  • a specific part eg, left leg, right leg, right arm, etc.
  • the image generator 14 uses the patch image generated in step A7 to generate a new two-dimensional image, and further uses this to generate new training data (step A8). Specifically, the image generator 14 generates a new two-dimensional image using the patch image generated in step A7, the patch image already generated for another part, and the background image.
  • the data extension device 10 obtains the degree of similarity between the 3D pose data set as target data and the 3D pose data set stored in the database, and if the two are similar, the corresponding New training data is created using patch images generated from two-dimensional images. Therefore, it is possible to avoid extending the training data using two-dimensional images in which the posture of a person in the real space is different.
  • Embodiment 1 in constructing a learning model for detecting three-dimensional joint point coordinates, training data can be expanded while solving conventional problems.
  • the program in Embodiment 1 may be any program that causes a computer to execute steps A1 to A8 shown in FIG. By installing this program in a computer and executing it, the data expansion device 10 and the data expansion method in Embodiment 1 can be realized.
  • the processor of the computer functions as a data acquisition unit 11, a projection processing unit 12, a data search unit 13, and an image generation unit 14, and performs processing. Examples of computers include general-purpose PCs, smartphones, and tablet-type terminal devices.
  • the database 20 may be realized by storing data files constituting these in a storage device such as a hard disk provided in a computer, or realized by a storage device of another computer. It's okay to be there.
  • each computer may function as one of the data acquisition unit 11, the projection processing unit 12, the data search unit 13, and the image generation unit 14, respectively.
  • FIG. 8 is a configuration diagram showing the configuration of the data expansion device according to the second embodiment.
  • a data extension device 40 according to Embodiment 2 shown in FIG. 8 is a device that extends training data for constructing a learning model for estimating a person's posture, like the data extension device 10 according to Embodiment 1.
  • the data expansion device 40 also includes a data acquisition unit 11, a projection processing unit 12, a data search unit 13, and an image generation unit 14, like the data expansion device 10. .
  • the data expansion device 40 includes a body shape changing section 41 in addition to the above configuration.
  • the data extension device 40 according to the second embodiment differs from the data extension device 10 according to the first embodiment in this respect. The following description will focus on the differences.
  • the body shape changing unit 41 changes the three-dimensional coordinates in the target data (three-dimensional pose data set) acquired by the data acquiring unit 11 so that the body shape of a specific person is changed.
  • the data can be extended by changing the body shape of the person in the target data. Therefore, in building a learning model for detecting three-dimensional joint point coordinates, it is possible to solve the problem that a specific body shape is over-learned and the detection accuracy varies depending on the body shape.
  • the body shape changing unit 41 changes the three-dimensional coordinates in the acquired three-dimensional pose data set so that the vertical change rate and the horizontal change rate of a specific person satisfy the setting conditions.
  • the projection processing unit 12 projects each of the changed three-dimensional coordinates onto the two-dimensional plane.
  • FIG. 9 is an explanatory diagram for explaining body shape change processing according to the second embodiment.
  • FIG. 9 shows an example in which the space between joint point 1 and joint point 2 is enlarged (or reduced).
  • Equation 2 “ ⁇ ” is appropriately set, for example, based on publicly available statistical information about a person's body shape. Also, “ ⁇ " may be appropriately set while conducting experiments so that the detection accuracy by the learning model is increased. In the second embodiment, the setting condition is not limited to the example of Equation 2 below, as long as it is set so that the changed body shape does not look unnatural.
  • FIG. 10 is a flow chart showing the operation of the data extension device according to the second embodiment. 8 and 9 will be referred to as necessary in the following description. Further, in the second embodiment, the data expansion method is implemented by operating the data expansion device 40 . Therefore, the explanation of the data expansion method in the second embodiment is replaced with the explanation of the operation of the data expansion device 40 below.
  • the data acquisition unit 11 first acquires a 3D pose data set of a specific person as target data (step B1).
  • the body shape changing unit 41 changes the three-dimensional coordinates in the three-dimensional pose data set acquired in step B1 so that the vertical change rate and the horizontal change rate of a specific person satisfy the setting conditions. (step B2).
  • the projection processing unit 12 projects each of the joint points 31 (see FIG. 3) included in the specific part of the three-dimensional pose data set 30 after the change in step B2 onto the image coordinate system. Projective coordinates (two-dimensional coordinates) of each joint point 31 are generated (step B3). Step B3 is the same step as step A2 shown in FIG.
  • the data search unit 13 reads the group data from the database 20, and uses the internal parameters for each group data to perform the three-dimensional calculation of each joint point included in the specific part of the three-dimensional pose data set of the group data.
  • the corresponding two-dimensional coordinates in the image coordinate system are specified (step B4).
  • Step B4 is the same step as step A3 shown in FIG.
  • the data searching unit 13 extracts the three-dimensional pose data acquired in step B1 so that the set of projective coordinates generated in step B3 and the set of two-dimensional coordinates specified in step B4 overlap each set of data.
  • Manipulate the 3D pose data set of the set or tuple data step B5 is the same step as step A4 shown in FIG.
  • Step B6 is the same step as step A5 shown in FIG.
  • Step B7 is the same step as step A6 shown in FIG.
  • Step B8 is similar to step A7 shown in FIG.
  • Step B9 is the same step as step A8 shown in FIG.
  • Embodiment 2 the body shape represented by the 3D pose data set in the target data can be changed.
  • Embodiment 2 is useful for suppressing the over-learning of a specific body shape in a learning model.
  • the second embodiment as in the first embodiment, a situation in which training data is expanded by using two-dimensional images in which human postures in real space are different is avoided.
  • the program in the second embodiment may be any program that causes a computer to execute steps B1 to B9 shown in FIG.
  • the processor of the computer functions as the data acquisition unit 11, the projection processing unit 12, the data search unit 13, the image generation unit 14, and the body shape modification unit 41, and performs processing.
  • Examples of computers include general-purpose PCs, smartphones, and tablet-type terminal devices.
  • the database 20 may be realized by storing data files constituting these in a storage device such as a hard disk provided in a computer, or realized by a storage device of another computer. It's okay to be there.
  • each computer may function as one of the data acquisition unit 11, the projection processing unit 12, the data search unit 13, the image generation unit 14, and the body shape modification unit 41, respectively.
  • FIG. 11 is a block diagram showing an example of a computer that implements the data extension device according to the first and second embodiments.
  • a computer 110 includes a CPU (Central Processing Unit) 111, a main memory 112, a storage device 113, an input interface 114, a display controller 115, a data reader/writer 116, and a communication interface 117. and These units are connected to each other via a bus 121 so as to be able to communicate with each other.
  • CPU Central Processing Unit
  • the computer 110 may include a GPU (Graphics Processing Unit) or an FPGA (Field-Programmable Gate Array) in addition to the CPU 111 or instead of the CPU 111 .
  • a GPU or FPGA can execute the programs in the embodiments.
  • the CPU 111 expands the program in the embodiment, which is composed of a code group stored in the storage device 113, into the main memory 112 and executes various operations by executing each code in a predetermined order.
  • the main memory 112 is typically a volatile storage device such as a DRAM (Dynamic Random Access Memory).
  • the program in the embodiment is provided in a state stored in a computer-readable recording medium 120. It should be noted that the program in this embodiment may be distributed on the Internet connected via communication interface 117 .
  • Input interface 114 mediates data transmission between CPU 111 and input devices 118 such as a keyboard and mouse.
  • the display controller 115 is connected to the display device 119 and controls display on the display device 119 .
  • the data reader/writer 116 mediates data transmission between the CPU 111 and the recording medium 120, reads programs from the recording medium 120, and writes processing results in the computer 110 to the recording medium 120.
  • Communication interface 117 mediates data transmission between CPU 111 and other computers.
  • the recording medium 120 include general-purpose semiconductor storage devices such as CF (Compact Flash (registered trademark)) and SD (Secure Digital), magnetic recording media such as flexible disks, and CD- Optical recording media such as ROM (Compact Disk Read Only Memory) are included.
  • CF Compact Flash
  • SD Secure Digital
  • magnetic recording media such as flexible disks
  • CD- Optical recording media such as ROM (Compact Disk Read Only Memory) are included.
  • the data expansion device can also be realized by using hardware (for example, electronic circuits) corresponding to each part instead of a computer in which a program is installed. Furthermore, the data extension device may be partly implemented by a program and the rest by hardware.
  • Appendix 1 a data acquisition unit that acquires data containing a set of three-dimensional coordinates of each joint point of a specific person; a projection processing unit that projects each of the three-dimensional coordinates included in the acquired data onto a two-dimensional plane to generate projected coordinates of each of the joint points; For each pair of data in which a set of three-dimensional coordinates of joint points of a person, a two-dimensional image of the person, and camera parameters are associated with each other, each of the three-dimensional coordinates of the pair of data is obtained using the camera parameters.
  • the obtained data or a set of three-dimensional coordinates included in the pair of data are manipulated such that the generated set of projected coordinates overlaps the specified set of two-dimensional coordinates.
  • a data expansion device characterized by:
  • Appendix 2 The data expansion device according to appendix 1, The data search unit Acquisition as the operation so that two or more joint points included in the generated set of projective coordinates and two or more joint points included in the specified set of two-dimensional coordinates match each group data any one or a combination of translation, rotation, enlargement, and reduction of the set of three-dimensional coordinates included in the data or the set of data,
  • a data expansion device characterized by:
  • Appendix 3 The data expansion device according to appendix 1 or 2, further comprising a body shape changing unit that changes the set of three-dimensional coordinates in the acquired data so that the body shape of the specific person is changed;
  • the projection processing unit projects each of the changed three-dimensional coordinates onto the two-dimensional plane,
  • a data expansion device characterized by:
  • a data expansion device characterized by:
  • the data expansion device (Appendix 5) The data expansion device according to any one of Appendices 1 to 4,
  • the projection processing unit generates the projected coordinates from the three-dimensional coordinates of a specific part in the acquired data
  • the data search unit identifies the two-dimensional coordinates for the specific part of the set data
  • the image generation unit cuts out the image of the specific region as a patch image from the identified two-dimensional image of the set data, synthesizes the cut out patch image with the another two-dimensional image, and creates a new image.
  • a data expansion device characterized by:
  • Appendix 6 The data expansion device according to any one of Appendices 1 to 5, The data search unit generates a unit vector directed from a specific joint point to another joint point in the three-dimensional coordinates after the operation, and a unit vector directed from the specific joint point to another joint point in the three-dimensional coordinates of the set data. and calculating the similarity based on the obtained unit vectors of both
  • a data expansion device characterized by:
  • (Appendix 7) a data acquisition step of acquiring data comprising a set of three-dimensional coordinates for each joint point of a particular person; a projection processing step of projecting each of the three-dimensional coordinates included in the acquired data onto a two-dimensional plane to generate projected coordinates of each of the joint points; For each pair of data in which a set of three-dimensional coordinates of joint points of a person, a two-dimensional image of the person, and camera parameters are associated with each other, each of the three-dimensional coordinates of the pair of data is obtained using the camera parameters.
  • the obtained data or a set of three-dimensional coordinates included in the pair of data are manipulated such that the generated set of projected coordinates overlaps the specified set of two-dimensional coordinates.
  • a data search step of identifying the grouped data corresponding to the acquired data based on the similarity calculated for each grouped data; an image generating step of generating a new two-dimensional image by synthesizing part or all of the two-dimensional image of the identified group data with another two-dimensional image; having A data augmentation method characterized by:
  • appendix 9 The data augmentation method according to appendix 7 or 8, further comprising a body shape modification step of modifying the set of three-dimensional coordinates in the acquired data such that the body shape of the specific person is modified; Projecting each of the modified three-dimensional coordinates onto the two-dimensional plane in the projection processing step;
  • a data augmentation method characterized by:
  • Appendix 10 The data augmentation method according to appendix 9, In the body shape changing step, changing the set of three-dimensional coordinates in the acquired data so that the rate of change in the vertical direction and the rate of change in the horizontal direction of the specific person satisfy a set condition;
  • a data augmentation method characterized by:
  • Appendix 11 The data augmentation method according to any one of Appendices 7 to 10, generating the projected coordinates from the three-dimensional coordinates of the specific part in the acquired data in the projection processing step; In the data search step, specifying the two-dimensional coordinates for the specific part of the set data; In the image generating step, an image of the specific region is cut out as a patch image from the two-dimensional image of the set data identified, and the cut-out patch image is combined with the other two-dimensional image to create a new image.
  • a data augmentation method characterized by:
  • Appendix 12 The data augmentation method according to any one of Appendices 7 to 11, In the data search step, a unit vector directed from a specific joint point to another joint point in the three-dimensional coordinates after the manipulation, and a unit vector directed from the specific joint point to another joint point in the three-dimensional coordinates of the set data and calculating the similarity based on the obtained unit vectors of both
  • a data augmentation method characterized by:
  • the obtained data or a set of three-dimensional coordinates included in the pair of data are manipulated such that the generated set of projected coordinates overlaps the specified set of two-dimensional coordinates.
  • a computer-readable recording medium recording a program containing instructions for executing a
  • Appendix 14 The computer-readable recording medium according to Appendix 13, In the data search step, Acquisition as the operation so that two or more joint points included in the generated set of projective coordinates and two or more joint points included in the specified set of two-dimensional coordinates match each group data any one or a combination of translation, rotation, enlargement, and reduction of the set of three-dimensional coordinates included in the data or the set of data,
  • a computer-readable recording medium characterized by:
  • Appendix 15 The computer-readable recording medium according to Appendix 13 or 14, The program causes the computer to: further comprising instructions for executing a body modification step of modifying the set of three-dimensional coordinates in the acquired data such that the body shape of the specific person is modified; Projecting each of the modified three-dimensional coordinates onto the two-dimensional plane in the projection processing step;
  • a computer-readable recording medium characterized by:
  • Appendix 16 The computer-readable recording medium according to Appendix 15, In the body shape changing step, changing the set of three-dimensional coordinates in the acquired data so that the rate of change in the vertical direction and the rate of change in the horizontal direction of the specific person satisfy a set condition;
  • a computer-readable recording medium characterized by:
  • Appendix 17 The computer-readable recording medium according to any one of Appendices 13 to 16, generating the projected coordinates from the three-dimensional coordinates of the specific part in the acquired data in the projection processing step; In the data search step, specifying the two-dimensional coordinates for the specific part of the set data; In the image generating step, an image of the specific region is cut out as a patch image from the two-dimensional image of the set data identified, and the cut-out patch image is combined with the other two-dimensional image to create a new image. generating a two-dimensional image, A computer-readable recording medium characterized by:
  • Appendix 18 The computer-readable recording medium according to any one of Appendices 13 to 17, In the data search step, a unit vector directed from a specific joint point to another joint point in the three-dimensional coordinates after the manipulation, and a unit vector directed from the specific joint point to another joint point in the three-dimensional coordinates of the set data and calculating the similarity based on the obtained unit vectors of both
  • a computer-readable recording medium characterized by:
  • training data can be expanded in constructing a learning model for detecting three-dimensional joint point coordinates.
  • INDUSTRIAL APPLICABILITY The present invention is useful for various systems for estimating human poses from images.
  • Data Expansion Device (Embodiment 1) REFERENCE SIGNS LIST 11 data acquisition unit 12 projection processing unit 13 data search unit 14 image generation unit 20 database 30 three-dimensional pose data set 31 joint points 32, 33, 34, 35 patch image 36 background image 40 data expansion device (second embodiment) 41 body shape changing unit 110 computer 111 CPU 112 main memory 113 storage device 114 input interface 115 display controller 116 data reader/writer 117 communication interface 118 input device 119 display device 120 recording medium 121 bus

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Collating Specific Patterns (AREA)

Abstract

データ拡張装置10は人の関節点の3次元座標の集合を含むデータを取得する、データ取得部11と、各関節点の射影座標を生成する、射影処理部12と、人の関節点の3次元座標の集合と、人の2次元画像と、カメラパラメータとを互いに関連付けた組データ毎に、カメラパラメータを用いて、組データの3次元座標の2次元画像上での2次元座標を特定し、更に、組データ毎に、射影座標の集合と特定した2次元座標の集合とが重なるように、いずれかの3次元座標の集合を操作し、操作後において、3次元座標の集合間の類似度を算出し、類似度に基づいて、取得されたデータに対応する組データを特定する、データ探索部13と、特定した組データの2次元画像の一部又は全部を、別の2次元画像と合成して、新たな2次元画像を生成する、画像生成部14と、を備えている。

Description

データ拡張装置、データ拡張方法、及びコンピュータ読み取り可能な記録媒体
 本発明は、人の姿勢を推定する学習モデルの構築用の訓練データを拡張する、データ拡張装置、及びデータ拡張方法に関し、更には、それらを実現するためのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
 近年、2次元の画像から人の各関節の3次元座標を検出することによって、人の姿勢を推定する技術が開発されている(例えば、特許文献1参照)。このような技術は、画像監視システムの分野、スポーツの分野、ゲームの分野などでの利用が期待されている。また、このような技術において、人の各関節の3次元座標の検出には、学習モデルが用いられる。
 学習モデルは、例えば、訓練データとして、画像中の人から抽出した関節の2次元座標(以下「2次元関節点座標」と表記する)と、抽出した関節の3次元座標(以下「3次元関節点座標」と表記する)とを用いて、機械学習することによって構築される(例えば、非特許文献1参照)。
 ところで、学習モデルによる3次元関節点座標の検出精度を高めるためには、大量の訓練データを用意する必要があるが、大量の訓練データを用意することは簡単ではない。このため、非特許文献1は、訓練データを拡張する手法を開示している。
 非特許文献1に開示された手法では、まず、特定の人の3次元関節点座標を構成する各関節点が、2次元平面に射影される。次に、射影された関節点のうち、人の一部分の関節点について、予め用意されている2次元関節点座標と比較され、一致する2次元関節点座標が特定される。続いて、特定された2次元関節点座標に対応する2次元画像から、特定された2次元関節点座標に該当する部分が切り出される。切り出された部分は、別の2次元画像に貼り付けられ、元の3次元関節点座標に対応する2次元画像とされる。その後、得られた2次元画像から抽出された2次元関節点座標と、元の3次元関節点座標とが、新たな訓練データとされる。
特開2021-47563号公報
Gregory Rogez, Cordelia Schmid, " MoCap-guided Data Augmentation for 3D Pose Estimation in the Wild", arXiv:1607.02046v2 [cs.CV], 28 Oct 2016, [令和3年11月1日検索],インターネット<URL:http:// https://arxiv.org/pdf/1607.02046.pdf>
 しかしながら、非特許文献1に開示された手法においては、元の3次元関節点座標と、射影された関節点に一致した2次元関節点座標に対応する3次元関節点座標とが、一致していない場合がある。つまり、元の3次元関節点座標に対応する人の姿勢と、一致した2次元関節点座標に対応した人の姿勢とが、実空間では、異なる場合がある。
 これは、実空間では異なる姿勢であるのに、2次元画像上では、視点の相違によって、同じ姿勢に見えてしまうことがあることに起因している。このような場合が生じると、学習モデルによる3次元関節点座標の検出精度は低下してしまう。
 本開示の目的の一例は、3次元関節点座標を検出するための学習モデルの構築において、訓練データを拡張し得る、データ拡張装置、データ拡張方法、及びコンピュータ読み取り可能な記録媒体を提供することにある。
 上記目的を達成するため、本開示の一側面におけるデータ拡張装置は、
 特定の人の関節点それぞれの3次元座標の集合を含むデータを取得する、データ取得部と、
 取得された前記データに含まれる前記3次元座標それぞれを2次元平面上に射影して、前記関節点それぞれの射影座標を生成する、射影処理部と、
 人の関節点それぞれの3次元座標の集合と、当該人の2次元画像と、カメラパラメータとを、互いに関連付けた組データ毎に、前記カメラパラメータを用いて、当該組データの前記3次元座標それぞれの前記2次元画像上での対応する2次元座標を特定し、
更に、組データ毎に、生成された前記射影座標の集合と特定した前記2次元座標の集合とが重なるように、取得された前記データ又は当該組データに含まれる3次元座標の集合を操作し、そして、操作後において、取得された前記データに含まれる前記3次元座標の集合と当該組データに含まれる3次元座標の集合との類似度を算出し、
前記組データ毎に算出した前記類似度に基づいて、取得された前記データに対応する前記組データを特定する、データ探索部と、
 特定した前記組データの前記2次元画像の一部又は全部を、別の2次元画像と合成して、新たな2次元画像を生成する、画像生成部と、
を備えている、
ことを特徴とする。
 また、上記目的を達成するため、本開示の一側面におけるデータ拡張方法は、
 特定の人の関節点それぞれの3次元座標の集合を含むデータを取得する、データ取得ステップと、
 取得された前記データに含まれる前記3次元座標それぞれを2次元平面上に射影して、前記関節点それぞれの射影座標を生成する、射影処理ステップと、
 人の関節点それぞれの3次元座標の集合と、当該人の2次元画像と、カメラパラメータとを、互いに関連付けた組データ毎に、前記カメラパラメータを用いて、当該組データの前記3次元座標それぞれの前記2次元画像上での対応する2次元座標を特定し、
更に、組データ毎に、生成された前記射影座標の集合と特定した前記2次元座標の集合とが重なるように、取得された前記データ又は当該組データに含まれる3次元座標の集合を操作し、そして、操作後において、取得された前記データに含まれる前記3次元座標の集合と当該組データに含まれる3次元座標の集合との類似度を算出し、
前記組データ毎に算出した前記類似度に基づいて、取得された前記データに対応する前記組データを特定する、データ探索ステップと、
 特定した前記組データの前記2次元画像の一部又は全部を、別の2次元画像と合成して、新たな2次元画像を生成する、画像生成ステップと、
を有する、ことを特徴とする。
 更に、上記目的を達成するため、本開示の一側面におけるコンピュータ読み取り可能な記録媒体は、
コンピュータに、
 特定の人の関節点それぞれの3次元座標の集合を含むデータを取得する、データ取得ステップと、
 取得された前記データに含まれる前記3次元座標それぞれを2次元平面上に射影して、前記関節点それぞれの射影座標を生成する、射影処理ステップと、
 人の関節点それぞれの3次元座標の集合と、当該人の2次元画像と、カメラパラメータとを、互いに関連付けた組データ毎に、前記カメラパラメータを用いて、当該組データの前記3次元座標それぞれの前記2次元画像上での対応する2次元座標を特定し、
更に、組データ毎に、生成された前記射影座標の集合と特定した前記2次元座標の集合とが重なるように、取得された前記データ又は当該組データに含まれる3次元座標の集合を操作し、そして、操作後において、取得された前記データに含まれる前記3次元座標の集合と当該組データに含まれる3次元座標の集合との類似度を算出し、
前記組データ毎に算出した前記類似度に基づいて、取得された前記データに対応する前記組データを特定する、データ探索ステップと、
 特定した前記組データの前記2次元画像の一部又は全部を、別の2次元画像と合成して、新たな2次元画像を生成する、画像生成ステップと、
を実行させる命令を含む、プログラムを記録していることを特徴とする。
 以上のように本発明によれば、3次元関節点座標を検出するための学習モデルの構築において、訓練データを拡張することができる。
図1は、実施の形態1におけるデータ拡張装置の概略構成を示す構成図である。 図2は、実施の形態1におけるデータ拡張装置の構成を具体的に示す構成図である。 図3は、実施の形態1で用いられる対象データの一例を示す図である。 図4は、実施の形態1における3次元ポーズデータセットの操作処理を説明する説明図である。 図5は、実施の形態1における類似度の算出処理を説明する説明図である。 図6は、実施の形態1で作成された新たな2次元画像を模式的に示す図である。 図7は、実施の形態1におけるデータ拡張装置の動作を示すフロー図である。 図8は、実施の形態2におけるデータ拡張装置の構成を示す構成図である。 図9は、実施の形態2における体形変更処理を説明する説明図である。 図10は、実施の形態2におけるデータ拡張装置の動作を示すフロー図である。 図11は、実施の形態1及び2におけるデータ拡張装置を実現するコンピュータの一例を示すブロック図である。
(実施の形態1)
 以下、実施の形態1における、データ拡張装置、データ拡張方法、及びプログラムについて、図1~図7を参照しながら説明する。
[装置構成]
 最初に、実施の形態1におけるデータ拡張装置の概略構成について図1を用いて説明する。図1は、実施の形態1におけるデータ拡張装置の概略構成を示す構成図である。
 図1に示す実施の形態1における、データ拡張装置10は、訓練データ、具体的には、人の姿勢を推定する学習モデルの構築用の訓練データを拡張する、装置である。図1に示すように、データ拡張装置10は、データ取得部11と、射影処理部12と、データ探索部13と、画像生成部14とを備えている。
 データ取得部11は、特定の人の関節点それぞれの3次元座標の集合を含むデータ(以下「対象データ」と表記する)を取得する。射影処理部12は、取得された対象データに含まれる3次元座標それぞれを2次元平面上に射影して、関節点それぞれの射影座標を生成する。
 データ探索部13は、組データ毎に以下の処理を実行する。組データは、人の関節点それぞれの3次元座標の集合と、この人の2次元画像と、カメラパラメータとを、互いに関連付けたデータである。データ探索部13は、まず、組データ毎に、そのカメラパラメータを用いて、その組データの3次元座標それぞれの2次元画像上での対応する2次元座標を特定する。
 続いて、データ探索部13は、組データ毎に、生成された射影座標の集合と特定した2次元座標の集合とが重なるように、取得された対象データ又は組データに含まれる3次元座標の集合を操作する。
 ここで、「重なる」とは、射影座標の集合を構成する全ての2次元座標が、特定した2次元座標の集合を構成する2次元座標に完全に一致している場合に限定されることはない「重なる」には。射影座標の集合を構成する一部の2次元座標が、特定した2次元座標の集合の一部の2次元座標に一致している場合も含まれる。
 また、射影座標の集合と特定した2次元座標の集合との類似度が設定値以上である場合に、前者と後者とが「重なる」と判断することもできる。この場合の類似度は、例えば、射影座標の集合を構成する2次元座標毎に、特定した2次元座標の集合の各2次元座標とのズレを求め、ズレの合計値、平均値等に基づいて算出される。
 そして、データ探索部13は、組データ毎に、操作後の対象データに含まれる3次元座標の集合と、その組データの3次元座標の集合との類似度を算出する。その後、データ探索部13は、組データ毎に算出した類似度に基づいて、取得された対象データに対応する組データを特定する。
 画像生成部14は、特定した組データの2次元画像の一部又は全部を、別の2次元画像と合成して、新たな2次元画像を生成する。新たな二次元画像の画像データは、訓練データとして用いられる。
 このように、データ拡張装置10は、対象データの関節点の3次元座標の集合と、データベースに格納されているデータの関節点の3次元座標の集合と、の間の類似度を求め、両者が類似する場合に、対応する2次元画像を用いて、新たな訓練データを作成している。
 このため、従来におけるデータ拡張と異なり、元の2次元画像と2次元での人の姿勢は近似しているが、実空間での人の姿勢が異なる2次元画像を用いて、訓練データが拡張される事態は回避される。データ拡張装置10によれば、3次元関節点座標を検出するための学習モデルの構築において、従来からの問題を解消しつつ、訓練データを拡張することができる。
 続いて、図2~図6を用いて、実施の形態1におけるデータ拡張装置の構成及び機能について具体的に説明する。図2は、実施の形態1におけるデータ拡張装置の構成を具体的に示す構成図である。図3は、実施の形態1で用いられる対象データの一例を示す図である。
 図2に示すように、実施の形態1では、データ拡張装置10は、上述した、データ取得部11、射影処理部12、データ探索部13、及び画像生成部14に加えて、データベース20も備えている。
 データ取得部11は、実施の形態1では、対象データとして、図3に示す3次元ポーズ(3D pose)データセットを取得する。図3に示すように、3次元ポーズデータセット30は、1人の人の関節点31毎の3次元座標の集合で構成されている。また、3次元ポーズデータセットには、各関節点31を識別する識別データ(右手首、左手首、首等)も付与されている。
 また、図3の例では、各関節点31の3次元座標は、カメラ座標系で表現されているが、座標系は特に限定されるものではない。各関節点31の3次元座標は、世界座標系であっても良い。なお、カメラ座標系は、カメラの位置を原点とする座標系である。カメラ座標系では、カメラの水平方向がx軸、垂直方向がy軸、光軸方向がz軸に設定される。z座標はカメラからの距離を表している。また、世界座標系は、実空間に任意に設定される座標系であり、カメラの足元の地面に原点が設定される。世界座標系では、鉛直方向がZ軸に設定される。
 射影処理部12は、実施の形態1では、3次元ポーズデータセット30の全部又は特定の部位に含まれる関節点31(図3参照)それぞれを、2次元平面上、即ち、画像座標系に射影し、画像座標系における関節点31それぞれの射影座標(2次元座標)を生成する。画像座標系は、2次元の画像上での座標系であり、通常、左側の上の画素が原点に設定される。
 データベース20は、予め、複数の組データ21を登録している。組データ21は、実施の形態1では、人の3次元ポーズデータセットと、この3次元ポーズデータセットと同じポーズをしている人の2次元画像の画像データと、これらに対応するカメラパラメータと、を関連付けたデータである。
 カメラパラメータとしては、関節点の三次元座標がカメラ座標系で表現されている場合は、内部パラメータが用いられ、関節点の三次元座標が世界座標系で表現されている場合は、内部パラメータと外部パラメータとが用いられる。なお、内部パラメータは、カメラ座標系と画像座標系とを結ぶ行列、焦点距離、光軸のズレ等で表される。外部パラメータは、世界座標系とカメラ座標系とを結ぶ行列、世界座標に対するカメラの位置、カメラの傾きで表される。
 データ探索部13は、実施の形態では、組データ毎に、内部パラメータを用いて、組データの3次元ポーズデータセットにおける全部又は特定の部位に含まれる各関節点の3次元座標について、画像座標系での、対応する2次元座標を特定する。
 続いて、データ探索部13は、実施の形態1では、組データ毎に、対象データから生成した射影座標の集合と、特定した2次元座標の集合とが重なるように、対象データの3次元ポーズデータセットを操作する。そして、データ探索部13は、組データ毎に、操作後の3次元ポーズデータセットと、組データの3次元ポーズデータセットとの類似度を算出する。また、射影座標と2次元座標とが特定部位について得られている場合は、データ探索部13は、特定部位の3次元ポーズデータセットを用いて類似度を算出する。
 具体的には、データ探索部13は、組データ毎に、例えば、生成された射影座標の集合に含まれる2以上の関節点と特定した2次元座標の集合に含まれる2以上の関節点とが一致することを条件とする。そして、データ探索部13は、条件が満たされるように、操作として、対象データ又は組データの3次元ポーズデータセット(3次元座標の集合)に対して、並進、回転、拡大、及び縮小のうち、いずれか又はこれらの組合せを行う。
 また、データ探索部13は、操作後の3次元座標における特定の関節点から別の関節点に向かう単位ベクトルと、組データの3次元座標における特定の関節点から別の関節点に向かう単位ベクトルとを求める。そして、データ探索部13は、求めた両者の単位ベクトルに基づいて、類似度を算出する。
 図4及び図5を用いて、データ探索部13による3次元ポーズデータセットの操作処理と類似度の算出処理について、より詳細に説明する。図4は、実施の形態1における3次元ポーズデータセットの操作処理を説明する説明図である。図5は、実施の形態1における類似度の算出処理を説明する説明図である。
 まず、対象データの3次元ポーズデータセットをp(={p,p,・・・p})、データベース20における組データの3次元ポーズデータセットをq(={q,q,・・・q})とする。p及びqは、それぞれ関節点を示している。
 図4に示すように、対象データにおいて、同一人物の2つの関節点p及びpを想定する。関節点pと、関節点pに骨で接続された関節点と、の集合をpAD,jとする。関節点p及びpは、3次元ポーズデータセットにおいては、p 及びp と表記する。この関節点p 及びp を画像座標系に射影して得られた関節点をp 及びp と表記する。また、p ∈p AD,jは、p から最も遠い関節点であるとする。
 また、組データにおいても、対応する2つの関節点q及びqを想定し、これらと骨で接続された関節点の集合をqAD,jとする。関節点をq及びqは、3次元ポーズデータセットにおいては、q 及びq と表記する。関節点q及びqに対応する画像座標系の関節点をq 及びq と表記する。また、q ∈q AD,jは、q から最も遠い関節点であるとする。
 データ探索部13は、図4に示すように、画像座標系において、関節点p 及びp が関節点q 及びq に一致するように、カメラ座標系において、3次元ポーズデータセットqに対して、並進、回転、拡大、及び縮小のうち、いずれか又はこれらの組合せを実行する。また、この操作により、q 及びq を含む画像座標系の関節点も操作されることになる。操作後のq 及びq は、それぞれql’ 及びqc’ で表される(図5参照)。
 また、図4の例では、回転は、カメラ座標系のxy平面内でのみ行われる。拡大及び縮小は、カメラ座標系のx軸、y軸、z軸のいずれにおいても、同じ倍率で行われる。また、データ探索部13による操作に応じて、組データを構成する2次元画像Iに対しても、並進、回転、拡大、及び縮小のうち、いずれか又はこれらの組合せが行われる。操作後の2次元画像をI’とする。
 データ探索部13は、操作後、図5に示すように、対象データにおいて、関節点p からp ∈p AD,jに向かう単位ベクトルtjkを求め、組データにおいて、関節点qc’ からqc’ ∈qC’ AD,jに向かう単位ベクトルsjkを求める。続いて、データ探索部13は、下記の数1を用いて、関節点p を中心とした構造と、関節点qc’ を中心とした構造と、の類似度Dを算出する。kは、pc k∈pc AD,jを満たす関節点のインデックスである。
Figure JPOXMLDOC01-appb-M000001
 なお、上記数1では、類似度としてコサイン類似度が用いられる。実施の形態1は、これに限定されず、類似度として、p ∈p AD,jとqc’ ∈qC’ AD,jとのユークリッド距離が用いられても良い。
 データ探索部13は、データベース20に格納されている全ての組データについて、類似度Dを算出し、このうち、類似度Dが最大となる組データを特定する。なお、射影座標と2次元座標とが特定部位について得られている場合は、特定の部位のみが類似している組データが特定される。
 画像生成部14は、特定の部位が類似している組データが特定されている場合は、上述した操作後の2次元画像I’の特定の部位(例えば左足、右足、右腕、等)を切り出すことで、パッチ画像を生成する。また、画像生成部14は、操作後の画像座標系での関節点ql’ と、操作後の3次元ポーズデータセットの関節点qc’ とを用いて、生成したパッチ画像に、対応する3次元ポーズデータセットの一部を割り当てる。そして、画像生成部14は、生成したパッチ画像を別の2次元画像(特定の部位が遮蔽されている人が映っている画像等)と合成して新たな2次元画像を生成する。このようにして得られた新たな2次元画像は、人の姿勢を推定する学習モデルの構築用の訓練データとして用いられる。
 また、データ探索部13は、実施の形態1では、異なる部位毎に、類似度が最大となる組データを特定することができる。この場合は、画像生成部14は、部位毎にパッチ画像を生成し、更に、各部位のパッチ画像を背景画像に貼り付けて、新たに、1人の人の画像(新たな2次元画像)を生成する。このとき、画像生成部14は、各パッチ画像に対応する3次元ポーズデータセットも合成する。このようにして得られた新たな2次元画像と、合成後の3次元ポーズデータセットも、人の姿勢を推定する学習モデルの構築用の訓練データとなる。
 図6は、実施の形態1で作成された新たな2次元画像を模式的に示す図である。図6の例では、新たな2次元画像は、部位が異なる、パッチ画像32と、パッチ画像33と、パッチ画像34と、パッチ画像35と、背景画像36と、を合成することで作成されている。
[装置動作]
 次に、実施の形態1におけるデータ拡張装置10の動作について図7を用いて説明する。図7は、実施の形態1におけるデータ拡張装置の動作を示すフロー図である。以下の説明においては、適宜図1~図6を参照する。また、実施の形態1では、データ拡張装置10を動作させることによって、データ拡張方法が実施される。よって、実施の形態1におけるデータ拡張方法の説明は、以下のデータ拡張装置10の動作説明に代える。
 図7に示すように、最初に、データ取得部11は、対象データとして、特定の人の3次元ポーズデータセットを取得する(ステップA1)。
 次に、射影処理部12は、ステップA1で取得された3次元ポーズデータセット30の特定の部位に含まれる関節点31(図3参照)それぞれを、画像座標系に射影し、画像座標系における関節点31それぞれの射影座標(2次元座標)を生成する(ステップA2)。
 次に、データ探索部13は、データベース20から、組データを読み出し、組データ毎に、内部パラメータを用いて、組データの3次元ポーズデータセットの特定の部位に含まれる各関節点の3次元座標について、画像座標系での、対応する2次元座標を特定する(ステップA3)。
 次に、データ探索部13は、組データ毎に、ステップA2で生成した射影座標の集合と、ステップA3で特定した2次元座標の集合とが重なるように、ステップA1で取得した3次元ポーズデータセット又は組データの3次元ポーズデータセットを操作する(ステップA4)。
 具体的には、ステップA4では、データ探索部13は、組データ毎に、ステップA2で生成した射影座標の集合に含まれる2以上の関節点と、ステップA3で特定した2次元座標の集合に含まれる2以上の関節点とが一致することを条件とする。そして、データ探索部13は、条件が満たされるように、ステップA1で取得した3次元ポーズデータセット又は組データの3次元ポーズデータセットに対して、並進、回転、拡大、及び縮小のうち、いずれか又はこれらの組合せを行う。
 次に、データ探索部13は、組データ毎に、ステップA4の操作後における、対象データの3次元ポーズデータセットと、組データの3次元ポーズデータセットとの類似度を算出する(ステップA5)。
 具体的には、ステップA5では、データ探索部13は、操作後の3次元座標における特定の関節点から別の関節点に向かう単位ベクトルと、組データの3次元座標における特定の関節点から別の関節点に向かう単位ベクトルとを求める。そして、データ探索部13は、求めた両者の単位ベクトルに基づいて、類似度を算出する。
 次に、データ探索部13は、ステップA5で組データ毎に算出された類似度に基づいて、類似度が最大となる組データを特定する(ステップA6)。
 次に、画像生成部14は、ステップA6で特定された組データの2次元画像の特定の部位(例えば、左足、右足、右腕、等)を切り出して、パッチ画像を生成する(ステップA7)。
 その後、画像生成部14は、ステップA7で生成されたパッチ画像を用いて、新たな2次元画像を生成し、更に、これを用いて、新たな訓練データを生成する(ステップA8)。具体的には、画像生成部14は、ステップA7で生成されたパッチ画像と、別の部位について既に生成されたパッチ画像と、背景画像とを用いて、新たな2次元画像を生成する。
 このように、データ拡張装置10は、対象データとなる3次元ポーズデータセットと、データベースに格納されている3次元ポーズデータセットと、の間の類似度を求め、両者が類似する場合に、対応する2次元画像から生成したパッチ画像を用いて、新たな訓練データを作成する。このため、実空間での人の姿勢が異なる2次元画像を用いて、訓練データが拡張される事態は回避される。実施の形態1によれば、3次元関節点座標を検出するための学習モデルの構築において、従来からの問題を解消しつつ、訓練データを拡張することができる。
[プログラム]
 実施の形態1におけるプログラムは、コンピュータに、図7に示すステップA1~A8を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、実施の形態1におけるデータ拡張装置10とデータ拡張方法とを実現することができる。この場合、コンピュータのプロセッサは、データ取得部11、射影処理部12、データ探索部13、及び画像生成部14として機能し、処理を行なう。コンピュータとしては、汎用のPCの他に、スマートフォン、タブレット型端末装置が挙げられる。
 実施の形態1では、データベース20は、コンピュータに備えられたハードディスク等の記憶装置に、これらを構成するデータファイルを格納することによって実現されていても良いし、別のコンピュータの記憶装置によって実現されていても良い。
 また、実施の形態1におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、データ取得部11、射影処理部12、データ探索部13、及び画像生成部14のいずれかとして機能しても良い。
(実施の形態2)
 次に、実施の形態2におけるデータ拡張装置、データ拡張方法、及びプログラムについて、図8~図10を参照しながら説明する。
[装置構成]
 最初に、実施の形態2におけるデータ拡張装置の構成について図8及び図9を用いて説明する。図8は、実施の形態2におけるデータ拡張装置の構成を示す構成図である。
 図8に示す、実施の形態2におけるデータ拡張装置40は、実施の形態1におけるデータ拡張装置10と同様に、人の姿勢を推定する学習モデルの構築用の訓練データを拡張する、装置である。また、図8に示すように、データ拡張装置40も、データ拡張装置10と同様に、データ取得部11と、射影処理部12と、データ探索部13と、画像生成部14とを備えている。
 但し、実施の形態2では、データ拡張装置40は、上述の構成に加えて、体形変更部41を備えている。実施の形態2におけるデータ拡張装置40は、この点で、実施の形態1におけるデータ拡張装置10と異なっている。以下、相違点を中心に説明する。
 体形変更部41は、特定の人の体形が変更されるように、データ取得部11で取得された対象データ(3次元ポーズデータセット)における3次元座標を変更する。実施の形態2では、対象データにおける人の体形を変更してデータを拡張できる。このため、3次元関節点座標を検出するための学習モデルの構築において、特定の体形を過学習してしまい、体形によって検出精度がばらつくという問題を解消できる。
 具体的には、体形変更部41は、特定の人の縦方向の変化率と横方向の変化率とが設定条件を満たすように、取得された3次元ポーズデータセットにおける3次元座標を変更する。そして、実施の形態2では、射影処理部12は、変更後の3次元座標それぞれを2次元平面上に射影する。
 図9を用いて、体形変更部41による体形変更処理について説明する。図9は、実施の形態2における体形変更処理を説明する説明図である。図9では、関節点1と関節点2との間が拡大(又は縮小)される例が示されている。図9の例において、体形変更部41は、以下の数2に示す設定条件が満たされるように、縦方向の変化率aと横方向の変化率bとが決定される。例えば、a=(3/2)×α1/2、b=(2/3)×α1/2に設定される。
Figure JPOXMLDOC01-appb-M000002
 上記数2において、「α」は、例えば、公開されている人の体形についての統計情報等に基づいて適宜設定される。また、「α」は、学習モデルによる検出精度が高まるように、実験を行いながら適宜設定されても良い。なお、実施の形態2において、設定条件は、変更後の体形が不自然にならないように設定されていれば良く、下記の数2の例に限定されるものではない。
[装置動作]
 次に、実施の形態2におけるデータ拡張装置40の動作について図10を用いて説明する。図10は、実施の形態2におけるデータ拡張装置の動作を示すフロー図である。以下の説明においては、適宜図8及び図9を参照する。また、実施の形態2では、データ拡張装置40を動作させることによって、データ拡張方法が実施される。よって、実施の形態2におけるデータ拡張方法の説明は、以下のデータ拡張装置40の動作説明に代える。
 図10に示すように、最初に、データ取得部11は、対象データとして、特定の人の3次元ポーズデータセットを取得する(ステップB1)。
 次に、体形変更部41は、特定の人の縦方向の変化率と横方向の変化率とが設定条件を満たすように、ステップB1で取得された3次元ポーズデータセットにおける3次元座標を変更する(ステップB2)。
 次に、射影処理部12は、ステップB2による変更後の3次元ポーズデータセット30の特定の部位に含まれる関節点31(図3参照)それぞれを、画像座標系に射影し、画像座標系における関節点31それぞれの射影座標(2次元座標)を生成する(ステップB3)。ステップB3は、図7に示したステップA2と同様のステップである。
 次に、データ探索部13は、データベース20から、組データを読み出し、組データ毎に、内部パラメータを用いて、組データの3次元ポーズデータセットの特定の部位に含まれる各関節点の3次元座標について、画像座標系での、対応する2次元座標を特定する(ステップB4)。ステップB4は、図7に示したステップA3と同様のステップである。
 次に、データ探索部13は、組データ毎に、ステップB3で生成した射影座標の集合と、ステップB4で特定した2次元座標の集合とが重なるように、ステップB1で取得した3次元ポーズデータセット又は組データの3次元ポーズデータセットを操作する(ステップB5)。ステップB5は、図7に示したステップA4と同様のステップである。
 次に、データ探索部13は、組データ毎に、ステップB5の操作後における、対象データの3次元ポーズデータセットと、組データの3次元ポーズデータセットとの類似度を算出する(ステップB6)。ステップB6は、図7に示したステップA5と同様のステップである。
 次に、データ探索部13は、ステップB6で組データ毎に算出された類似度に基づいて、類似度が最大となる組データを特定する(ステップB7)。ステップB7は、図7に示したステップA6と同様のステップである。
 次に、画像生成部14は、ステップB7で特定された組データの2次元画像の特定の部位(例えば、左足、右足、右腕、等)を切り出して、パッチ画像を生成する(ステップB8)。ステップB8は、図7に示したステップA7と同様のステップである。
 その後、画像生成部14は、ステップB8で生成されたパッチ画像を用いて、新たな2次元画像を生成し、更に、これを用いて、新たな訓練データを生成する(ステップB9)。ステップB9は、図7に示したステップA8と同様のステップである。
 このように、実施の形態2では、対象データにおける3次元ポーズデータセットで表される体形を変更することができる。実施の形態2は、学習モデルにおいて特定の体形が過学習されてしまう事態の発生抑制に有用である。また、実施の形態2においても、実施の形態1と同様に、実空間での人の姿勢が異なる2次元画像を用いて、訓練データが拡張される事態は回避される。実施の形態2においても、3次元関節点座標を検出するための学習モデルの構築において、従来からの問題を解消しつつ、訓練データを拡張することができる。
[プログラム]
 実施の形態2におけるプログラムは、コンピュータに、図10に示すステップB1~B9を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、実施の形態2におけるデータ拡張装置40とデータ拡張方法とを実現することができる。この場合、コンピュータのプロセッサは、データ取得部11、射影処理部12、データ探索部13、画像生成部14、及び体形変更部41として機能し、処理を行なう。コンピュータとしては、汎用のPCの他に、スマートフォン、タブレット型端末装置が挙げられる。
 実施の形態2では、データベース20は、コンピュータに備えられたハードディスク等の記憶装置に、これらを構成するデータファイルを格納することによって実現されていても良いし、別のコンピュータの記憶装置によって実現されていても良い。
 また、実施の形態2におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、データ取得部11、射影処理部12、データ探索部13、画像生成部14、及び体形変更部41のいずれかとして機能しても良い。
[物理構成]
 ここで、実施の形態1及び2におけるプログラムを実行することによって、データ拡張装置を実現するコンピュータについて図11を用いて説明する。図11は、実施の形態1及び2におけるデータ拡張装置を実現するコンピュータの一例を示すブロック図である。
 図11に示すように、コンピュータ110は、CPU(Central Processing Unit)111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。
 また、コンピュータ110は、CPU111に加えて、又はCPU111に代えて、GPU(Graphics Processing Unit)、又はFPGA(Field-Programmable Gate Array)を備えていても良い。この態様では、GPU又はFPGAが、実施の形態におけるプログラムを実行することができる。
 CPU111は、記憶装置113に格納された、コード群で構成された実施の形態におけるプログラムをメインメモリ112に展開し、各コードを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。
 また、実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。
 また、記憶装置113の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
 データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
 また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記録媒体、又はCD-ROM(Compact Disk Read Only Memory)などの光学記録媒体が挙げられる。
 なお、本実施の形態におけるデータ拡張装置は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェア(例えば、電子回路)を用いることによっても実現可能である。更に、データ拡張装置は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。
 上述した実施の形態の一部又は全部は、以下に記載する(付記1)~(付記18)によって表現することができるが、以下の記載に限定されるものではない。
(付記1)
 特定の人の関節点それぞれの3次元座標の集合を含むデータを取得する、データ取得部と、
 取得された前記データに含まれる前記3次元座標それぞれを2次元平面上に射影して、前記関節点それぞれの射影座標を生成する、射影処理部と、
 人の関節点それぞれの3次元座標の集合と、当該人の2次元画像と、カメラパラメータとを、互いに関連付けた組データ毎に、前記カメラパラメータを用いて、当該組データの前記3次元座標それぞれの前記2次元画像上での対応する2次元座標を特定し、
更に、組データ毎に、生成された前記射影座標の集合と特定した前記2次元座標の集合とが重なるように、取得された前記データ又は当該組データに含まれる3次元座標の集合を操作し、そして、操作後において、取得された前記データに含まれる前記3次元座標の集合と当該組データに含まれる3次元座標の集合との類似度を算出し、
前記組データ毎に算出した前記類似度に基づいて、取得された前記データに対応する前記組データを特定する、データ探索部と、
 特定した前記組データの前記2次元画像の一部又は全部を、別の2次元画像と合成して、新たな2次元画像を生成する、画像生成部と、
を備えている、
ことを特徴とするデータ拡張装置。
(付記2)
付記1に記載のデータ拡張装置であって、
 前記データ探索部が、
組データ毎に、生成された前記射影座標の集合に含まれる2以上の関節点と特定した前記2次元座標の集合に含まれる2以上の関節点とが一致するように、前記操作として、取得された前記データ又は当該組データに含まれる3次元座標の集合に対して、並進、回転、拡大、及び縮小のうち、いずれか又はこれらの組合せを行う、
ことを特徴とするデータ拡張装置。
(付記3)
付記1または2に記載のデータ拡張装置であって、
 前記特定の人の体形が変更されるように、取得された前記データにおける前記3次元座標の集合を変更する、体形変更部を更に備えており、
 前記射影処理部が、変更後の前記3次元座標それぞれを前記2次元平面上に射影する、
ことを特徴とするデータ拡張装置。
(付記4)
付記3に記載のデータ拡張装置であって、
 前記体形変更部は、前記特定の人の縦方向の変化率と横方向の変化率とが設定条件を満たすように、取得された前記データにおける前記3次元座標の集合を変更する、
ことを特徴とするデータ拡張装置。
(付記5)
付記1~4のいずれかに記載のデータ拡張装置であって、
 前記射影処理部が、取得された前記データにおける特定の部位の前記3次元座標から、前記射影座標を生成し、
 前記データ探索部が、当該組データの前記特定の部位について前記2次元座標を特定し、
 前記画像生成部が、特定した前記組データの前記2次元画像から、前記特定の部位の画像をパッチ画像として切り出し、切り出した前記パッチ画像を、前記別の2次元画像と合成して、新たな2次元画像を生成する、
ことを特徴とするデータ拡張装置。
(付記6)
付記1~5のいずれかに記載のデータ拡張装置であって、
 前記データ探索部が、操作後の前記3次元座標における特定の関節点から別の関節点に向かう単位ベクトルと、当該組データの3次元座標における特定の関節点から別の関節点に向かう単位ベクトルとを求め、求めた両者の単位ベクトルに基づいて、前記類似度を算出する、
ことを特徴とするデータ拡張装置。
(付記7)
 特定の人の関節点それぞれの3次元座標の集合を含むデータを取得する、データ取得ステップと、
 取得された前記データに含まれる前記3次元座標それぞれを2次元平面上に射影して、前記関節点それぞれの射影座標を生成する、射影処理ステップと、
 人の関節点それぞれの3次元座標の集合と、当該人の2次元画像と、カメラパラメータとを、互いに関連付けた組データ毎に、前記カメラパラメータを用いて、当該組データの前記3次元座標それぞれの前記2次元画像上での対応する2次元座標を特定し、
更に、組データ毎に、生成された前記射影座標の集合と特定した前記2次元座標の集合とが重なるように、取得された前記データ又は当該組データに含まれる3次元座標の集合を操作し、そして、操作後において、取得された前記データに含まれる前記3次元座標の集合と当該組データに含まれる3次元座標の集合との類似度を算出し、
前記組データ毎に算出した前記類似度に基づいて、取得された前記データに対応する前記組データを特定する、データ探索ステップと、
 特定した前記組データの前記2次元画像の一部又は全部を、別の2次元画像と合成して、新たな2次元画像を生成する、画像生成ステップと、
を有する、
ことを特徴とするデータ拡張方法。
(付記8)
付記7に記載のデータ拡張方法であって、
 前記データ探索ステップにおいて、
組データ毎に、生成された前記射影座標の集合に含まれる2以上の関節点と特定した前記2次元座標の集合に含まれる2以上の関節点とが一致するように、前記操作として、取得された前記データ又は当該組データに含まれる3次元座標の集合に対して、並進、回転、拡大、及び縮小のうち、いずれか又はこれらの組合せを行う、
ことを特徴とするデータ拡張方法。
(付記9)
付記7または8に記載のデータ拡張方法であって、
 前記特定の人の体形が変更されるように、取得された前記データにおける前記3次元座標の集合を変更する、体形変更ステップを更に有し、
 前記射影処理ステップにおいて、変更後の前記3次元座標それぞれを前記2次元平面上に射影する、
ことを特徴とするデータ拡張方法。
(付記10)
付記9に記載のデータ拡張方法であって、
 前記体形変更ステップにおいて、前記特定の人の縦方向の変化率と横方向の変化率とが設定条件を満たすように、取得された前記データにおける前記3次元座標の集合を変更する、
ことを特徴とするデータ拡張方法。
(付記11)
付記7~10のいずれかに記載のデータ拡張方法であって、
 前記射影処理ステップにおいて、取得された前記データにおける特定の部位の前記3次元座標から、前記射影座標を生成し、
 前記データ探索ステップにおいて、当該組データの前記特定の部位について前記2次元座標を特定し、
 前記画像生成ステップにおいて、特定した前記組データの前記2次元画像から、前記特定の部位の画像をパッチ画像として切り出し、切り出した前記パッチ画像を、前記別の2次元画像と合成して、新たな2次元画像を生成する、
ことを特徴とするデータ拡張方法。
(付記12)
付記7~11のいずれかに記載のデータ拡張方法であって、
 前記データ探索ステップにおいて、操作後の前記3次元座標における特定の関節点から別の関節点に向かう単位ベクトルと、当該組データの3次元座標における特定の関節点から別の関節点に向かう単位ベクトルとを求め、求めた両者の単位ベクトルに基づいて、前記類似度を算出する、
ことを特徴とするデータ拡張方法。
(付記13)
コンピュータに、
 特定の人の関節点それぞれの3次元座標の集合を含むデータを取得する、データ取得ステップと、
 取得された前記データに含まれる前記3次元座標それぞれを2次元平面上に射影して、前記関節点それぞれの射影座標を生成する、射影処理ステップと、
 人の関節点それぞれの3次元座標の集合と、当該人の2次元画像と、カメラパラメータとを、互いに関連付けた組データ毎に、前記カメラパラメータを用いて、当該組データの前記3次元座標それぞれの前記2次元画像上での対応する2次元座標を特定し、
更に、組データ毎に、生成された前記射影座標の集合と特定した前記2次元座標の集合とが重なるように、取得された前記データ又は当該組データに含まれる3次元座標の集合を操作し、そして、操作後において、取得された前記データに含まれる前記3次元座標の集合と当該組データに含まれる3次元座標の集合との類似度を算出し、
前記組データ毎に算出した前記類似度に基づいて、取得された前記データに対応する前記組データを特定する、データ探索ステップと、
 特定した前記組データの前記2次元画像の一部又は全部を、別の2次元画像と合成して、新たな2次元画像を生成する、画像生成ステップと、
を実行させる命令を含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
(付記14)
付記13に記載のコンピュータ読み取り可能な記録媒体であって、
 前記データ探索ステップにおいて、
組データ毎に、生成された前記射影座標の集合に含まれる2以上の関節点と特定した前記2次元座標の集合に含まれる2以上の関節点とが一致するように、前記操作として、取得された前記データ又は当該組データに含まれる3次元座標の集合に対して、並進、回転、拡大、及び縮小のうち、いずれか又はこれらの組合せを行う、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記15)
付記13または14に記載のコンピュータ読み取り可能な記録媒体であって、
前記プログラムが、前記コンピュータに、
 前記特定の人の体形が変更されるように、取得された前記データにおける前記3次元座標の集合を変更する、体形変更ステップを実行させる命令を更に含み、
 前記射影処理ステップにおいて、変更後の前記3次元座標それぞれを前記2次元平面上に射影する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記16)
付記15に記載のコンピュータ読み取り可能な記録媒体であって、
 前記体形変更ステップにおいて、前記特定の人の縦方向の変化率と横方向の変化率とが設定条件を満たすように、取得された前記データにおける前記3次元座標の集合を変更する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記17)
付記13~16のいずれかに記載のコンピュータ読み取り可能な記録媒体であって、
 前記射影処理ステップにおいて、取得された前記データにおける特定の部位の前記3次元座標から、前記射影座標を生成し、
 前記データ探索ステップにおいて、当該組データの前記特定の部位について前記2次元座標を特定し、
 前記画像生成ステップにおいて、特定した前記組データの前記2次元画像から、前記特定の部位の画像をパッチ画像として切り出し、切り出した前記パッチ画像を、前記別の2次元画像と合成して、新たな2次元画像を生成する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記18)
付記13~17のいずれかに記載のコンピュータ読み取り可能な記録媒体であって、
 前記データ探索ステップにおいて、操作後の前記3次元座標における特定の関節点から別の関節点に向かう単位ベクトルと、当該組データの3次元座標における特定の関節点から別の関節点に向かう単位ベクトルとを求め、求めた両者の単位ベクトルに基づいて、前記類似度を算出する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
 以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 以上のように本発明によれば、3次元関節点座標を検出するための学習モデルの構築において、訓練データを拡張することができる。本発明は、画像から人の姿勢を推定する種々のシステムに有用である。
 10 データ拡張装置(実施の形態1)
 11 データ取得部
 12 射影処理部
 13 データ探索部
 14 画像生成部
 20 データベース
 30 3次元ポーズデータセット
 31 関節点
 32、33、34、35 パッチ画像
 36 背景画像
 40 データ拡張装置(実施の形態2)
 41 体形変更部
 110 コンピュータ
 111 CPU
 112 メインメモリ
 113 記憶装置
 114 入力インターフェイス
 115 表示コントローラ
 116 データリーダ/ライタ
 117 通信インターフェイス
 118 入力機器
 119 ディスプレイ装置
 120 記録媒体
 121 バス

Claims (18)

  1.  特定の人の関節点それぞれの3次元座標の集合を含むデータを取得する、データ取得手段と、
     取得された前記データに含まれる前記3次元座標それぞれを2次元平面上に射影して、前記関節点それぞれの射影座標を生成する、射影処理手段と、
     人の関節点それぞれの3次元座標の集合と、当該人の2次元画像と、カメラパラメータとを、互いに関連付けた組データ毎に、前記カメラパラメータを用いて、当該組データの前記3次元座標それぞれの前記2次元画像上での対応する2次元座標を特定し、
    更に、組データ毎に、生成された前記射影座標の集合と特定した前記2次元座標の集合とが重なるように、取得された前記データ又は当該組データに含まれる3次元座標の集合を操作し、そして、操作後において、取得された前記データに含まれる前記3次元座標の集合と当該組データに含まれる3次元座標の集合との類似度を算出し、
    前記組データ毎に算出した前記類似度に基づいて、取得された前記データに対応する前記組データを特定する、データ探索手段と、
     特定した前記組データの前記2次元画像の一部又は全部を、別の2次元画像と合成して、新たな2次元画像を生成する、画像生成手段と、
    を備えている、
    ことを特徴とするデータ拡張装置。
  2. 請求項1に記載のデータ拡張装置であって、
     前記データ探索手段が、
    組データ毎に、生成された前記射影座標の集合に含まれる2以上の関節点と特定した前記2次元座標の集合に含まれる2以上の関節点とが一致するように、前記操作として、取得された前記データ又は当該組データに含まれる3次元座標の集合に対して、並進、回転、拡大、及び縮小のうち、いずれか又はこれらの組合せを行う、
    ことを特徴とするデータ拡張装置。
  3. 請求項1または2に記載のデータ拡張装置であって、
     前記特定の人の体形が変更されるように、取得された前記データにおける前記3次元座標の集合を変更する、体形変更手段を更に備えており、
     前記射影処理手段が、変更後の前記3次元座標それぞれを前記2次元平面上に射影する、
    ことを特徴とするデータ拡張装置。
  4. 請求項3に記載のデータ拡張装置であって、
     前記体形変更手段は、前記特定の人の縦方向の変化率と横方向の変化率とが設定条件を満たすように、取得された前記データにおける前記3次元座標の集合を変更する、
    ことを特徴とするデータ拡張装置。
  5. 請求項1~4のいずれかに記載のデータ拡張装置であって、
     前記射影処理手段が、取得された前記データにおける特定の部位の前記3次元座標から、前記射影座標を生成し、
     前記データ探索手段が、当該組データの前記特定の部位について前記2次元座標を特定し、
     前記画像生成手段が、特定した前記組データの前記2次元画像から、前記特定の部位の画像をパッチ画像として切り出し、切り出した前記パッチ画像を、前記別の2次元画像と合成して、新たな2次元画像を生成する、
    ことを特徴とするデータ拡張装置。
  6. 請求項1~5のいずれかに記載のデータ拡張装置であって、
     前記データ探索手段が、操作後の前記3次元座標における特定の関節点から別の関節点に向かう単位ベクトルと、当該組データの3次元座標における特定の関節点から別の関節点に向かう単位ベクトルとを求め、求めた両者の単位ベクトルに基づいて、前記類似度を算出する、
    ことを特徴とするデータ拡張装置。
  7.  特定の人の関節点それぞれの3次元座標の集合を含むデータを取得し、
     取得された前記データに含まれる前記3次元座標それぞれを2次元平面上に射影して、前記関節点それぞれの射影座標を生成し、
     人の関節点それぞれの3次元座標の集合と、当該人の2次元画像と、カメラパラメータとを、互いに関連付けた組データ毎に、前記カメラパラメータを用いて、当該組データの前記3次元座標それぞれの前記2次元画像上での対応する2次元座標を特定し、
    更に、組データ毎に、生成された前記射影座標の集合と特定した前記2次元座標の集合とが重なるように、取得された前記データ又は当該組データに含まれる3次元座標の集合を操作し、そして、操作後において、取得された前記データに含まれる前記3次元座標の集合と当該組データに含まれる3次元座標の集合との類似度を算出し、
    前記組データ毎に算出した前記類似度に基づいて、取得された前記データに対応する前記組データを特定し、
     特定した前記組データの前記2次元画像の一部又は全部を、別の2次元画像と合成して、新たな2次元画像を生成する、
    ことを特徴とするデータ拡張方法。
  8. 請求項7に記載のデータ拡張方法であって、
     組データ毎に、生成された前記射影座標の集合に含まれる2以上の関節点と特定した前記2次元座標の集合に含まれる2以上の関節点とが一致するように、前記操作として、取得された前記データ又は当該組データに含まれる3次元座標の集合に対して、並進、回転、拡大、及び縮小のうち、いずれか又はこれらの組合せを行う、
    ことを特徴とするデータ拡張方法。
  9. 請求項7または8に記載のデータ拡張方法であって、
     更に、前記特定の人の体形が変更されるように、取得された前記データにおける前記3次元座標の集合を変更し、
     変更後の前記3次元座標それぞれを前記2次元平面上に射影する、
    ことを特徴とするデータ拡張方法。
  10. 請求項9に記載のデータ拡張方法であって、
     前記特定の人の縦方向の変化率と横方向の変化率とが設定条件を満たすように、取得された前記データにおける前記3次元座標の集合を変更する、
    ことを特徴とするデータ拡張方法。
  11. 請求項7~10のいずれかに記載のデータ拡張方法であって、
     取得された前記データにおける特定の部位の前記3次元座標から、前記射影座標を生成し、
     当該組データの前記特定の部位について前記2次元座標を特定し、
     特定した前記組データの前記2次元画像から、前記特定の部位の画像をパッチ画像として切り出し、切り出した前記パッチ画像を、前記別の2次元画像と合成して、新たな2次元画像を生成する、
    ことを特徴とするデータ拡張方法。
  12. 請求項7~11のいずれかに記載のデータ拡張方法であって、
     操作後の前記3次元座標における特定の関節点から別の関節点に向かう単位ベクトルと、当該組データの3次元座標における特定の関節点から別の関節点に向かう単位ベクトルとを求め、求めた両者の単位ベクトルに基づいて、前記類似度を算出する、
    ことを特徴とするデータ拡張方法。
  13. コンピュータに、
     特定の人の関節点それぞれの3次元座標の集合を含むデータを取得させ、
     取得された前記データに含まれる前記3次元座標それぞれを2次元平面上に射影して、前記関節点それぞれの射影座標を生成させ、
     人の関節点それぞれの3次元座標の集合と、当該人の2次元画像と、カメラパラメータとを、互いに関連付けた組データ毎に、前記カメラパラメータを用いて、当該組データの前記3次元座標それぞれの前記2次元画像上での対応する2次元座標を特定させ、
    更に、組データ毎に、生成された前記射影座標の集合と特定した前記2次元座標の集合とが重なるように、取得された前記データ又は当該組データに含まれる3次元座標の集合を操作し、そして、操作後において、取得された前記データに含まれる前記3次元座標の集合と当該組データに含まれる3次元座標の集合との類似度を算出させ、
    前記組データ毎に算出した前記類似度に基づいて、取得された前記データに対応する前記組データを特定させ、
     特定した前記組データの前記2次元画像の一部又は全部を、別の2次元画像と合成させて、新たな2次元画像を生成させる、
    命令を含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
  14. 請求項13に記載のコンピュータ読み取り可能な記録媒体であって、
     組データ毎に、生成された前記射影座標の集合に含まれる2以上の関節点と特定した前記2次元座標の集合に含まれる2以上の関節点とが一致するように、前記操作として、取得された前記データ又は当該組データに含まれる3次元座標の集合に対して、並進、回転、拡大、及び縮小のうち、いずれか又はこれらの組合せを行わせ、
    ことを特徴とするコンピュータ読み取り可能な記録媒体。
  15. 請求項13または14に記載のコンピュータ読み取り可能な記録媒体であって、
    前記プログラムが、前記コンピュータに、
     前記特定の人の体形が変更されるように、取得された前記データにおける前記3次元座標の集合を変更させる命令を更に含み、
     変更後の前記3次元座標それぞれを前記2次元平面上に射影させる、
    ことを特徴とするコンピュータ読み取り可能な記録媒体。
  16. 請求項15に記載のコンピュータ読み取り可能な記録媒体であって、
     前記特定の人の縦方向の変化率と横方向の変化率とが設定条件を満たすように、取得された前記データにおける前記3次元座標の集合を変更させる、
    ことを特徴とするコンピュータ読み取り可能な記録媒体。
  17. 請求項13~16のいずれかに記載のコンピュータ読み取り可能な記録媒体であって、
     取得された前記データにおける特定の部位の前記3次元座標から、前記射影座標を生成し、
     当該組データの前記特定の部位について前記2次元座標を特定させ、
     特定した前記組データの前記2次元画像から、前記特定の部位の画像をパッチ画像として切り出させ、切り出した前記パッチ画像を、前記別の2次元画像と合成させて、新たな2次元画像を生成させる、
    ことを特徴とするコンピュータ読み取り可能な記録媒体。
  18. 請求項13~17のいずれかに記載のコンピュータ読み取り可能な記録媒体であって、
     操作後の前記3次元座標における特定の関節点から別の関節点に向かう単位ベクトルと、当該組データの3次元座標における特定の関節点から別の関節点に向かう単位ベクトルとを求めさせ、求めた両者の単位ベクトルに基づいて、前記類似度を算出させる、
    ことを特徴とするコンピュータ読み取り可能な記録媒体。
PCT/JP2021/048544 2021-12-27 2021-12-27 データ拡張装置、データ拡張方法、及びコンピュータ読み取り可能な記録媒体 WO2023127005A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023570502A JPWO2023127005A5 (ja) 2021-12-27 データ拡張装置、データ拡張方法、及びプログラム
PCT/JP2021/048544 WO2023127005A1 (ja) 2021-12-27 2021-12-27 データ拡張装置、データ拡張方法、及びコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/048544 WO2023127005A1 (ja) 2021-12-27 2021-12-27 データ拡張装置、データ拡張方法、及びコンピュータ読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
WO2023127005A1 true WO2023127005A1 (ja) 2023-07-06

Family

ID=86998307

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/048544 WO2023127005A1 (ja) 2021-12-27 2021-12-27 データ拡張装置、データ拡張方法、及びコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
WO (1) WO2023127005A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10679046B1 (en) * 2016-11-29 2020-06-09 MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. Machine learning systems and methods of estimating body shape from images

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10679046B1 (en) * 2016-11-29 2020-06-09 MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. Machine learning systems and methods of estimating body shape from images

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
G. ROGEZ; CORDELIA SCHMID: "MoCap-guided Data Augmentation for 3D Pose Estimation in the Wild", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 7 July 2016 (2016-07-07), 201 Olin Library Cornell University Ithaca, NY 14853 , XP080712724 *
GONG KEHONG; ZHANG JIANFENG; FENG JIASHI: "PoseAug: A Differentiable Pose Augmentation Framework for 3D Human Pose Estimation", 2021 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), IEEE, 20 June 2021 (2021-06-20), pages 8571 - 8580, XP034006702, DOI: 10.1109/CVPR46437.2021.00847 *

Also Published As

Publication number Publication date
JPWO2023127005A1 (ja) 2023-07-06

Similar Documents

Publication Publication Date Title
US9619704B2 (en) Fast articulated motion tracking
US20200175717A1 (en) Information processing apparatus and method of controlling the same
JP2009252112A (ja) 画像処理装置、画像処理方法
JP2003346157A (ja) 物体追跡装置及び方法
EP3326156B1 (en) Consistent tessellation via topology-aware surface tracking
JP2019096113A (ja) キーポイントデータに関する加工装置、方法及びプログラム
JP7064257B2 (ja) 画像深度確定方法及び生き物認識方法、回路、装置、記憶媒体
JP7046567B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP6880618B2 (ja) 画像処理プログラム、画像処理装置、及び画像処理方法
JP6894707B2 (ja) 情報処理装置およびその制御方法、プログラム
US11908236B2 (en) Illumination detection method and apparatus for face image, and device and storage medium
TW202217755A (zh) 視覺定位方法、設備和電腦可讀儲存介質
JP2010113530A (ja) 画像認識装置及びプログラム
CN112750164B (zh) 轻量化定位模型的构建方法、定位方法、电子设备
JP2018173882A (ja) 情報処理装置、方法、及びプログラム
JP2019105992A (ja) 画像処理装置、画像処理プログラム及び画像処理方法
JP6806160B2 (ja) 3次元運動評価装置、3次元運動評価方法、及びプログラム
WO2023127005A1 (ja) データ拡張装置、データ拡張方法、及びコンピュータ読み取り可能な記録媒体
JP2023167320A (ja) 学習モデル生成装置、関節点検出装置、学習モデル生成方法、関節点検出方法、及びプログラム
JP2006113832A (ja) ステレオ画像処理装置およびプログラム
WO2022181253A1 (ja) 関節点検出装置、学習モデル生成装置、関節点検出方法、学習モデル生成方法、及びコンピュータ読み取り可能な記録媒体
JP2019159470A (ja) 推定装置、推定方法、及び推定プログラム
JP2009048305A (ja) 形状解析プログラム及び形状解析装置
JP7265143B2 (ja) 表示制御方法、表示制御プログラムおよび情報処理装置
CN111581412B (zh) 人脸形状库的构建方法、装置、设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21969889

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023570502

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE