WO2022181252A1 - 関節点検出装置、学習モデル生成装置、関節点検出方法、学習モデル生成方法、及びコンピュータ読み取り可能な記録媒体 - Google Patents
関節点検出装置、学習モデル生成装置、関節点検出方法、学習モデル生成方法、及びコンピュータ読み取り可能な記録媒体 Download PDFInfo
- Publication number
- WO2022181252A1 WO2022181252A1 PCT/JP2022/003766 JP2022003766W WO2022181252A1 WO 2022181252 A1 WO2022181252 A1 WO 2022181252A1 JP 2022003766 W JP2022003766 W JP 2022003766W WO 2022181252 A1 WO2022181252 A1 WO 2022181252A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- joint
- joint point
- feature amount
- learning model
- feature
- Prior art date
Links
- 238000012549 training Methods 0.000 title claims abstract description 78
- 238000001514 detection method Methods 0.000 title claims description 77
- 238000000034 method Methods 0.000 title claims description 21
- 238000010801 machine learning Methods 0.000 claims abstract description 95
- 238000013527 convolutional neural network Methods 0.000 claims description 34
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Definitions
- the present invention relates to a joint point detection device and a joint point detection method for detecting joint points of a living body from an image, and further relates to a computer-readable recording medium recording a program for realizing these.
- the present invention also relates to a learning model generation apparatus and a learning model generation method for generating a learning model for detecting joint points of a living body from an image, and furthermore, a program for realizing these is recorded. It relates to a computer-readable recording medium.
- Non-Patent Document 1 discloses a system for estimating the posture of a person, especially the posture of a person's hand, from an image.
- the system disclosed in Non-Patent Document 1 first acquires image data including an image of a hand. Each time, a heat map expressing the existence probability of joint points by colors and densities is output.
- Non-Patent Document 1 inputs the output heat map to a neural network that performs machine learning on the relationship between the joint points and the corresponding heat map.
- a plurality of such neural networks are prepared, and an output result from one neural network is input to another neural network.
- the positions of joint points on the heat map are refined.
- Patent document 1 also discloses a system for estimating the posture of a hand from an image. Like the system disclosed in Non-Patent Document 1, the system disclosed in Patent Document 1 also uses a neural network to estimate the coordinates of joint points.
- Non-Patent Document 1 or Patent Document 1 it is possible to estimate the coordinates of the joint points of the human hand from the image as described above. There is a problem that the estimation accuracy is lowered.
- An example of the object of the present invention is to provide a joint point detection device, a learning model generation device, a joint point detection method, a learning model generation method, and a computer-readable recording medium that can improve the accuracy of joint point position estimation. to do.
- a joint point detection device includes: a total feature amount output unit for outputting, for each joint point of the target, a first feature amount representing the joint point from the image data of the target; Using a machine learning model that performs machine learning of the positional relationship between other joint points when the first feature amount for each of the target joint points is input and the feature amount of a specific joint point does not exist , a partial feature quantity output unit for outputting a second feature quantity representing the joint point for each of the target joint points; characterized by comprising
- the learning model generation device in one aspect of the present invention includes: a total feature quantity output unit for outputting, for each joint point of the target, a feature quantity representing the joint point from the image data of the target; a feature quantity generation unit that generates, as a training feature quantity, a feature quantity when a specific joint point does not have a feature quantity from the feature quantity for each of the target joint points;
- a machine learning model is generated by machine learning a positional relationship between other joint points when the feature amount of the specific joint point does not exist using the training data including the generated feature amount for training.
- a learning model generator and characterized by comprising
- a joint point detection method includes: a total feature quantity output step of outputting, for each joint point of the target, a first feature quantity representing the joint point from the image data of the target; Using a machine learning model that performs machine learning of the positional relationship between other joint points when the first feature amount for each of the target joint points is input and the feature amount of a specific joint point does not exist , a partial feature quantity output step of outputting a second feature quantity representing the joint point for each of the target joint points; characterized by having
- a learning model generation method includes: a total feature quantity output step of outputting, for each joint point of the target, a feature quantity representing the joint point from the image data of the target; a feature amount generation step of generating, as a training feature amount, a feature amount in the case where a feature amount of a specific joint point does not exist, from the feature amounts of each of the target joint points; A machine learning model is generated by machine learning a positional relationship between other joint points when the feature amount of the specific joint point does not exist using the training data including the generated feature amount for training.
- a learning model generation step and characterized by having
- a first computer-readable recording medium in one aspect of the present invention comprises: to the computer, a total feature quantity output step of outputting, for each joint point of the target, a first feature quantity representing the joint point from the image data of the target; Using a machine learning model that performs machine learning of the positional relationship between other joint points when the first feature amount for each of the target joint points is input and the feature amount of a specific joint point does not exist , a partial feature quantity output step of outputting a second feature quantity representing the joint point for each of the target joint points;
- a program is recorded that includes instructions for executing
- a second computer-readable recording medium in one aspect of the present invention comprises: to the computer, a total feature quantity output step of outputting, for each joint point of the target, a feature quantity representing the joint point from the image data of the target; a feature amount generation step of generating, as a training feature amount, a feature amount in the case where a feature amount of a specific joint point does not exist, from the feature amounts of each of the target joint points; A machine learning model is generated by machine learning a positional relationship between other joint points when the feature amount of the specific joint point does not exist using the training data including the generated feature amount for training. , a learning model generation step, and A program is recorded that includes instructions for executing
- FIG. 1 is a configuration diagram showing a schematic configuration of a learning model generation device according to Embodiment 1.
- FIG. 2 is a block diagram specifically showing the configuration of the learning model generation device according to Embodiment 1.
- FIG. 3A and 3B are diagrams for explaining functions of a total feature amount output unit according to Embodiment 1.
- FIG. 4A and 4B are diagrams for explaining the functions of the feature amount generation unit and the learning model generation unit according to the first embodiment.
- FIG. 5 is a flowchart showing the operation of the learning model generation device according to Embodiment 1.
- FIG. FIG. 6 is a configuration diagram showing a schematic configuration of a joint point detection device according to Embodiment 2. As shown in FIG. FIG. FIG.
- FIG. 7 is a diagram more specifically showing the configuration of the joint point detection device according to the second embodiment.
- 8A and 8B are diagrams for explaining functions of a total feature amount output unit and a partial feature amount output unit according to the second embodiment.
- FIG. 9 is a flowchart showing the operation of the joint point detection device according to the second embodiment.
- FIG. 10 is a block diagram showing an example of a computer that realizes the learning model generation device according to Embodiment 1 and the joint point detection device according to Embodiment 2.
- Embodiment 1 First, in Embodiment 1, a learning model generation device, a learning model generation method, and a learning model generation program will be described with reference to FIGS. 1 to 5.
- FIG. 1 An illustration of an example of an example of an example of an example of an example of an embodiment of the present disclosure.
- Embodiment 1 First, in Embodiment 1, a learning model generation device, a learning model generation method, and a learning model generation program will be described with reference to FIGS. 1 to 5.
- FIG. 1 First, in Embodiment 1, a learning model generation device, a learning model generation method, and a learning model generation program will be described with reference to FIGS. 1 to 5.
- FIG. 1 is a configuration diagram showing a schematic configuration of a learning model generation device according to Embodiment 1. As shown in FIG.
- the learning model generation device 10 in Embodiment 1 shown in FIG. 1 is a device that generates a machine learning model for detecting joint points. As shown in FIG. 1 , the learning model generation device 10 includes a total feature amount output unit 11 , a feature amount generation unit 12 and a learning model generation unit 13 .
- the total feature quantity output unit 11 outputs a feature quantity representing each joint point of interest from the target image data.
- the feature amount generating unit 12 generates, as a training feature amount, a feature amount when there is no feature amount for a specific joint point from the feature amounts for each target joint point.
- the learning model generation unit 13 performs machine learning of the positional relationship between other joint points when the feature amount of a specific joint point does not exist using the training data including the generated feature amount for training. Generate machine learning models.
- the training feature amount used as training data is a feature amount when the feature amount of a specific joint point does not exist. Therefore, by detecting the joint points using the generated machine learning model, it is possible to accurately estimate the target joint points even if the target specific joint points are not shown in the image. .
- FIG. 2 is a block diagram specifically showing the configuration of the learning model generation device according to Embodiment 1.
- FIG. 3A and 3B are diagrams for explaining functions of a total feature amount output unit according to Embodiment 1.
- FIG. 4A and 4B are diagrams for explaining the functions of the feature amount generation unit and the learning model generation unit according to the first embodiment.
- the learning model generation device 10 includes, in addition to the above-described all feature amount output unit 11, feature amount generation unit 12, and learning model generation unit 13, a random number generation unit 14, and a storage unit 15 .
- the random number generation unit 14 generates random numbers within the set range and inputs the generated random numbers to the feature amount generation unit 12 .
- the processing in the feature amount generation unit 12 using random numbers will be described later.
- the storage unit 15 stores the machine learning model 16 generated by the learning model generation unit 13 .
- the machine learning model 16 is constructed by a convolutional neural network (CNN).
- CNN convolutional neural network
- the machine learning model is generated by the learning model generation unit 13 by updating the initial values of the parameters of the CNN through learning.
- a machine-learning model is also described as "CNN.”
- the target is a human hand
- the target is not limited to the human hand, and may be the entire human body or other parts.
- the object may be anything that has joint points, and may be something other than a person, such as a robot.
- parts other than joint points for example, characteristic parts such as fingertips, may also be detected.
- a heat map is a map that expresses the possibility of existence of joint points on an image.
- the possibility of existence of joint points can be expressed by color densities.
- coordinate values may be used as the feature quantity.
- the total feature amount output unit 11 first acquires the target image data 20 . Then, as shown in FIG. 3, the total feature quantity output unit 11 outputs a heat map 21 from the image data 20 as a feature quantity representing joint points. In the example of FIG. 3 , a plurality of heat maps 21 are output for each joint point on the image data 20 .
- the total feature amount output unit uses, for example, a machine learning model that learns the relationship between the joint points on the image and the heat map, and by inputting the image data into this machine learning model, A heat map 21 is output.
- the machine learning model in this case also includes CNN. Also, in this CNN machine learning, the image data of the joint points and the correct heat map are used as training data. CNN machine learning is performed by updating parameters so that the difference between the output result (heat map) of image data as training data and the correct heat map becomes smaller.
- the feature amount generation unit 12 is set such that only the feature amount of a specific joint point does not exist for each of a plurality of specific joint points from the heat map 21 for each target joint point.
- a set of features is generated as a training feature set 22 .
- the feature generator 12 first receives random numbers from the random number generator 14 . Then, the feature amount generation unit 12 sets the data on the heat map of the j-th joint point indicated by the random number to zero or 1 among the plurality of heat maps 21 generated for each joint point on the image, and sets the data on the heat map to zero or one. Set the feature value of the joint point to not exist. As a result, a feature quantity set (training feature quantity set) 22 is set such that only the heat map of the j-th joint point among the plurality of heat maps 21 generated for each joint point on the image does not exist. is generated. It is assumed that each joint point is assigned a number in advance.
- the feature amount of each of the plurality of joint points does not exist according to the generated random number, but it is not limited to this, and the feature amount is set to not exist.
- the joint points may be set in advance.
- the feature quantity generation unit 12 may sequentially set that no feature quantity exists for each joint point, and generate the training feature quantity sets 22 corresponding to the number of joint points.
- the training feature amount is also a heat map
- the training feature amount set 22 is described as "training heat map set 22.”
- the learning model generation unit 13 uses training data including a corresponding training heatmap set for each of a plurality of specific joint points, except when there is no heatmap for the specific joint point. Generate a machine learning model by machine learning the positional relationship between the joint points.
- the learning model generation unit 13 acquires the CNN 16 from the storage unit 15, inputs the selected training heat map set 22 to the CNN 16, and each heat map as an output result Calculate the difference between the set and the corresponding correct heatmap.
- a heat map of correct answers is prepared in advance. Also, for the heat maps in which the feature amount does not exist, the difference is not calculated, or the heat map in which the feature amount does not exist is used as the correct heat map.
- the learning model generation unit 13 updates the parameters of the CNN 16 so that the calculated difference is minimized, and stores the CNN 16 with updated parameters in the storage unit 15 . Also, the learning model generation unit 13 executes this process until there are no more unselected training heat map sets 22 left. The result is a CNN that can be used to detect joint points.
- FIG. 5 is a flowchart showing the operation of the learning model generation device according to Embodiment 1.
- FIG. 1 to 4 will be referred to as needed in the following description.
- the learning model generation method is implemented by operating the learning model generation device 10 . Therefore, the description of the learning model generation method in Embodiment 1 is replaced with the description of the operation of the learning model generation device 10 below.
- the total feature amount output unit 11 acquires target image data 20, and outputs a heat map 21 as a feature amount representing joint points from the acquired image data 20 (step A1).
- the feature quantity generator 12 acquires the random number j generated by the random number generator 14 (step A2). Subsequently, the feature amount generation unit 12 sets that only the feature amount of the j-th joint point does not exist from the heat map 21 for each joint point output in step A1, that is, the j-th joint point A set of heatmaps in which only the point heatmaps are set to zero (or one) is generated as a training heatmap set 22 (step A3).
- the feature amount generation unit 12 determines whether a predetermined number of training heat map sets 22 have been generated (step A4). Then, if the result of determination in step A4 is that a predetermined number of training heat map sets 22 have not been generated (step A4: No), the feature generator 12 executes side step A2.
- step A4 if a predetermined number of training heat map sets 22 have been generated (step A4: Yes), the feature quantity generator 12 instructs the learning model generator 13 to provide the training heat map Notify that the generation of the set 22 has ended.
- the learning model generation unit 13 Upon receiving the notification, the learning model generation unit 13 updates the parameters of the CNN 16 using the predetermined number of training heat map sets 22 generated in step A3 (step A5). As a result, machine learning is performed on the positional relationship between other joint points when there is no heat map for a specific joint point, and a machine learning model is generated. After execution of step A5, the processing for generating the learning model ends.
- the training heat map set used as training data represents the feature amount when there is no feature amount for a specific joint point. For this reason, if joint points are detected using the generated CNN 16 as will be described later, even if the specific joint points of the object are not shown in the image, the joint points of the object can be accurately estimated. It becomes possible.
- the learning model generation program in Embodiment 1 may be any program that causes a computer to execute steps A1 to A5 shown in FIG. By installing this program in a computer and executing it, the learning model generation device and learning model generation method in Embodiment 1 can be realized.
- the processor of the computer functions as a total feature value output unit 11, a feature value generation unit 12, a learning model generation unit 13, and a random number generation unit 14, and performs processing.
- the storage unit 15 may be realized by storing data files constituting these in a storage device such as a hard disk provided in the computer, or may be realized by storing the data files in a storage device of another computer. It may be realized by Moreover, as a computer, a smart phone and a tablet-type terminal device are mentioned other than general-purpose PC.
- the learning model generation program in Embodiment 1 may be executed by a computer system constructed by a plurality of computers.
- each computer may function as one of the total feature amount output unit 11, the feature amount generation unit 12, the learning model generation unit 13, and the random number generation unit 14, respectively.
- Embodiment 2 (Embodiment 2) Subsequently, in Embodiment 2, a joint point detection device, a joint point detection method, and a joint point detection program will be described with reference to FIGS. 6 to 9.
- FIG. 2 a joint point detection device, a joint point detection method, and a joint point detection program
- FIG. 6 is a configuration diagram showing a schematic configuration of a joint point detection device according to Embodiment 2. As shown in FIG.
- a joint point detection device 30 according to Embodiment 2 shown in FIG. 6 is a device for detecting joint points of an object, such as a living body, a robot, or the like. As shown in FIG. 6 , the joint point detection device 30 includes a total feature amount output section 31 and a partial feature amount output section 32 .
- the total feature amount output unit 31 outputs the first feature amount representing the joint point for each joint point of interest from the target image data.
- the partial feature quantity output unit 32 receives the first feature quantity for each target joint point as input, and uses a machine learning model to output a second feature quantity representing the joint point for each target joint point. do.
- the machine learning model is a machine learning model that machine-learns the positional relationship between other joint points when there is no feature quantity for a specific joint point.
- the second feature amount is output using the machine learning model from the first feature amount representing each joint point. Since the machine learning model machine-learns the positional relationship between the joint points other than the specific joint point, the second feature quantity is the position of the other joint points when the specific joint point is not visible. can be properly indicated. Therefore, according to Embodiment 2, it is possible to improve the accuracy of estimating the position of each joint point.
- FIG. 7 is a diagram more specifically showing the configuration of the joint point detection device according to the second embodiment.
- 8A and 8B are diagrams for explaining functions of a total feature amount output unit and a partial feature amount output unit according to the second embodiment.
- the joint point detection device 30 includes a joint point detection unit 33 and a storage unit 34 in addition to the above-described total feature amount output unit 31 and partial feature amount output unit 32. It has The storage unit 34 stores the CNN 16 shown in FIG. 2 in the first embodiment.
- the joint point detection target is not limited to the human hand, and may be the entire human body or other parts.
- the target of joint point detection may be any object that has joint points, and may be an object other than a person, such as a robot.
- parts other than joint points such as characteristic parts such as fingertips, may also be detected.
- a heat map is used as a feature amount in the second embodiment as well.
- a feature amount other than a heat map such as coordinate values, may be used.
- the total feature amount output unit 31 has the same function as in Embodiment 1, and first acquires the target image data 40 . Then, as shown in FIG. 7, the total feature amount output unit 11 outputs a first heat map 41 from the image data 20 as a first feature amount representing joint points. Also, in the example of FIG. 8 , a plurality of first heat maps 41 are output for each joint point on the image data 40 .
- the total feature amount output unit 31 like the all feature amount output unit 11 shown in Embodiment 1, for example, learns the relationship between the joint points on the image and the heat map.
- the first heat map 41 is output.
- the machine learning model in this case also includes CNN.
- the partial feature amount output unit 32 inputs the first heat map 41 for each target joint point output from the total feature amount output unit 31 to the CNN 16, and outputs the target A second heat map 42 is output for each joint point.
- the CNN 16 is a machine learning model that machine-learns the positional relationship between other joint points when there is no feature quantity for a specific joint point. Therefore, in the second heat map 42, the second feature amount appropriately indicates the positions of other joint points when a specific joint point cannot be seen.
- the joint point detection unit 33 acquires a second heat map 42 for each joint point of the target hand. Then, the joint point detection unit 33 detects the coordinates of each target joint point using the second heat map 42 for each joint point.
- the joint point detection unit 33 identifies the location with the highest density in the second heat map 42 for each joint point, and detects the two-dimensional coordinates of the identified location on the image. In addition, when there are a plurality of second heat maps 42 for each joint point, the joint point detection unit 33 specifies the two-dimensional coordinates of the highest density location for each second heat map 33, and The average of each specified two-dimensional coordinate is calculated, and the calculated average coordinate is used as the final coordinate.
- FIG. 9 is a flowchart showing the operation of the joint point detection device according to the second embodiment. 6 to 8 will be referred to as needed in the following description. Further, in the second embodiment, the joint point detection method is implemented by operating the joint point detection device 30 . Therefore, the description of the joint point detection method in the second embodiment is replaced with the description of the operation of the joint point detection device 30 below.
- the total feature amount output unit 31 acquires the target image data 40, and outputs the first heat map 41 as the feature amount representing the joint points from the acquired image data 40. (step B1).
- the partial feature quantity output unit 32 inputs the first heat map 41 output in step A1 to the CNN 16, and outputs the second heat map 42 representing the joint points (step B2).
- the joint point detection unit 33 detects the coordinates of each target joint point from the second heat map 42 of each joint point output in step B2 (step B3).
- the first heat map 41 obtained from the image data is input to the CNN 16. Since the CNN 16 machine-learns the positional relationship between the joint points other than the specific joint point, the second heat map 42 appropriately shows the positions of the other joint points when the specific joint point is not visible. can be shown. Therefore, according to the second embodiment, it is possible to improve the accuracy of estimating the positions of the target joint points.
- the joint point detection program in the second embodiment may be any program that causes a computer to execute steps B1 to B3 shown in FIG. By installing this program in a computer and executing it, the joint point detecting device and the joint point detecting method in the second embodiment can be realized.
- the processor of the computer functions as a total feature amount output section 31, a partial feature amount output section 32, and a joint point detection section 33, and performs processing.
- the storage unit 34 may be implemented by storing the data files constituting these in a storage device such as a hard disk provided in the computer, or may be realized by storing the data files in a storage device of another computer. It may be realized by Moreover, as a computer, a smart phone and a tablet-type terminal device are mentioned other than general-purpose PC.
- the joint point detection program in Embodiment 2 may be executed by a computer system constructed by a plurality of computers.
- each computer may function as one of the total feature amount output section 31, the partial feature amount output section 32, and the joint point detection section 33, respectively.
- FIG. 10 is a block diagram showing an example of a computer that realizes the learning model generation device according to Embodiment 1 and the joint point detection device according to Embodiment 2.
- FIG. 10 is a block diagram showing an example of a computer that realizes the learning model generation device according to Embodiment 1 and the joint point detection device according to Embodiment 2.
- a computer 110 includes a CPU (Central Processing Unit) 111, a main memory 112, a storage device 113, an input interface 114, a display controller 115, a data reader/writer 116, and a communication interface 117. and These units are connected to each other via a bus 121 so as to be able to communicate with each other.
- CPU Central Processing Unit
- the computer 110 may include a GPU (Graphics Processing Unit) or an FPGA (Field-Programmable Gate Array) in addition to the CPU 111 or instead of the CPU 111 .
- a GPU or FPGA can execute the programs in the embodiments.
- the CPU 111 expands the program in the embodiment, which is composed of a code group stored in the storage device 113, into the main memory 112 and executes various operations by executing each code in a predetermined order.
- the main memory 112 is typically a volatile storage device such as DRAM (Dynamic Random Access Memory).
- the program in the embodiment is provided in a state stored in a computer-readable recording medium 120. It should be noted that the program in this embodiment may be distributed on the Internet connected via communication interface 117 .
- Input interface 114 mediates data transmission between CPU 111 and input devices 118 such as a keyboard and mouse.
- the display controller 115 is connected to the display device 119 and controls display on the display device 119 .
- the data reader/writer 116 mediates data transmission between the CPU 111 and the recording medium 120, reads programs from the recording medium 120, and writes processing results in the computer 110 to the recording medium 120.
- Communication interface 117 mediates data transmission between CPU 111 and other computers.
- the recording medium 120 include general-purpose semiconductor storage devices such as CF (Compact Flash (registered trademark)) and SD (Secure Digital), magnetic recording media such as flexible disks, and CD- Optical recording media such as ROM (Compact Disk Read Only Memory) can be mentioned.
- CF Compact Flash
- SD Secure Digital
- magnetic recording media such as flexible disks
- CD- Optical recording media such as ROM (Compact Disk Read Only Memory) can be mentioned.
- the learning model generation device 10 and the joint point detection device 30 can each be realized by using hardware corresponding to each part, such as a circuit, instead of a computer in which a program is installed. Further, the learning model generation device 10 and the joint point detection device 30 may be partly implemented by a program and the rest by hardware.
- a joint point detection device comprising:
- Appendix 2 The joint point detection device according to appendix 1, Further comprising a joint point detection unit that detects the coordinates of the target joint points using the second feature amount for each of the target joint points.
- a joint point detection device characterized by:
- the joint point detection device (Appendix 3) The joint point detection device according to appendix 1 or 2,
- the partial feature amount output unit receives the first feature amount for each of the target joint points as input, and for each of the plurality of specific joint points, another feature amount when the feature amount of the specific joint point does not exist Using a machine learning model that machine-learns the positional relationship between the joint points, for each of the target joint points, outputting a second feature amount representing the joint point;
- a joint point detection device characterized by:
- the joint point detection device according to any one of Appendices 1 to 3,
- the machine learning model is built by a convolutional neural network,
- Each of the first feature quantity and the second feature quantity includes a heat map that expresses the possibility that a joint point exists on the image,
- a joint point detection device characterized by:
- a total feature quantity output unit for outputting, for each joint point of the target, a feature quantity representing the joint point from the image data of the target; a feature quantity generation unit that generates, as a training feature quantity, a feature quantity when a specific joint point does not have a feature quantity from the feature quantity for each of the target joint points;
- a machine learning model is generated by machine learning a positional relationship between other joint points when the feature amount of the specific joint point does not exist using the training data including the generated feature amount for training.
- a learning model generator, and A learning model generation device characterized by comprising:
- the learning model generation device (Appendix 6) The learning model generation device according to appendix 5, The feature quantity generation unit generates a set of feature quantities for each of a plurality of specific joint points from the feature quantity for each of the target joint points when only the feature quantity for the specific joint point does not exist, generated as a training feature set, For each of a plurality of specific joint points, the learning model generation unit uses training data including the corresponding training feature quantity set to determine other joint points when the feature quantity of the specific joint point does not exist. Generate a machine learning model by machine learning the positional relationship between A learning model generation device characterized by:
- the learning model generation device according to appendix 5 or 6,
- the machine learning model is built by a convolutional neural network,
- the feature amount includes a heat map that expresses the possibility that joint points on the image exist,
- the feature amount generation unit sets the feature amount to not exist by setting the data on the heat map to 0 or 1
- a learning model generation device characterized by:
- a joint point detection method characterized by comprising:
- the joint point detection method according to any one of Appendices 8 to 10,
- the machine learning model is built by a convolutional neural network,
- Each of the first feature quantity and the second feature quantity includes a heat map that expresses the possibility that a joint point exists on the image,
- a joint point detection method characterized by:
- (Appendix 12) a total feature quantity output step of outputting, for each joint point of the target, a feature quantity representing the joint point from the image data of the target; a feature amount generation step of generating, as a training feature amount, a feature amount in the case where a feature amount of a specific joint point does not exist, from the feature amounts of each of the target joint points;
- a machine learning model is generated by machine learning a positional relationship between other joint points when the feature amount of the specific joint point is zero using the training data including the generated training feature amount.
- a learning model generation step A learning model generation method characterized by having
- the learning model generation method according to Appendix 12 or 13,
- the machine learning model is built by a convolutional neural network,
- the feature amount includes a heat map that expresses the possibility that joint points on the image exist,
- the feature amount generation step sets the feature amount to not exist by setting the data on the heat map to 0 or 1
- a learning model generation method characterized by:
- Appendix 16 The computer-readable recording medium according to Appendix 15, The program causes the computer to: Further comprising an instruction for executing a joint point detection step of detecting the coordinates of the joint points of the target using the second feature amount for each of the joint points of the target.
- a computer-readable recording medium characterized by:
- Appendix 18 The computer-readable recording medium according to any one of Appendices 15 to 17,
- the machine learning model is built by a convolutional neural network,
- Each of the first feature quantity and the second feature quantity includes a heat map that expresses the possibility that a joint point exists on the image,
- a computer-readable recording medium characterized by:
- a machine learning model is generated by machine learning a positional relationship between other joint points when the feature amount of the specific joint point does not exist using the training data including the generated feature amount for training.
- a learning model generation step, and A computer-readable recording medium characterized by recording a program including instructions for executing
- Appendix 21 The computer-readable recording medium according to Appendix 19 or 20,
- the machine learning model is built by a convolutional neural network
- the feature amount includes a heat map that expresses the possibility that joint points on the image exist
- the feature amount generation step sets the feature amount to not exist by setting the data on the heat map to 0 or 1
- a computer-readable recording medium characterized by:
- the present invention is useful in fields that require posture detection of objects having joint points, such as humans and robots. Specific fields include video surveillance and user interfaces.
- Embodiment 1 Learning model generation device (Embodiment 1) 11 total feature amount output unit 12 feature amount generation unit 13 learning model generation unit 14 random number generation unit 15 storage unit 16 machine learning model (CNN) 20 Image data (for learning) 21 heat map 22 training heat map set 30 joint point detection device (second embodiment) 31 total feature amount output unit 32 partial feature amount output unit 33 joint point detection unit 34 storage unit 40 image data (detection target) 41 first heat map 42 second heat map 110 computer 111 CPU 112 main memory 113 storage device 114 input interface 115 display controller 116 data reader/writer 117 communication interface 118 input device 119 display device 120 recording medium 121 bus
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
Description
対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す第1の特徴量を出力する、全特徴量出力部と、
前記対象の関節点それぞれ毎の前記第1の特徴量を入力として、特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している機械学習モデルを用いて、前記対象の関節点それぞれ毎に、当該関節点を表す第2の特徴量を出力する、部分特徴量出力部と、
を備えていることを特徴とする。
対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す特徴量を出力する、全特徴量出力部と、
前記対象の関節点それぞれ毎の前記特徴量から、特定の関節点の特徴量が存在しない場合の特徴量を訓練用特徴量として生成する、特徴量生成部と、
生成された前記訓練用特徴量を含む訓練データを用いて、前記特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成する、学習モデル生成部と、
を備えていることを特徴とする。
対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す第1の特徴量を出力する、全特徴量出力ステップと、
前記対象の関節点それぞれ毎の前記第1の特徴量を入力として、特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している機械学習モデルを用いて、前記対象の関節点それぞれ毎に、当該関節点を表す第2の特徴量を出力する、部分特徴量出力ステップと、
を有する、ことを特徴とする。
対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す特徴量を出力する、全特徴量出力ステップと、
前記対象の関節点それぞれ毎の前記特徴量から、特定の関節点の特徴量が存在しない場合の特徴量を訓練用特徴量として生成する、特徴量生成ステップと、
生成された前記訓練用特徴量を含む訓練データを用いて、前記特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成する、学習モデル生成ステップと、
を有する、ことを特徴とする。
コンピュータに、
対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す第1の特徴量を出力する、全特徴量出力ステップと、
前記対象の関節点それぞれ毎の前記第1の特徴量を入力として、特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している機械学習モデルを用いて、前記対象の関節点それぞれ毎に、当該関節点を表す第2の特徴量を出力する、部分特徴量出力ステップと、
を実行させる命令を含む、プログラムを記録していることを特徴とする。
コンピュータに、
対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す特徴量を出力する、全特徴量出力ステップと、
前記対象の関節点それぞれ毎の前記特徴量から、特定の関節点の特徴量が存在しない場合の特徴量を訓練用特徴量として生成する、特徴量生成ステップと、
生成された前記訓練用特徴量を含む訓練データを用いて、前記特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成する、学習モデル生成ステップと、
を実行させる命令を含む、プログラムを記録していることを特徴とする。
最初に、実施の形態1において、学習モデル生成装置、学習モデル生成方法、及び学習モデル生成用のプログラムについて、図1~図5を参照しながら説明する。
最初に、実施の形態1における学習モデル生成装置の概略構成について図1を用いて説明する。図1は、実施の形態1における学習モデル生成装置の概略構成を示す構成図である。
次に、実施の形態1における学習モデル生成装置10の動作について図5を用いて説明する。図5は、実施の形態1における学習モデル生成装置の動作を示すフロー図である。以下の説明においては、適宜図1~図4を参照する。また、実施の形態1では、学習モデル生成装置10を動作させることによって、学習モデル生成方法が実施される。よって、実施の形態1における学習モデル生成方法の説明は、以下の学習モデル生成装置10の動作説明に代える。
実施の形態1における学習モデル生成用のプログラムは、コンピュータに、図5に示すステップA1~A5を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、実施の形態1における学習モデル生成装置と学習モデル生成方法とを実現することができる。この場合、コンピュータのプロセッサは、全特徴量出力部11、特徴量生成部12、学習モデル生成部13、及び乱数発生部14として機能し、処理を行なう。
続いて、実施の形態2において、関節点検出装置、関節点検出方法、及び関節点検出用のプログラムについて、図6~図9を参照しながら説明する。
最初に、実施の形態2における関節点検出装置の概略構成について図6を用いて説明する。図6は、実施の形態2における関節点検出装置の概略構成を示す構成図である。
次に、実施の形態2における関節点検出装置30の動作について図9を用いて説明する。図9は、実施の形態2における関節点検出装置の動作を示すフロー図である。以下の説明においては、適宜図6~図8を参照する。また、実施の形態2では、関節点検出装置30を動作させることによって、関節点検出方法が実施される。よって、実施の形態2における関節点検出方法の説明は、以下の関節点検出装置30の動作説明に代える。
実施の形態2における関節点検出用のプログラムは、コンピュータに、図9に示すステップB1~B3を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、実施の形態2における関節点検出装置と関節点検出方法とを実現することができる。この場合、コンピュータのプロセッサは、全特徴量出力部31、部分特徴量出力部32、及び関節点検出部33として機能し、処理を行なう。
ここで、実施の形態1におけるプログラムを実行することによって学習モデル生成装置10を実現するコンピュータと、実施の形態2におけるプログラムを実行することによって関節点検出装置30を実現するコンピュータとについて、図10を用いて説明する。図10は、実施の形態1における学習モデル生成装置と実施の形態2における関節点検出装置とを実現するコンピュータの一例を示すブロック図である。
対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す第1の特徴量を出力する、全特徴量出力部と、
前記対象の関節点それぞれ毎の前記第1の特徴量を入力として、特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している機械学習モデルを用いて、前記対象の関節点それぞれ毎に、当該関節点を表す第2の特徴量を出力する、部分特徴量出力部と、
を備えていることを特徴とする関節点検出装置。
付記1に記載の関節点検出装置であって、
前記対象の関節点それぞれ毎の前記第2の特徴量を用いて、前記対象の関節点の座標を検出する、関節点検出部を更に備えている、
ことを特徴とする関節点検出装置。
付記1または2に記載の関節点検出装置であって、
前記部分特徴量出力部が、前記対象の関節点それぞれ毎の前記第1の特徴量を入力として、複数の前記特定の関節点それぞれについて当該特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している、機械学習モデルを用いて、前記対象の関節点それぞれ毎に、当該関節点を表す第2の特徴量を出力する、
ことを特徴とする関節点検出装置。
付記1から3のいずれかに記載の関節点検出装置であって、
前記機械学習モデルが、畳み込みニューラルネットワークによって構築されており、
前記第1の特徴量、及び前記第2の特徴量、それぞれが、画像上の関節点が存在する可能性を表現するヒートマップを含む、
ことを特徴とする関節点検出装置。
対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す特徴量を出力する、全特徴量出力部と、
前記対象の関節点それぞれ毎の前記特徴量から、特定の関節点の特徴量が存在しない場合の特徴量を訓練用特徴量として生成する、特徴量生成部と、
生成された前記訓練用特徴量を含む訓練データを用いて、前記特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成する、学習モデル生成部と、
を備えていることを特徴とする学習モデル生成装置。
付記5に記載の学習モデル生成装置であって、
前記特徴量生成部が、前記対象の関節点それぞれ毎の前記特徴量から、複数の特定の関節点それぞれ毎に、当該特定の関節点の特徴量のみが存在しない場合の特徴量のセットを、訓練用特徴量セットとして生成し、
前記学習モデル生成部が、複数の特定の関節点それぞれ毎に、対応する前記訓練用特徴量セットを含む訓練データを用いて、当該特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成する、
ことを特徴とする学習モデル生成装置。
付記5または6に記載の学習モデル生成装置であって、
前記機械学習モデルが、畳み込みニューラルネットワークによって構築されており、
前記特徴量が、画像上の関節点が存在する可能性を表現するヒートマップを含み、
前記特徴量生成部が、前記ヒートマップ上のデータをゼロまたは1とすることによって、特徴量を存在しないことに設定する、
ことを特徴とする学習モデル生成装置。
対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す第1の特徴量を出力する、全特徴量出力ステップと、
前記対象の関節点それぞれ毎の前記第1の特徴量を入力として、特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している機械学習モデルを用いて、前記対象の関節点それぞれ毎に、当該関節点を表す第2の特徴量を出力する、部分特徴量出力ステップと、
を有する、ことを特徴とする関節点検出方法。
付記8に記載の関節点検出方法であって、
前記対象の関節点それぞれ毎の前記第2の特徴量を用いて、前記対象の関節点の座標を検出する、関節点検出ステップを更に有する、
ことを特徴とする関節点検出方法。
付記8または9に記載の関節点検出方法であって、
前記部分特徴量出力ステップにおいて、前記対象の関節点それぞれ毎の前記第1の特徴量を入力として、複数の前記特定の関節点それぞれについて当該特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している、機械学習モデルを用いて、前記対象の関節点それぞれ毎に、当該関節点を表す第2の特徴量を出力する、
ことを特徴とする関節点検出方法。
付記8から10のいずれかに記載の関節点検出方法であって、
前記機械学習モデルが、畳み込みニューラルネットワークによって構築されており、
前記第1の特徴量、及び前記第2の特徴量、それぞれが、画像上の関節点が存在する可能性を表現するヒートマップを含む、
ことを特徴とする関節点検出方法。
対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す特徴量を出力する、全特徴量出力ステップと、
前記対象の関節点それぞれ毎の前記特徴量から、特定の関節点の特徴量が存在しない場合の特徴量を訓練用特徴量として生成する、特徴量生成ステップと、
生成された前記訓練用特徴量を含む訓練データを用いて、前記特定の関節点の特徴量がゼロである場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成する、学習モデル生成ステップと、
を有する、ことを特徴とする学習モデル生成方法。
付記12に記載の学習モデル生成方法であって、
前記特徴量生成ステップにおいて、前記対象の関節点それぞれ毎の前記特徴量から、複数の特定の関節点それぞれ毎に、当該特定の関節点の特徴量のみが存在しない場合の特徴量のセットを、訓練用特徴量セットとして生成し、
前記学習モデル生成ステップにおいて、複数の特定の関節点それぞれ毎に、対応する前記訓練用特徴量セットを含む訓練データを用いて、当該特定の関節点の特徴量がゼロである場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成する、
ことを特徴とする学習モデル生成方法。
付記12または13に記載の学習モデル生成方法であって、
前記機械学習モデルが、畳み込みニューラルネットワークによって構築されており、
前記特徴量が、画像上の関節点が存在する可能性を表現するヒートマップを含み、
前記特徴量生成ステップが、前記ヒートマップ上のデータをゼロまたは1とすることによって、特徴量を存在しないことに設定する、
ことを特徴とする学習モデル生成方法。
コンピュータに、
対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す第1の特徴量を出力する、全特徴量出力ステップと、
前記対象の関節点それぞれ毎の前記第1の特徴量を入力として、特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している機械学習モデルを用いて、前記対象の関節点それぞれ毎に、当該関節点を表す第2の特徴量を出力する、部分特徴量出力ステップと、
を実行させる命令を含む、プログラムを記録していることを特徴とするコンピュータ読み取り可能な記録媒体。
付記15に記載のコンピュータ読み取り可能な記録媒体であって、
前記プログラムが、前記コンピュータに、
前記対象の関節点それぞれ毎の前記第2の特徴量を用いて、前記対象の関節点の座標を検出する、関節点検出ステップを実行させる命令を更に含む、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
付記15または16に記載のコンピュータ読み取り可能な記録媒体であって、
前記部分特徴量出力ステップにおいて、前記対象の関節点それぞれ毎の前記第1の特徴量を入力として、複数の前記特定の関節点それぞれについて当該特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している、機械学習モデルを用いて、前記対象の関節点それぞれ毎に、当該関節点を表す第2の特徴量を出力する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
付記15から17のいずれかに記載のコンピュータ読み取り可能な記録媒体であって、
前記機械学習モデルが、畳み込みニューラルネットワークによって構築されており、
前記第1の特徴量、及び前記第2の特徴量、それぞれが、画像上の関節点が存在する可能性を表現するヒートマップを含む、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
コンピュータに、
対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す特徴量を出力する、全特徴量出力ステップと、
前記対象の関節点それぞれ毎の前記特徴量から、特定の関節点の特徴量がゼロに設定された場合の特徴量を訓練用特徴量として生成する、特徴量生成ステップと、
生成された前記訓練用特徴量を含む訓練データを用いて、前記特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成する、学習モデル生成ステップと、
を実行させる命令を含む、プログラムを記録していることを特徴とするコンピュータ読み取り可能な記録媒体。
付記19に記載のコンピュータ読み取り可能な記録媒体であって、
前記特徴量生成ステップにおいて、前記対象の関節点それぞれ毎の前記特徴量から、複数の特定の関節点それぞれ毎に、当該特定の関節点の特徴量のみが存在しない場合の特徴量のセットを、訓練用特徴量セットとして生成し、
前記学習モデル生成ステップにおいて、複数の特定の関節点それぞれ毎に、対応する前記訓練用特徴量セットを含む訓練データを用いて、当該特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
付記19または20に記載のコンピュータ読み取り可能な記録媒体であって、
前記機械学習モデルが、畳み込みニューラルネットワークによって構築されており、
前記特徴量が、画像上の関節点が存在する可能性を表現するヒートマップを含み、
前記特徴量生成ステップが、前記ヒートマップ上のデータをゼロまたは1とすることによって、特徴量を存在しないことに設定する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
11 全特徴量出力部
12 特徴量生成部
13 学習モデル生成部
14 乱数発生部
15 記憶部
16 機械学習モデル(CNN)
20 画像データ(学習用)
21 ヒートマップ
22 訓練用ヒートマップセット
30 関節点検出装置(実施の形態2)
31 全特徴量出力部
32 部分特徴量出力部
33 関節点検出部
34 記憶部
40 画像データ(検出対象)
41 第1のヒートマップ
42 第2のヒートマップ
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス
Claims (21)
- 対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す第1の特徴量を出力する、全特徴量出力手段と、
前記対象の関節点それぞれ毎の前記第1の特徴量を入力として、特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している機械学習モデルを用いて、前記対象の関節点それぞれ毎に、当該関節点を表す第2の特徴量を出力する、部分特徴量出力手段と、
を備えていることを特徴とする関節点検出装置。 - 請求項1に記載の関節点検出装置であって、
前記対象の関節点それぞれ毎の前記第2の特徴量を用いて、前記対象の関節点の座標を検出する、関節点検出手段を更に備えている、
ことを特徴とする関節点検出装置。 - 請求項1または2に記載の関節点検出装置であって、
前記部分特徴量出力手段が、前記対象の関節点それぞれ毎の前記第1の特徴量を入力として、複数の前記特定の関節点それぞれについて当該特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している、機械学習モデルを用いて、前記対象の関節点それぞれ毎に、当該関節点を表す第2の特徴量を出力する、
ことを特徴とする関節点検出装置。 - 請求項1から3のいずれかに記載の関節点検出装置であって、
前記機械学習モデルが、畳み込みニューラルネットワークによって構築されており、
前記第1の特徴量、及び前記第2の特徴量、それぞれが、画像上の関節点が存在する可能性を表現するヒートマップを含む、
ことを特徴とする関節点検出装置。 - 対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す特徴量を出力する、全特徴量出力手段と、
前記対象の関節点それぞれ毎の前記特徴量から、特定の関節点の特徴量が存在しない場合の特徴量を訓練用特徴量として生成する、特徴量生成手段と、
生成された前記訓練用特徴量を含む訓練データを用いて、前記特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成する、学習モデル生成手段と、
を備えていることを特徴とする学習モデル生成装置。 - 請求項5に記載の学習モデル生成装置であって、
前記特徴量生成手段が、前記対象の関節点それぞれ毎の前記特徴量から、複数の特定の関節点それぞれ毎に、当該特定の関節点の特徴量のみが存在しない場合の特徴量のセットを、訓練用特徴量セットとして生成し、
前記学習モデル生成手段が、複数の特定の関節点それぞれ毎に、対応する前記訓練用特徴量セットを含む訓練データを用いて、当該特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成する、
ことを特徴とする学習モデル生成装置。 - 請求項5または6に記載の学習モデル生成装置であって、
前記機械学習モデルが、畳み込みニューラルネットワークによって構築されており、
前記特徴量が、画像上の関節点が存在する可能性を表現するヒートマップを含み、
前記特徴量生成手段が、前記ヒートマップ上のデータをゼロまたは1とすることによって
、特徴量を存在しないことに設定する、
ことを特徴とする学習モデル生成装置。 - 対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す第1の特徴量を出力し、
前記対象の関節点それぞれ毎の前記第1の特徴量を入力として、特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している機械学習モデルを用いて、前記対象の関節点それぞれ毎に、当該関節点を表す第2の特徴量を出力する、
ことを特徴とする関節点検出方法。 - 請求項8に記載の関節点検出方法であって、
前記対象の関節点それぞれ毎の前記第2の特徴量を用いて、前記対象の関節点の座標を検出する、
ことを特徴とする関節点検出方法。 - 請求項8または9に記載の関節点検出方法であって、
前記部分特徴量の出力において、前記対象の関節点それぞれ毎の前記第1の特徴量を入力として、複数の前記特定の関節点それぞれについて当該特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している、機械学習モデルを用いて、前記対象の関節点それぞれ毎に、当該関節点を表す第2の特徴量を出力する、
ことを特徴とする関節点検出方法。 - 請求項8から10のいずれかに記載の関節点検出方法であって、
前記機械学習モデルが、畳み込みニューラルネットワークによって構築されており、
前記第1の特徴量、及び前記第2の特徴量、それぞれが、画像上の関節点が存在する可能性を表現するヒートマップを含む、
ことを特徴とする関節点検出方法。 - 対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す特徴量を出力し、
前記対象の関節点それぞれ毎の前記特徴量から、特定の関節点の特徴量が存在しない場合の特徴量を訓練用特徴量として生成し、
生成された前記訓練用特徴量を含む訓練データを用いて、前記特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成する、
ことを特徴とする学習モデル生成方法。 - 請求項12に記載の学習モデル生成方法であって、
前記特徴量の生成において、前記対象の関節点それぞれ毎の前記特徴量から、複数の特定の関節点それぞれ毎に、当該特定の関節点の特徴量のみが存在しない場合の特徴量のセットを、訓練用特徴量セットとして生成し、
前記学習モデルの生成において、複数の特定の関節点それぞれ毎に、対応する前記訓練用特徴量セットを含む訓練データを用いて、当該特定の関節点の特徴量がゼロである場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成する、
ことを特徴とする学習モデル生成方法。 - 請求項12または13に記載の学習モデル生成方法であって、
前記機械学習モデルが、畳み込みニューラルネットワークによって構築されており、
前記特徴量が、画像上の関節点が存在する可能性を表現するヒートマップを含み、
前記特徴量の生成において、前記ヒートマップ上のデータをゼロまたは1とすることによって、特徴量を存在しないことに設定する、
ことを特徴とする学習モデル生成方法。 - コンピュータに、
対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す第1の特徴量を出力させ、
前記対象の関節点それぞれ毎の前記第1の特徴量を入力として、特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している機械学習モデルを用いて、前記対象の関節点それぞれ毎に、当該関節点を表す第2の特徴量を出力させる、
命令を含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。 - 請求項15に記載のコンピュータ読み取り可能な記録媒体であって、
前記プログラムが、前記コンピュータに、
前記対象の関節点それぞれ毎の前記第2の特徴量を用いて、前記対象の関節点の座標を検出させる、命令を更に含む、
ことを特徴とするコンピュータ読み取り可能な記録媒体。 - 請求項15または16に記載のコンピュータ読み取り可能な記録媒体であって、
前記部分特徴量の出力において、前記対象の関節点それぞれ毎の前記第1の特徴量を入力として、複数の前記特定の関節点それぞれについて当該特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している、機械学習モデルを用いて、前記対象の関節点それぞれ毎に、当該関節点を表す第2の特徴量を出力する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。 - 請求項15から17のいずれかに記載のコンピュータ読み取り可能な記録媒体であって、
前記機械学習モデルが、畳み込みニューラルネットワークによって構築されており、
前記第1の特徴量、及び前記第2の特徴量、それぞれが、画像上の関節点が存在する可能性を表現するヒートマップを含む、
ことを特徴とするコンピュータ読み取り可能な記録媒体。 - コンピュータに、
対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す特徴量を出力させ、
前記対象の関節点それぞれ毎の前記特徴量から、特定の関節点の特徴量がゼロに設定された場合の特徴量を訓練用特徴量として生成させ、
生成された前記訓練用特徴量を含む訓練データを用いて、前記特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成させる、
命令を含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。 - 請求項19に記載のコンピュータ読み取り可能な記録媒体であって、
前記特徴量の生成において、前記対象の関節点それぞれ毎の前記特徴量から、複数の特定の関節点それぞれ毎に、当該特定の関節点の特徴量のみが存在しない場合の特徴量のセットを、訓練用特徴量セットとして生成し、
前記学習モデルの生成において、複数の特定の関節点それぞれ毎に、対応する前記訓練用特徴量セットを含む訓練データを用いて、当該特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。 - 請求項19または20に記載のコンピュータ読み取り可能な記録媒体であって、
前記機械学習モデルが、畳み込みニューラルネットワークによって構築されており、
前記特徴量が、画像上の関節点が存在する可能性を表現するヒートマップを含み、
前記特徴量の生成において、前記ヒートマップ上のデータをゼロまたは1とすることによって、特徴量を存在しないことに設定する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US18/273,930 US20240078832A1 (en) | 2021-02-26 | 2022-02-01 | Joint detection apparatus, learning-model generation apparatus, joint detection method, learning-model generation method, and computer readable recording medium |
JP2023502225A JPWO2022181252A5 (ja) | 2022-02-01 | 関節点検出装置、関節点検出方法、及びプログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021-029411 | 2021-02-26 | ||
JP2021029411 | 2021-02-26 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022181252A1 true WO2022181252A1 (ja) | 2022-09-01 |
Family
ID=83048136
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2022/003766 WO2022181252A1 (ja) | 2021-02-26 | 2022-02-01 | 関節点検出装置、学習モデル生成装置、関節点検出方法、学習モデル生成方法、及びコンピュータ読み取り可能な記録媒体 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20240078832A1 (ja) |
WO (1) | WO2022181252A1 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020000096A1 (en) * | 2018-06-29 | 2020-01-02 | Wrnch Inc. | Human pose analysis system and method |
-
2022
- 2022-02-01 US US18/273,930 patent/US20240078832A1/en active Pending
- 2022-02-01 WO PCT/JP2022/003766 patent/WO2022181252A1/ja active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020000096A1 (en) * | 2018-06-29 | 2020-01-02 | Wrnch Inc. | Human pose analysis system and method |
Non-Patent Citations (1)
Title |
---|
WANG HONGSONG; WANG LIANG: "Modeling Temporal Dynamics and Spatial Configurations of Actions Using Two-Stream Recurrent Neural Networks", 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), IEEE COMPUTER SOCIETY, US, 21 July 2017 (2017-07-21), US , pages 3633 - 3642, XP033249713, ISSN: 1063-6919, DOI: 10.1109/CVPR.2017.387 * |
Also Published As
Publication number | Publication date |
---|---|
US20240078832A1 (en) | 2024-03-07 |
JPWO2022181252A1 (ja) | 2022-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210090327A1 (en) | Neural network processing for multi-object 3d modeling | |
US10572072B2 (en) | Depth-based touch detection | |
JP7050740B2 (ja) | 物体を把持するための奥行知覚モデリング | |
JP2019517701A (ja) | 画像内の物体を検出する方法及び物体検出システム | |
JP6872044B2 (ja) | 対象物の外接枠を決定するための方法、装置、媒体及び機器 | |
KR20190054702A (ko) | 영상에서 객체의 행동을 인식하는 방법 및 그 장치 | |
US10977549B2 (en) | Object animation using generative neural networks | |
CN111524216B (zh) | 生成三维人脸数据的方法和装置 | |
US10162737B2 (en) | Emulating a user performing spatial gestures | |
KR20190084460A (ko) | 잡음에 강인한 소리 기반의 호흡기 질병 탐지 방법 및 그 시스템 | |
CN110956131B (zh) | 单目标追踪方法、装置及系统 | |
JP2021144359A (ja) | 学習装置、推定装置、学習方法、及びプログラム | |
JP7267068B2 (ja) | 学習済みモデル生成装置、プログラム及び学習済みモデル生成システム | |
US11301717B2 (en) | Method and apparatus for measuring interaction force based on sequential images using attention network | |
WO2022181252A1 (ja) | 関節点検出装置、学習モデル生成装置、関節点検出方法、学習モデル生成方法、及びコンピュータ読み取り可能な記録媒体 | |
JP6986160B2 (ja) | 画像処理方法および画像処理装置 | |
JP6892155B2 (ja) | 人体部位推定装置、人体部位推定方法、及びプログラム | |
WO2022181251A1 (ja) | 関節点検出装置、関節点検出方法、及びコンピュータ読み取り可能な記録媒体 | |
US20210374543A1 (en) | System, training device, training method, and predicting device | |
US20220012551A1 (en) | Machine learning apparatus, machine learning method, and computer-readable recording medium | |
WO2022181253A1 (ja) | 関節点検出装置、学習モデル生成装置、関節点検出方法、学習モデル生成方法、及びコンピュータ読み取り可能な記録媒体 | |
CN114090466A (zh) | 一种指令处理装置、方法、计算机设备及存储介质 | |
WO2019186833A1 (ja) | 画像処理装置、画像処理方法、及び、コンピュータ読み取り可能な記録媒体 | |
US20220300818A1 (en) | Structure optimization apparatus, structure optimization method, and computer-readable recording medium | |
JP7480920B2 (ja) | 学習装置、推定装置、学習方法、推定方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22759293 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 18273930 Country of ref document: US |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2023502225 Country of ref document: JP |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 22759293 Country of ref document: EP Kind code of ref document: A1 |