WO2022181252A1 - 関節点検出装置、学習モデル生成装置、関節点検出方法、学習モデル生成方法、及びコンピュータ読み取り可能な記録媒体 - Google Patents

関節点検出装置、学習モデル生成装置、関節点検出方法、学習モデル生成方法、及びコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
WO2022181252A1
WO2022181252A1 PCT/JP2022/003766 JP2022003766W WO2022181252A1 WO 2022181252 A1 WO2022181252 A1 WO 2022181252A1 JP 2022003766 W JP2022003766 W JP 2022003766W WO 2022181252 A1 WO2022181252 A1 WO 2022181252A1
Authority
WO
WIPO (PCT)
Prior art keywords
joint
joint point
feature amount
learning model
feature
Prior art date
Application number
PCT/JP2022/003766
Other languages
English (en)
French (fr)
Inventor
遊哉 石井
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US18/273,930 priority Critical patent/US20240078832A1/en
Priority to JP2023502225A priority patent/JPWO2022181252A5/ja
Publication of WO2022181252A1 publication Critical patent/WO2022181252A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Definitions

  • the present invention relates to a joint point detection device and a joint point detection method for detecting joint points of a living body from an image, and further relates to a computer-readable recording medium recording a program for realizing these.
  • the present invention also relates to a learning model generation apparatus and a learning model generation method for generating a learning model for detecting joint points of a living body from an image, and furthermore, a program for realizing these is recorded. It relates to a computer-readable recording medium.
  • Non-Patent Document 1 discloses a system for estimating the posture of a person, especially the posture of a person's hand, from an image.
  • the system disclosed in Non-Patent Document 1 first acquires image data including an image of a hand. Each time, a heat map expressing the existence probability of joint points by colors and densities is output.
  • Non-Patent Document 1 inputs the output heat map to a neural network that performs machine learning on the relationship between the joint points and the corresponding heat map.
  • a plurality of such neural networks are prepared, and an output result from one neural network is input to another neural network.
  • the positions of joint points on the heat map are refined.
  • Patent document 1 also discloses a system for estimating the posture of a hand from an image. Like the system disclosed in Non-Patent Document 1, the system disclosed in Patent Document 1 also uses a neural network to estimate the coordinates of joint points.
  • Non-Patent Document 1 or Patent Document 1 it is possible to estimate the coordinates of the joint points of the human hand from the image as described above. There is a problem that the estimation accuracy is lowered.
  • An example of the object of the present invention is to provide a joint point detection device, a learning model generation device, a joint point detection method, a learning model generation method, and a computer-readable recording medium that can improve the accuracy of joint point position estimation. to do.
  • a joint point detection device includes: a total feature amount output unit for outputting, for each joint point of the target, a first feature amount representing the joint point from the image data of the target; Using a machine learning model that performs machine learning of the positional relationship between other joint points when the first feature amount for each of the target joint points is input and the feature amount of a specific joint point does not exist , a partial feature quantity output unit for outputting a second feature quantity representing the joint point for each of the target joint points; characterized by comprising
  • the learning model generation device in one aspect of the present invention includes: a total feature quantity output unit for outputting, for each joint point of the target, a feature quantity representing the joint point from the image data of the target; a feature quantity generation unit that generates, as a training feature quantity, a feature quantity when a specific joint point does not have a feature quantity from the feature quantity for each of the target joint points;
  • a machine learning model is generated by machine learning a positional relationship between other joint points when the feature amount of the specific joint point does not exist using the training data including the generated feature amount for training.
  • a learning model generator and characterized by comprising
  • a joint point detection method includes: a total feature quantity output step of outputting, for each joint point of the target, a first feature quantity representing the joint point from the image data of the target; Using a machine learning model that performs machine learning of the positional relationship between other joint points when the first feature amount for each of the target joint points is input and the feature amount of a specific joint point does not exist , a partial feature quantity output step of outputting a second feature quantity representing the joint point for each of the target joint points; characterized by having
  • a learning model generation method includes: a total feature quantity output step of outputting, for each joint point of the target, a feature quantity representing the joint point from the image data of the target; a feature amount generation step of generating, as a training feature amount, a feature amount in the case where a feature amount of a specific joint point does not exist, from the feature amounts of each of the target joint points; A machine learning model is generated by machine learning a positional relationship between other joint points when the feature amount of the specific joint point does not exist using the training data including the generated feature amount for training.
  • a learning model generation step and characterized by having
  • a first computer-readable recording medium in one aspect of the present invention comprises: to the computer, a total feature quantity output step of outputting, for each joint point of the target, a first feature quantity representing the joint point from the image data of the target; Using a machine learning model that performs machine learning of the positional relationship between other joint points when the first feature amount for each of the target joint points is input and the feature amount of a specific joint point does not exist , a partial feature quantity output step of outputting a second feature quantity representing the joint point for each of the target joint points;
  • a program is recorded that includes instructions for executing
  • a second computer-readable recording medium in one aspect of the present invention comprises: to the computer, a total feature quantity output step of outputting, for each joint point of the target, a feature quantity representing the joint point from the image data of the target; a feature amount generation step of generating, as a training feature amount, a feature amount in the case where a feature amount of a specific joint point does not exist, from the feature amounts of each of the target joint points; A machine learning model is generated by machine learning a positional relationship between other joint points when the feature amount of the specific joint point does not exist using the training data including the generated feature amount for training. , a learning model generation step, and A program is recorded that includes instructions for executing
  • FIG. 1 is a configuration diagram showing a schematic configuration of a learning model generation device according to Embodiment 1.
  • FIG. 2 is a block diagram specifically showing the configuration of the learning model generation device according to Embodiment 1.
  • FIG. 3A and 3B are diagrams for explaining functions of a total feature amount output unit according to Embodiment 1.
  • FIG. 4A and 4B are diagrams for explaining the functions of the feature amount generation unit and the learning model generation unit according to the first embodiment.
  • FIG. 5 is a flowchart showing the operation of the learning model generation device according to Embodiment 1.
  • FIG. FIG. 6 is a configuration diagram showing a schematic configuration of a joint point detection device according to Embodiment 2. As shown in FIG. FIG. FIG.
  • FIG. 7 is a diagram more specifically showing the configuration of the joint point detection device according to the second embodiment.
  • 8A and 8B are diagrams for explaining functions of a total feature amount output unit and a partial feature amount output unit according to the second embodiment.
  • FIG. 9 is a flowchart showing the operation of the joint point detection device according to the second embodiment.
  • FIG. 10 is a block diagram showing an example of a computer that realizes the learning model generation device according to Embodiment 1 and the joint point detection device according to Embodiment 2.
  • Embodiment 1 First, in Embodiment 1, a learning model generation device, a learning model generation method, and a learning model generation program will be described with reference to FIGS. 1 to 5.
  • FIG. 1 An illustration of an example of an example of an example of an example of an example of an embodiment of the present disclosure.
  • Embodiment 1 First, in Embodiment 1, a learning model generation device, a learning model generation method, and a learning model generation program will be described with reference to FIGS. 1 to 5.
  • FIG. 1 First, in Embodiment 1, a learning model generation device, a learning model generation method, and a learning model generation program will be described with reference to FIGS. 1 to 5.
  • FIG. 1 is a configuration diagram showing a schematic configuration of a learning model generation device according to Embodiment 1. As shown in FIG.
  • the learning model generation device 10 in Embodiment 1 shown in FIG. 1 is a device that generates a machine learning model for detecting joint points. As shown in FIG. 1 , the learning model generation device 10 includes a total feature amount output unit 11 , a feature amount generation unit 12 and a learning model generation unit 13 .
  • the total feature quantity output unit 11 outputs a feature quantity representing each joint point of interest from the target image data.
  • the feature amount generating unit 12 generates, as a training feature amount, a feature amount when there is no feature amount for a specific joint point from the feature amounts for each target joint point.
  • the learning model generation unit 13 performs machine learning of the positional relationship between other joint points when the feature amount of a specific joint point does not exist using the training data including the generated feature amount for training. Generate machine learning models.
  • the training feature amount used as training data is a feature amount when the feature amount of a specific joint point does not exist. Therefore, by detecting the joint points using the generated machine learning model, it is possible to accurately estimate the target joint points even if the target specific joint points are not shown in the image. .
  • FIG. 2 is a block diagram specifically showing the configuration of the learning model generation device according to Embodiment 1.
  • FIG. 3A and 3B are diagrams for explaining functions of a total feature amount output unit according to Embodiment 1.
  • FIG. 4A and 4B are diagrams for explaining the functions of the feature amount generation unit and the learning model generation unit according to the first embodiment.
  • the learning model generation device 10 includes, in addition to the above-described all feature amount output unit 11, feature amount generation unit 12, and learning model generation unit 13, a random number generation unit 14, and a storage unit 15 .
  • the random number generation unit 14 generates random numbers within the set range and inputs the generated random numbers to the feature amount generation unit 12 .
  • the processing in the feature amount generation unit 12 using random numbers will be described later.
  • the storage unit 15 stores the machine learning model 16 generated by the learning model generation unit 13 .
  • the machine learning model 16 is constructed by a convolutional neural network (CNN).
  • CNN convolutional neural network
  • the machine learning model is generated by the learning model generation unit 13 by updating the initial values of the parameters of the CNN through learning.
  • a machine-learning model is also described as "CNN.”
  • the target is a human hand
  • the target is not limited to the human hand, and may be the entire human body or other parts.
  • the object may be anything that has joint points, and may be something other than a person, such as a robot.
  • parts other than joint points for example, characteristic parts such as fingertips, may also be detected.
  • a heat map is a map that expresses the possibility of existence of joint points on an image.
  • the possibility of existence of joint points can be expressed by color densities.
  • coordinate values may be used as the feature quantity.
  • the total feature amount output unit 11 first acquires the target image data 20 . Then, as shown in FIG. 3, the total feature quantity output unit 11 outputs a heat map 21 from the image data 20 as a feature quantity representing joint points. In the example of FIG. 3 , a plurality of heat maps 21 are output for each joint point on the image data 20 .
  • the total feature amount output unit uses, for example, a machine learning model that learns the relationship between the joint points on the image and the heat map, and by inputting the image data into this machine learning model, A heat map 21 is output.
  • the machine learning model in this case also includes CNN. Also, in this CNN machine learning, the image data of the joint points and the correct heat map are used as training data. CNN machine learning is performed by updating parameters so that the difference between the output result (heat map) of image data as training data and the correct heat map becomes smaller.
  • the feature amount generation unit 12 is set such that only the feature amount of a specific joint point does not exist for each of a plurality of specific joint points from the heat map 21 for each target joint point.
  • a set of features is generated as a training feature set 22 .
  • the feature generator 12 first receives random numbers from the random number generator 14 . Then, the feature amount generation unit 12 sets the data on the heat map of the j-th joint point indicated by the random number to zero or 1 among the plurality of heat maps 21 generated for each joint point on the image, and sets the data on the heat map to zero or one. Set the feature value of the joint point to not exist. As a result, a feature quantity set (training feature quantity set) 22 is set such that only the heat map of the j-th joint point among the plurality of heat maps 21 generated for each joint point on the image does not exist. is generated. It is assumed that each joint point is assigned a number in advance.
  • the feature amount of each of the plurality of joint points does not exist according to the generated random number, but it is not limited to this, and the feature amount is set to not exist.
  • the joint points may be set in advance.
  • the feature quantity generation unit 12 may sequentially set that no feature quantity exists for each joint point, and generate the training feature quantity sets 22 corresponding to the number of joint points.
  • the training feature amount is also a heat map
  • the training feature amount set 22 is described as "training heat map set 22.”
  • the learning model generation unit 13 uses training data including a corresponding training heatmap set for each of a plurality of specific joint points, except when there is no heatmap for the specific joint point. Generate a machine learning model by machine learning the positional relationship between the joint points.
  • the learning model generation unit 13 acquires the CNN 16 from the storage unit 15, inputs the selected training heat map set 22 to the CNN 16, and each heat map as an output result Calculate the difference between the set and the corresponding correct heatmap.
  • a heat map of correct answers is prepared in advance. Also, for the heat maps in which the feature amount does not exist, the difference is not calculated, or the heat map in which the feature amount does not exist is used as the correct heat map.
  • the learning model generation unit 13 updates the parameters of the CNN 16 so that the calculated difference is minimized, and stores the CNN 16 with updated parameters in the storage unit 15 . Also, the learning model generation unit 13 executes this process until there are no more unselected training heat map sets 22 left. The result is a CNN that can be used to detect joint points.
  • FIG. 5 is a flowchart showing the operation of the learning model generation device according to Embodiment 1.
  • FIG. 1 to 4 will be referred to as needed in the following description.
  • the learning model generation method is implemented by operating the learning model generation device 10 . Therefore, the description of the learning model generation method in Embodiment 1 is replaced with the description of the operation of the learning model generation device 10 below.
  • the total feature amount output unit 11 acquires target image data 20, and outputs a heat map 21 as a feature amount representing joint points from the acquired image data 20 (step A1).
  • the feature quantity generator 12 acquires the random number j generated by the random number generator 14 (step A2). Subsequently, the feature amount generation unit 12 sets that only the feature amount of the j-th joint point does not exist from the heat map 21 for each joint point output in step A1, that is, the j-th joint point A set of heatmaps in which only the point heatmaps are set to zero (or one) is generated as a training heatmap set 22 (step A3).
  • the feature amount generation unit 12 determines whether a predetermined number of training heat map sets 22 have been generated (step A4). Then, if the result of determination in step A4 is that a predetermined number of training heat map sets 22 have not been generated (step A4: No), the feature generator 12 executes side step A2.
  • step A4 if a predetermined number of training heat map sets 22 have been generated (step A4: Yes), the feature quantity generator 12 instructs the learning model generator 13 to provide the training heat map Notify that the generation of the set 22 has ended.
  • the learning model generation unit 13 Upon receiving the notification, the learning model generation unit 13 updates the parameters of the CNN 16 using the predetermined number of training heat map sets 22 generated in step A3 (step A5). As a result, machine learning is performed on the positional relationship between other joint points when there is no heat map for a specific joint point, and a machine learning model is generated. After execution of step A5, the processing for generating the learning model ends.
  • the training heat map set used as training data represents the feature amount when there is no feature amount for a specific joint point. For this reason, if joint points are detected using the generated CNN 16 as will be described later, even if the specific joint points of the object are not shown in the image, the joint points of the object can be accurately estimated. It becomes possible.
  • the learning model generation program in Embodiment 1 may be any program that causes a computer to execute steps A1 to A5 shown in FIG. By installing this program in a computer and executing it, the learning model generation device and learning model generation method in Embodiment 1 can be realized.
  • the processor of the computer functions as a total feature value output unit 11, a feature value generation unit 12, a learning model generation unit 13, and a random number generation unit 14, and performs processing.
  • the storage unit 15 may be realized by storing data files constituting these in a storage device such as a hard disk provided in the computer, or may be realized by storing the data files in a storage device of another computer. It may be realized by Moreover, as a computer, a smart phone and a tablet-type terminal device are mentioned other than general-purpose PC.
  • the learning model generation program in Embodiment 1 may be executed by a computer system constructed by a plurality of computers.
  • each computer may function as one of the total feature amount output unit 11, the feature amount generation unit 12, the learning model generation unit 13, and the random number generation unit 14, respectively.
  • Embodiment 2 (Embodiment 2) Subsequently, in Embodiment 2, a joint point detection device, a joint point detection method, and a joint point detection program will be described with reference to FIGS. 6 to 9.
  • FIG. 2 a joint point detection device, a joint point detection method, and a joint point detection program
  • FIG. 6 is a configuration diagram showing a schematic configuration of a joint point detection device according to Embodiment 2. As shown in FIG.
  • a joint point detection device 30 according to Embodiment 2 shown in FIG. 6 is a device for detecting joint points of an object, such as a living body, a robot, or the like. As shown in FIG. 6 , the joint point detection device 30 includes a total feature amount output section 31 and a partial feature amount output section 32 .
  • the total feature amount output unit 31 outputs the first feature amount representing the joint point for each joint point of interest from the target image data.
  • the partial feature quantity output unit 32 receives the first feature quantity for each target joint point as input, and uses a machine learning model to output a second feature quantity representing the joint point for each target joint point. do.
  • the machine learning model is a machine learning model that machine-learns the positional relationship between other joint points when there is no feature quantity for a specific joint point.
  • the second feature amount is output using the machine learning model from the first feature amount representing each joint point. Since the machine learning model machine-learns the positional relationship between the joint points other than the specific joint point, the second feature quantity is the position of the other joint points when the specific joint point is not visible. can be properly indicated. Therefore, according to Embodiment 2, it is possible to improve the accuracy of estimating the position of each joint point.
  • FIG. 7 is a diagram more specifically showing the configuration of the joint point detection device according to the second embodiment.
  • 8A and 8B are diagrams for explaining functions of a total feature amount output unit and a partial feature amount output unit according to the second embodiment.
  • the joint point detection device 30 includes a joint point detection unit 33 and a storage unit 34 in addition to the above-described total feature amount output unit 31 and partial feature amount output unit 32. It has The storage unit 34 stores the CNN 16 shown in FIG. 2 in the first embodiment.
  • the joint point detection target is not limited to the human hand, and may be the entire human body or other parts.
  • the target of joint point detection may be any object that has joint points, and may be an object other than a person, such as a robot.
  • parts other than joint points such as characteristic parts such as fingertips, may also be detected.
  • a heat map is used as a feature amount in the second embodiment as well.
  • a feature amount other than a heat map such as coordinate values, may be used.
  • the total feature amount output unit 31 has the same function as in Embodiment 1, and first acquires the target image data 40 . Then, as shown in FIG. 7, the total feature amount output unit 11 outputs a first heat map 41 from the image data 20 as a first feature amount representing joint points. Also, in the example of FIG. 8 , a plurality of first heat maps 41 are output for each joint point on the image data 40 .
  • the total feature amount output unit 31 like the all feature amount output unit 11 shown in Embodiment 1, for example, learns the relationship between the joint points on the image and the heat map.
  • the first heat map 41 is output.
  • the machine learning model in this case also includes CNN.
  • the partial feature amount output unit 32 inputs the first heat map 41 for each target joint point output from the total feature amount output unit 31 to the CNN 16, and outputs the target A second heat map 42 is output for each joint point.
  • the CNN 16 is a machine learning model that machine-learns the positional relationship between other joint points when there is no feature quantity for a specific joint point. Therefore, in the second heat map 42, the second feature amount appropriately indicates the positions of other joint points when a specific joint point cannot be seen.
  • the joint point detection unit 33 acquires a second heat map 42 for each joint point of the target hand. Then, the joint point detection unit 33 detects the coordinates of each target joint point using the second heat map 42 for each joint point.
  • the joint point detection unit 33 identifies the location with the highest density in the second heat map 42 for each joint point, and detects the two-dimensional coordinates of the identified location on the image. In addition, when there are a plurality of second heat maps 42 for each joint point, the joint point detection unit 33 specifies the two-dimensional coordinates of the highest density location for each second heat map 33, and The average of each specified two-dimensional coordinate is calculated, and the calculated average coordinate is used as the final coordinate.
  • FIG. 9 is a flowchart showing the operation of the joint point detection device according to the second embodiment. 6 to 8 will be referred to as needed in the following description. Further, in the second embodiment, the joint point detection method is implemented by operating the joint point detection device 30 . Therefore, the description of the joint point detection method in the second embodiment is replaced with the description of the operation of the joint point detection device 30 below.
  • the total feature amount output unit 31 acquires the target image data 40, and outputs the first heat map 41 as the feature amount representing the joint points from the acquired image data 40. (step B1).
  • the partial feature quantity output unit 32 inputs the first heat map 41 output in step A1 to the CNN 16, and outputs the second heat map 42 representing the joint points (step B2).
  • the joint point detection unit 33 detects the coordinates of each target joint point from the second heat map 42 of each joint point output in step B2 (step B3).
  • the first heat map 41 obtained from the image data is input to the CNN 16. Since the CNN 16 machine-learns the positional relationship between the joint points other than the specific joint point, the second heat map 42 appropriately shows the positions of the other joint points when the specific joint point is not visible. can be shown. Therefore, according to the second embodiment, it is possible to improve the accuracy of estimating the positions of the target joint points.
  • the joint point detection program in the second embodiment may be any program that causes a computer to execute steps B1 to B3 shown in FIG. By installing this program in a computer and executing it, the joint point detecting device and the joint point detecting method in the second embodiment can be realized.
  • the processor of the computer functions as a total feature amount output section 31, a partial feature amount output section 32, and a joint point detection section 33, and performs processing.
  • the storage unit 34 may be implemented by storing the data files constituting these in a storage device such as a hard disk provided in the computer, or may be realized by storing the data files in a storage device of another computer. It may be realized by Moreover, as a computer, a smart phone and a tablet-type terminal device are mentioned other than general-purpose PC.
  • the joint point detection program in Embodiment 2 may be executed by a computer system constructed by a plurality of computers.
  • each computer may function as one of the total feature amount output section 31, the partial feature amount output section 32, and the joint point detection section 33, respectively.
  • FIG. 10 is a block diagram showing an example of a computer that realizes the learning model generation device according to Embodiment 1 and the joint point detection device according to Embodiment 2.
  • FIG. 10 is a block diagram showing an example of a computer that realizes the learning model generation device according to Embodiment 1 and the joint point detection device according to Embodiment 2.
  • a computer 110 includes a CPU (Central Processing Unit) 111, a main memory 112, a storage device 113, an input interface 114, a display controller 115, a data reader/writer 116, and a communication interface 117. and These units are connected to each other via a bus 121 so as to be able to communicate with each other.
  • CPU Central Processing Unit
  • the computer 110 may include a GPU (Graphics Processing Unit) or an FPGA (Field-Programmable Gate Array) in addition to the CPU 111 or instead of the CPU 111 .
  • a GPU or FPGA can execute the programs in the embodiments.
  • the CPU 111 expands the program in the embodiment, which is composed of a code group stored in the storage device 113, into the main memory 112 and executes various operations by executing each code in a predetermined order.
  • the main memory 112 is typically a volatile storage device such as DRAM (Dynamic Random Access Memory).
  • the program in the embodiment is provided in a state stored in a computer-readable recording medium 120. It should be noted that the program in this embodiment may be distributed on the Internet connected via communication interface 117 .
  • Input interface 114 mediates data transmission between CPU 111 and input devices 118 such as a keyboard and mouse.
  • the display controller 115 is connected to the display device 119 and controls display on the display device 119 .
  • the data reader/writer 116 mediates data transmission between the CPU 111 and the recording medium 120, reads programs from the recording medium 120, and writes processing results in the computer 110 to the recording medium 120.
  • Communication interface 117 mediates data transmission between CPU 111 and other computers.
  • the recording medium 120 include general-purpose semiconductor storage devices such as CF (Compact Flash (registered trademark)) and SD (Secure Digital), magnetic recording media such as flexible disks, and CD- Optical recording media such as ROM (Compact Disk Read Only Memory) can be mentioned.
  • CF Compact Flash
  • SD Secure Digital
  • magnetic recording media such as flexible disks
  • CD- Optical recording media such as ROM (Compact Disk Read Only Memory) can be mentioned.
  • the learning model generation device 10 and the joint point detection device 30 can each be realized by using hardware corresponding to each part, such as a circuit, instead of a computer in which a program is installed. Further, the learning model generation device 10 and the joint point detection device 30 may be partly implemented by a program and the rest by hardware.
  • a joint point detection device comprising:
  • Appendix 2 The joint point detection device according to appendix 1, Further comprising a joint point detection unit that detects the coordinates of the target joint points using the second feature amount for each of the target joint points.
  • a joint point detection device characterized by:
  • the joint point detection device (Appendix 3) The joint point detection device according to appendix 1 or 2,
  • the partial feature amount output unit receives the first feature amount for each of the target joint points as input, and for each of the plurality of specific joint points, another feature amount when the feature amount of the specific joint point does not exist Using a machine learning model that machine-learns the positional relationship between the joint points, for each of the target joint points, outputting a second feature amount representing the joint point;
  • a joint point detection device characterized by:
  • the joint point detection device according to any one of Appendices 1 to 3,
  • the machine learning model is built by a convolutional neural network,
  • Each of the first feature quantity and the second feature quantity includes a heat map that expresses the possibility that a joint point exists on the image,
  • a joint point detection device characterized by:
  • a total feature quantity output unit for outputting, for each joint point of the target, a feature quantity representing the joint point from the image data of the target; a feature quantity generation unit that generates, as a training feature quantity, a feature quantity when a specific joint point does not have a feature quantity from the feature quantity for each of the target joint points;
  • a machine learning model is generated by machine learning a positional relationship between other joint points when the feature amount of the specific joint point does not exist using the training data including the generated feature amount for training.
  • a learning model generator, and A learning model generation device characterized by comprising:
  • the learning model generation device (Appendix 6) The learning model generation device according to appendix 5, The feature quantity generation unit generates a set of feature quantities for each of a plurality of specific joint points from the feature quantity for each of the target joint points when only the feature quantity for the specific joint point does not exist, generated as a training feature set, For each of a plurality of specific joint points, the learning model generation unit uses training data including the corresponding training feature quantity set to determine other joint points when the feature quantity of the specific joint point does not exist. Generate a machine learning model by machine learning the positional relationship between A learning model generation device characterized by:
  • the learning model generation device according to appendix 5 or 6,
  • the machine learning model is built by a convolutional neural network,
  • the feature amount includes a heat map that expresses the possibility that joint points on the image exist,
  • the feature amount generation unit sets the feature amount to not exist by setting the data on the heat map to 0 or 1
  • a learning model generation device characterized by:
  • a joint point detection method characterized by comprising:
  • the joint point detection method according to any one of Appendices 8 to 10,
  • the machine learning model is built by a convolutional neural network,
  • Each of the first feature quantity and the second feature quantity includes a heat map that expresses the possibility that a joint point exists on the image,
  • a joint point detection method characterized by:
  • (Appendix 12) a total feature quantity output step of outputting, for each joint point of the target, a feature quantity representing the joint point from the image data of the target; a feature amount generation step of generating, as a training feature amount, a feature amount in the case where a feature amount of a specific joint point does not exist, from the feature amounts of each of the target joint points;
  • a machine learning model is generated by machine learning a positional relationship between other joint points when the feature amount of the specific joint point is zero using the training data including the generated training feature amount.
  • a learning model generation step A learning model generation method characterized by having
  • the learning model generation method according to Appendix 12 or 13,
  • the machine learning model is built by a convolutional neural network,
  • the feature amount includes a heat map that expresses the possibility that joint points on the image exist,
  • the feature amount generation step sets the feature amount to not exist by setting the data on the heat map to 0 or 1
  • a learning model generation method characterized by:
  • Appendix 16 The computer-readable recording medium according to Appendix 15, The program causes the computer to: Further comprising an instruction for executing a joint point detection step of detecting the coordinates of the joint points of the target using the second feature amount for each of the joint points of the target.
  • a computer-readable recording medium characterized by:
  • Appendix 18 The computer-readable recording medium according to any one of Appendices 15 to 17,
  • the machine learning model is built by a convolutional neural network,
  • Each of the first feature quantity and the second feature quantity includes a heat map that expresses the possibility that a joint point exists on the image,
  • a computer-readable recording medium characterized by:
  • a machine learning model is generated by machine learning a positional relationship between other joint points when the feature amount of the specific joint point does not exist using the training data including the generated feature amount for training.
  • a learning model generation step, and A computer-readable recording medium characterized by recording a program including instructions for executing
  • Appendix 21 The computer-readable recording medium according to Appendix 19 or 20,
  • the machine learning model is built by a convolutional neural network
  • the feature amount includes a heat map that expresses the possibility that joint points on the image exist
  • the feature amount generation step sets the feature amount to not exist by setting the data on the heat map to 0 or 1
  • a computer-readable recording medium characterized by:
  • the present invention is useful in fields that require posture detection of objects having joint points, such as humans and robots. Specific fields include video surveillance and user interfaces.
  • Embodiment 1 Learning model generation device (Embodiment 1) 11 total feature amount output unit 12 feature amount generation unit 13 learning model generation unit 14 random number generation unit 15 storage unit 16 machine learning model (CNN) 20 Image data (for learning) 21 heat map 22 training heat map set 30 joint point detection device (second embodiment) 31 total feature amount output unit 32 partial feature amount output unit 33 joint point detection unit 34 storage unit 40 image data (detection target) 41 first heat map 42 second heat map 110 computer 111 CPU 112 main memory 113 storage device 114 input interface 115 display controller 116 data reader/writer 117 communication interface 118 input device 119 display device 120 recording medium 121 bus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

学習モデル生成装置10は、対象の画像データから、対象の関節点それぞれ毎に、関節点を表す特徴量を出力する、全特徴量出力部11と、対象の関節点それぞれ毎の特徴量から、特定の関節点の特徴量がゼロに設定された場合の特徴量を訓練用特徴量として生成する、特徴量生成部12と、生成された訓練用特徴量を含む訓練データを用いて、特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成する、学習モデル生成部13と、を備えている。

Description

関節点検出装置、学習モデル生成装置、関節点検出方法、学習モデル生成方法、及びコンピュータ読み取り可能な記録媒体
 本発明は、画像から生体の関節点を検出するための、関節点検出装置、及び関節点検出方法に関し、更には、これらを実現するためのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。また、本発明は、画像からの生体の関節点の検出用の学習モデルを生成するための、学習モデル生成装置、及び学習モデル生成方法に関し、更には、これらを実現するためのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
 近年、画像から人の姿勢を推定するシステムが提案されている。このようなシステムは、映像監視、ユーザインタフェース等の分野での利用が期待されている。例えば、画像監視システムにおいて、人の姿勢を推定できれば、カメラに写った人物が何をしているかを推定できるので、監視精度の向上が図られる。また、ユーザインタフェースにおいて、人の姿勢を推定できれば、ジェスチャーによる入力が可能となる。
 例えば、非特許文献1は、画像から人の姿勢、とりわけ、人の手の姿勢を推定するシステムを開示している。非特許文献1に開示されたシステムは、まず、手の画像を含む画像データを取得すると、取得した画像データを、関節点毎の画像特徴量を機械学習したニューラルネットワークに入力して、関節点毎に、関節点の存在確率を色彩及び濃度によって表現するヒートマップを出力させる。
 続いて、非特許文献1に開示されたシステムは、関節点と対応するヒートマップとの関係を機械学習したニューラルネットワークに、出力されたヒートマップを入力する。また、このようなニューラルネットワークは複数個用意されており、あるニューラルネットワークからの出力結果は、別のニューラルネットワークに入力される。この結果、ヒートマップ上の関節点の位置がリファインされる。
 また、特許文献1も、画像から手の姿勢を推定するシステムを開示している。特許文献1に開示されたシステムも、非特許文献1に開示されたシステムと同様に、ニューラルネットワークを使用して、関節点の座標を推定する。
特開2017-191576号公報
Christian Zimmermann, Thomas Brox, "Learning to Estimate 3D Hand Pose from Single RGB Images", [online], University of Freiburg, [2021年2月8日検索],インターネット<URL:https://openaccess.thecvf.com/content_ICCV_2017/papers/Zimmermann_Learning_to_Estimate_ICCV_2017_paper.pdf>
 非特許文献1又は特許文献1に開示されたシステムを用いれば、上述したように、画像から人の手の関節点の座標を推定することができるが、これらのシステムには、以下のように推定精度が低下するという問題点がある。
 まず、生体には多くの関節点があり、画像には、一部の関節点が映っていない場合がある。このような場合、非特許文献1及び特許文献1に開示されたシステムでは、画像に映っていない関節点のヒートマップでの位置が誤った位置となる可能性がある。そして、この結果、ニューラルネットワークによって各関節点の位置がリファインされる際に、画像に映っていない関節点の誤った位置に引きずられて、画像に写っている関節点の位置までも誤った位置となる。
 本発明の目的の一例は、関節点の位置の推定精度の向上を図り得る、関節点検出装置、学習モデル生成装置、関節点検出方法、学習モデル生成方法、及びコンピュータ読み取り可能な記録媒体を提供することにある。
 上記目的を達成するため、本発明の一側面における関節点検出装置は、
 対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す第1の特徴量を出力する、全特徴量出力部と、
 前記対象の関節点それぞれ毎の前記第1の特徴量を入力として、特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している機械学習モデルを用いて、前記対象の関節点それぞれ毎に、当該関節点を表す第2の特徴量を出力する、部分特徴量出力部と、
を備えていることを特徴とする。
 上記目的を達成するため、本発明の一側面における学習モデル生成装置は、
 対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す特徴量を出力する、全特徴量出力部と、
 前記対象の関節点それぞれ毎の前記特徴量から、特定の関節点の特徴量が存在しない場合の特徴量を訓練用特徴量として生成する、特徴量生成部と、
 生成された前記訓練用特徴量を含む訓練データを用いて、前記特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成する、学習モデル生成部と、
を備えていることを特徴とする。
 上記目的を達成するため、本発明の一側面における関節点検出方法は、
 対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す第1の特徴量を出力する、全特徴量出力ステップと、
 前記対象の関節点それぞれ毎の前記第1の特徴量を入力として、特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している機械学習モデルを用いて、前記対象の関節点それぞれ毎に、当該関節点を表す第2の特徴量を出力する、部分特徴量出力ステップと、
を有する、ことを特徴とする。
 上記目的を達成するため、本発明の一側面における学習モデル生成方法は、
 対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す特徴量を出力する、全特徴量出力ステップと、
 前記対象の関節点それぞれ毎の前記特徴量から、特定の関節点の特徴量が存在しない場合の特徴量を訓練用特徴量として生成する、特徴量生成ステップと、
 生成された前記訓練用特徴量を含む訓練データを用いて、前記特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成する、学習モデル生成ステップと、
を有する、ことを特徴とする。
 上記目的を達成するため、本発明の一側面における第1のコンピュータ読み取り可能な記録媒体は、
コンピュータに、
 対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す第1の特徴量を出力する、全特徴量出力ステップと、
 前記対象の関節点それぞれ毎の前記第1の特徴量を入力として、特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している機械学習モデルを用いて、前記対象の関節点それぞれ毎に、当該関節点を表す第2の特徴量を出力する、部分特徴量出力ステップと、
を実行させる命令を含む、プログラムを記録していることを特徴とする。
 上記目的を達成するため、本発明の一側面における第2のコンピュータ読み取り可能な記録媒体は、
コンピュータに、
 対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す特徴量を出力する、全特徴量出力ステップと、
 前記対象の関節点それぞれ毎の前記特徴量から、特定の関節点の特徴量が存在しない場合の特徴量を訓練用特徴量として生成する、特徴量生成ステップと、
 生成された前記訓練用特徴量を含む訓練データを用いて、前記特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成する、学習モデル生成ステップと、
を実行させる命令を含む、プログラムを記録していることを特徴とする。
 以上のように、本発明によれば、関節点の位置の推定精度の向上を図ることができる。
図1は、実施の形態1における学習モデル生成装置の概略構成を示す構成図である。 図2は、実施の形態1における学習モデル生成装置の構成を具体的に示すブロック図である。 図3は、実施の形態1における全特徴量出力部の機能を説明する図である。 図4は、実施の形態1における特徴量生成部及び学習モデル生成部の機能を説明する図である。 図5は、実施の形態1における学習モデル生成装置の動作を示すフロー図である。 図6は、実施の形態2における関節点検出装置の概略構成を示す構成図である。 図7は、実施の形態2における関節点検出装置の構成をより具体的に示す図である。 図8は、実施の形態2における全特徴量出力部及び部分特徴量出力部の機能を説明する図である。 図9は、実施の形態2における関節点検出装置の動作を示すフロー図である。 図10は、実施の形態1における学習モデル生成装置と実施の形態2における関節点検出装置とを実現するコンピュータの一例を示すブロック図である。
(実施の形態1)
 最初に、実施の形態1において、学習モデル生成装置、学習モデル生成方法、及び学習モデル生成用のプログラムについて、図1~図5を参照しながら説明する。
[装置構成]
 最初に、実施の形態1における学習モデル生成装置の概略構成について図1を用いて説明する。図1は、実施の形態1における学習モデル生成装置の概略構成を示す構成図である。
 図1に示す実施の形態1における学習モデル生成装置10は、関節点の検出ための機械学習モデルを生成する装置である。図1に示すように、学習モデル生成装置10は、全特徴量出力部11と、特徴量生成部12と、学習モデル生成部13とを備えている。
 全特徴量出力部11は、対象の画像データから、対象の関節点それぞれ毎に、関節点を表す特徴量を出力する。特徴量生成部12は、対象の関節点それぞれ毎の特徴量から、特定の関節点の特徴量が存在しない場合の特徴量を訓練用特徴量として生成する。
 学習モデル生成部13は、生成された訓練用の特徴量を含む訓練データを用いて、特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成する。
 このように、実施の形態1では、訓練データとして用いられる訓練用特徴量は、特定の関節点の特徴量が存在しないことに設定された場合の特徴量である。このため、生成された機械学習モデルを用いて、関節点の検出を行えば、対象の特定の関節点が画像に写っていない場合でも、対象の関節点を精度良く推定することが可能となる。
 続いて、図2~図4を用いて、実施の形態1における学習モデル生成装置10の構成及び機能について具体的に説明する。図2は、実施の形態1における学習モデル生成装置の構成を具体的に示すブロック図である。図3は、実施の形態1における全特徴量出力部の機能を説明する図である。図4は、実施の形態1における特徴量生成部及び学習モデル生成部の機能を説明する図である。
 図2に示すように、実施の形態では、学習モデル生成装置10は、上述した全特徴量出力部11、特徴量生成部12、及び学習モデル生成部13に加えて、乱数発生部14と、記憶部15とを備えている。
 乱数発生部14は、設定された範囲内で乱数を発生させ、発生させた乱数を特徴量生成部12に入力する。乱数を用いた特徴量生成部12での処理については後述する。記憶部15は、学習モデル生成部13によって生成された機械学習モデル16を格納している。
 また、実施の形態では、機械学習モデル16は、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)によって構築されている。実施の形態においては、学習モデル生成部13による機械学習モデルの生成は、CNNのパラメータの初期値を学習によって更新することで行われる。以降においては、機械学習モデルは、「CNN」とも表記する。
 また、以降においては、対象が人の手である場合を例に挙げて説明する。なお、実施の形態1において、対象は、人の手に限定されず、人の体全体であっても良いし、他の部位であっても良い。対象は、関節点を有するものであれば良く、人以外のもの、例えば、ロボットであっても良い。更に、実施の形態1では、関節点に加え、関節点以外の部分、例えば、指先といった特徴的な部分も、検出の対象となっていても良い。
 加えて、実施の形態1では、特徴量として、ヒートマップが用いられているとする。ヒートマップは、画像上の関節点が存在する可能性を表現するマップであり、例えば、関節点の存在の可能性を色の濃淡で表現することができる。なお、特徴量として、ヒートマップ以外のもの、例えば、座標値が用いられても良い。
 全特徴量出力部11は、実施の形態1では、まず、対象の画像データ20を取得する。そして、全特徴量出力部11は、図3に示すように、画像データ20から、関節点を表す特徴量として、ヒートマップ21を出力する。図3の例では、ヒートマップ21は、画像データ20上の関節点毎に複数出力されている。
 具体的には、全特徴量出力部は、例えば、画像上の関節点とヒートマップとの関係を学習している機械学習モデルを用い、この機械学習モデルに、画像データを入力することで、ヒートマップ21を出力する。この場合の機械学習モデルとしても、CNNが挙げられる。また、このCNNの機械学習では、関節点の画像データと、正解となるヒートマップとが訓練データとなる。そして、CNNの機械学習は、訓練データとなる画像データの出力結果(ヒートマップ)と正解となるヒートマップとの差分が小さくなるように、パラメータを更新することで行われる。
 特徴量生成部12は、実施の形態では、対象の関節点それぞれ毎のヒートマップ21から、複数の特定の関節点それぞれ毎に、特定の関節点の特徴量のみが存在しないことに設定された特徴量のセットを、訓練用特徴量セット22として生成する。
 具体的には、図4に示すように、特徴量生成部12は、まず、乱数発生部14から乱数を受け取る。そして、特徴量生成部12は、画像上の関節点毎に生成された複数のヒートマップ21のうち、乱数が示すj番目の関節点のヒートマップ上のデータをゼロまたは1として、j番目の関節点の特徴量を存在しないことに設定する。これにより、画像上の関節点毎に生成された複数のヒートマップ21のうちj番目の関節点のヒートマップのみが存在しないことに設定された、特徴量のセット(訓練用特徴量セット)22が生成される。なお、各関節点には予め番号が振られているとする。
 また、図4の例では、発生した乱数に応じて、複数の関節点それぞれの特徴量が存在しないことに設定されているが、これに限定されず、特徴量が存在しないことに設定される関節点は予め設定されていても良い。また、特徴量生成部12は、全ての関節点それぞれについて、順に特徴量が存在しないことに設定し、関節点の数だけ、訓練用特徴量セット22を生成しても良い。なお、図4の例では、訓練用の特徴量もヒートマップであるので、訓練用特徴量セット22は、「訓練用ヒートマップセット22」と表記する。
 学習モデル生成部13が、実施の形態では、複数の特定の関節点それぞれ毎に、対応する訓練用ヒートマップセットを含む訓練データを用いて、特定の関節点のヒートマップが存在しない場合の他の関節点間の位置関係を機械学習して、機械学習モデルを生成する。
 具体的には、図4に示すように、学習モデル生成部13は、記憶部15からCNN16を取得し、CNN16に、選択した訓練用ヒートマップセット22を入力し、出力結果となる各ヒートマップセットと対応する正解のヒートマップとの差分を算出する。なお、正解のヒートマップは予め用意されている。また、特徴量が存在しないとされたヒートマップについては、差分は算出されないか、正解のヒートマップとして、特徴量が存在しないヒートマップが用いられるかするとする。
 そして、学習モデル生成部13は、算出した差分が最小となるように、CNN16のパラメータを更新し、パラメータが更新されたCNN16を記憶部15に格納する。また、学習モデル生成部13は、この処理を、未選択の訓練用ヒートマップセット22がなくなるまで実行する。この結果、関節点の検出に用いることができるCNNが生成されることになる。
[装置動作]
 次に、実施の形態1における学習モデル生成装置10の動作について図5を用いて説明する。図5は、実施の形態1における学習モデル生成装置の動作を示すフロー図である。以下の説明においては、適宜図1~図4を参照する。また、実施の形態1では、学習モデル生成装置10を動作させることによって、学習モデル生成方法が実施される。よって、実施の形態1における学習モデル生成方法の説明は、以下の学習モデル生成装置10の動作説明に代える。
 図5に示すように、最初に、全特徴量出力部11は、対象の画像データ20を取得し、取得した画像データ20から、関節点を表す特徴量として、ヒートマップ21を出力する(ステップA1)。
 次に、特徴量生成部12は、乱数発生部14で発生した乱数jを取得する(ステップA2)。続いて、特徴量生成部12は、ステップA1で出力された関節点それぞれ毎のヒートマップ21から、j番目の関節点の特徴量のみが存在していないことに設定、即ち、j番目の関節点のヒートマップのみがゼロ(または1)に設定されたヒートマップのセットを、訓練用ヒートマップセット22として生成する(ステップA3)。
 次に、特徴量生成部12は、所定数の訓練用ヒートマップセット22が生成されているかどうかを判定する(ステップA4)。そして、ステップA4の判定の結果、所定数の訓練用ヒートマップセット22が生成されていない場合(ステップA4:No)は、特徴量生成部12は、サイドステップA2を実行する。
 一方、ステップA4の判定の結果、所定数の訓練用ヒートマップセット22が生成されている場合(ステップA4:Yes)は、特徴量生成部12は、学習モデル生成部13に、訓練用ヒートマップセット22の生成が終了したことを通知する。
 通知を受けると、学習モデル生成部13は、ステップA3で生成された所定数の訓練用ヒートマップセット22を用いて、CNN16のパラメータを更新する(ステップA5)。これにより、特定の関節点のヒートマップが存在しない場合の他の関節点間の位置関係が機械学習されて、機械学習モデルが生成される。ステップA5の実行後、学習モデルの生成のための処理は終了する。
 このように、実施の形態1では、訓練データとして用いられる訓練用ヒートマップセットは、特定の関節点の特徴量が存在しない場合の特徴量を表している。このため、生成されたCNN16を用いて、後述のように、関節点の検出を行えば、対象の特定の関節点が画像に写っていない場合でも、対象の関節点を精度良く推定することが可能となる。
[プログラム]
 実施の形態1における学習モデル生成用のプログラムは、コンピュータに、図5に示すステップA1~A5を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、実施の形態1における学習モデル生成装置と学習モデル生成方法とを実現することができる。この場合、コンピュータのプロセッサは、全特徴量出力部11、特徴量生成部12、学習モデル生成部13、及び乱数発生部14として機能し、処理を行なう。
 また、実施の形態1では、記憶部15は、コンピュータに備えられたハードディスク等の記憶装置に、これらを構成するデータファイルを格納することによって実現されていても良いし、別のコンピュータの記憶装置によって実現されていても良い。また、コンピュータとしては、汎用のPCの他に、スマートフォン、タブレット型端末装置が挙げられる。
 実施の形態1における学習モデル生成用のプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、全特徴量出力部11、特徴量生成部12、学習モデル生成部13、及び乱数発生部14のいずれかとして機能しても良い。
 (実施の形態2)
 続いて、実施の形態2において、関節点検出装置、関節点検出方法、及び関節点検出用のプログラムについて、図6~図9を参照しながら説明する。
[装置構成]
 最初に、実施の形態2における関節点検出装置の概略構成について図6を用いて説明する。図6は、実施の形態2における関節点検出装置の概略構成を示す構成図である。
 図6に示す実施の形態2における関節点検出装置30は、対象、例えば、生体、ロボット等の関節点を検出するための装置である。図6に示すように、関節点検出装置30は、全特徴量出力部31と、部分特徴量出力部32と、を備えている。
 全特徴量出力部31は、対象の画像データから、対象の関節点それぞれ毎に、関節点を表す第1の特徴量を出力する。部分特徴量出力部32は、対象の関節点それぞれ毎の第1の特徴量を入力として、機械学習モデルを用いて、対象の関節点それぞれ毎に、関節点を表す第2の特徴量を出力する。機械学習モデルは、特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している機械学習モデルである。
 このように、実施の形態2では、各関節点を表す第1の特徴量から、機械学習モデルを用いて、第2の特徴量が出力される。機械学習モデルは、特定の関節点以外の関節点間の位置関係を機械学習しているので、第2の特徴量は、特定の関節点が見えない場合における、それ以外の関節点の位置を適切に示すことができる。このため、実施の形態2によれば、各関節点の位置の推定精度を向上することが可能となる。
 続いて、図7及び図8を用いて、実施の形態2における関節点検出装置30の構成及び機能について具体的に説明する。図7は、実施の形態2における関節点検出装置の構成をより具体的に示す図である。図8は、実施の形態2における全特徴量出力部及び部分特徴量出力部の機能を説明する図である。
 図7に示すように、実施の形態2では、関節点検出装置30は、上述した全特徴量出力部31及び部分特徴量出力部32に加えて、関節点検出部33と、記憶部34とを備えている。記憶部34は、実施の形態1において図2に示したCNN16を格納している。
 実施の形態2においても、対象が人の手である場合を例に挙げて説明する。なお、実施の形態2においても、関節点の検出の対象は、人の手に限定されず、人の体全体であっても良いし、他の部位であっても良い。また、関節点の検出の対象は、関節点を有するものであれば良く、人以外のもの、例えば、ロボットであっても良い。更に、実施の形態2でも、関節点に加え、関節点以外の部分、例えば、指先といった特徴的な部分も、検出の対象となっていても良い。
 加えて、実施の形態2でも、特徴量として、ヒートマップが用いられているとする。なお、実施の形態2でも、特徴量として、ヒートマップ以外のもの、例えば、座標値が用いられても良い。
 全特徴量出力部31は、実施の形態1と同様の機能を有しており、まず、対象の画像データ40を取得する。そして、全特徴量出力部11は、図7に示すように、画像データ20から、関節点を表す第1の特徴量として、第1のヒートマップ41を出力する。また、図8の例では、第1のヒートマップ41は、画像データ40上の関節点毎に複数出力されている。
 具体的には、全特徴量出力部31も、実施の形態1に示した全特徴量出力部11と同様に、例えば、画像上の関節点とヒートマップとの関係を学習している機械学習モデルを用い、この機械学習モデルに、画像データを入力することで、第1のヒートマップ41を出力する。この場合の機械学習モデルとしても、CNNが挙げられる。
 部分特徴量出力部32は、実施の形態2では、全特徴量出力部31から出力された、対象の関節点それぞれ毎の第1のヒートマップ41を、CNN16に入力し、CNN16から、対象の関節点それぞれ毎に第2のヒートマップ42を出力させる。
 CNN16は、実施の形態1において述べたように、特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している機械学習モデルである。このため、第2のヒートマップ42では、第2の特徴量は、特定の関節点が見えない場合における、それ以外の関節点の位置が適切に示されている。
 関節点検出部33は、対象である手の関節点毎の第2のヒートマップ42を取得する。そして、関節点検出部33は、関節点毎の第2のヒートマップ42を用いて、対象の関節点それぞれの座標を検出する。
 具体的には、関節点検出部33は、関節点毎に、第2のヒートマップ42の最も濃度の高い箇所を特定し、特定した箇所の画像上の2次元座標を検出する。また、関節点毎に、第2のヒートマップ42が複数存在する場合は、関節点検出部33は、第2のヒートマップ33毎に最も濃度の高い箇所の2次元座標を特定し、更に、特定した各2次元座標の平均を求め、求めた平均の座標を最終的な座標とする。
[装置動作]
 次に、実施の形態2における関節点検出装置30の動作について図9を用いて説明する。図9は、実施の形態2における関節点検出装置の動作を示すフロー図である。以下の説明においては、適宜図6~図8を参照する。また、実施の形態2では、関節点検出装置30を動作させることによって、関節点検出方法が実施される。よって、実施の形態2における関節点検出方法の説明は、以下の関節点検出装置30の動作説明に代える。
 図9に示すように、最初に、全特徴量出力部31は、対象の画像データ40を取得し、取得した画像データ40から、関節点を表す特徴量として、第1のヒートマップ41を出力する(ステップB1)。
 次に、部分特徴量出力部32は、CNN16に、ステップA1で出力された第1のヒートマップ41を入力し、関節点を表す第2のヒートマップ42を出力させる(ステップB2)。
 次に、関節点検出部33は、ステップB2で出力された各関節点の第2のヒートマップ42から、対象の各関節点の座標を検出する(ステップB3)。
 以上のように、実施の形態2では、画像データから取得された第1のヒートマップ41が、CNN16に入力される。CNN16、特定の関節点以外の関節点間の位置関係を機械学習しているので、第2のヒートマップ42は、特定の関節点が見えない場合における、それ以外の関節点の位置を適切に示すことができる。このため、実施の形態2によれば、対象の関節点の位置の推定精度の向上が図られることになる。
[プログラム]
 実施の形態2における関節点検出用のプログラムは、コンピュータに、図9に示すステップB1~B3を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、実施の形態2における関節点検出装置と関節点検出方法とを実現することができる。この場合、コンピュータのプロセッサは、全特徴量出力部31、部分特徴量出力部32、及び関節点検出部33として機能し、処理を行なう。
 また、本実施の形態では、記憶部34は、コンピュータに備えられたハードディスク等の記憶装置に、これらを構成するデータファイルを格納することによって実現されていても良いし、別のコンピュータの記憶装置によって実現されていても良い。また、コンピュータとしては、汎用のPCの他に、スマートフォン、タブレット型端末装置が挙げられる。
 実施の形態2における関節点検出用のプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、全特徴量出力部31、部分特徴量出力部32、及び関節点検出部33のいずれかとして機能しても良い。
(物理構成)
 ここで、実施の形態1におけるプログラムを実行することによって学習モデル生成装置10を実現するコンピュータと、実施の形態2におけるプログラムを実行することによって関節点検出装置30を実現するコンピュータとについて、図10を用いて説明する。図10は、実施の形態1における学習モデル生成装置と実施の形態2における関節点検出装置とを実現するコンピュータの一例を示すブロック図である。
 図10に示すように、コンピュータ110は、CPU(Central Processing Unit)111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。
 また、コンピュータ110は、CPU111に加えて、又はCPU111に代えて、GPU(Graphics Processing Unit)、又はFPGA(Field-Programmable Gate Array)を備えていても良い。この態様では、GPU又はFPGAが、実施の形態におけるプログラムを実行することができる。
 CPU111は、記憶装置113に格納された、コード群で構成された実施の形態におけるプログラムをメインメモリ112に展開し、各コードを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。
 また、実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。
 また、記憶装置113の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
 データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
 また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記録媒体、又はCD-ROM(Compact Disk Read Only Memory)などの光学記録媒体が挙げられる。
 なお、学習モデル生成装置10及び関節点検出装置30は、それぞれ、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェア、例えば、回路を用いることによっても実現可能である。更に、学習モデル生成装置10及び関節点検出装置30は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。
 上述した実施の形態の一部又は全部は、以下に記載する(付記1)~(付記21)によって表現することができるが、以下の記載に限定されるものではない。
(付記1)
 対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す第1の特徴量を出力する、全特徴量出力部と、
 前記対象の関節点それぞれ毎の前記第1の特徴量を入力として、特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している機械学習モデルを用いて、前記対象の関節点それぞれ毎に、当該関節点を表す第2の特徴量を出力する、部分特徴量出力部と、
を備えていることを特徴とする関節点検出装置。
(付記2)
 付記1に記載の関節点検出装置であって、
 前記対象の関節点それぞれ毎の前記第2の特徴量を用いて、前記対象の関節点の座標を検出する、関節点検出部を更に備えている、
ことを特徴とする関節点検出装置。
(付記3)
 付記1または2に記載の関節点検出装置であって、
 前記部分特徴量出力部が、前記対象の関節点それぞれ毎の前記第1の特徴量を入力として、複数の前記特定の関節点それぞれについて当該特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している、機械学習モデルを用いて、前記対象の関節点それぞれ毎に、当該関節点を表す第2の特徴量を出力する、
ことを特徴とする関節点検出装置。
(付記4)
 付記1から3のいずれかに記載の関節点検出装置であって、
 前記機械学習モデルが、畳み込みニューラルネットワークによって構築されており、
 前記第1の特徴量、及び前記第2の特徴量、それぞれが、画像上の関節点が存在する可能性を表現するヒートマップを含む、
ことを特徴とする関節点検出装置。
(付記5)
 対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す特徴量を出力する、全特徴量出力部と、
 前記対象の関節点それぞれ毎の前記特徴量から、特定の関節点の特徴量が存在しない場合の特徴量を訓練用特徴量として生成する、特徴量生成部と、
 生成された前記訓練用特徴量を含む訓練データを用いて、前記特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成する、学習モデル生成部と、
を備えていることを特徴とする学習モデル生成装置。
(付記6)
 付記5に記載の学習モデル生成装置であって、
 前記特徴量生成部が、前記対象の関節点それぞれ毎の前記特徴量から、複数の特定の関節点それぞれ毎に、当該特定の関節点の特徴量のみが存在しない場合の特徴量のセットを、訓練用特徴量セットとして生成し、
 前記学習モデル生成部が、複数の特定の関節点それぞれ毎に、対応する前記訓練用特徴量セットを含む訓練データを用いて、当該特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成する、
ことを特徴とする学習モデル生成装置。
(付記7)
 付記5または6に記載の学習モデル生成装置であって、
 前記機械学習モデルが、畳み込みニューラルネットワークによって構築されており、
 前記特徴量が、画像上の関節点が存在する可能性を表現するヒートマップを含み、
 前記特徴量生成部が、前記ヒートマップ上のデータをゼロまたは1とすることによって、特徴量を存在しないことに設定する、
ことを特徴とする学習モデル生成装置。
(付記8)
 対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す第1の特徴量を出力する、全特徴量出力ステップと、
 前記対象の関節点それぞれ毎の前記第1の特徴量を入力として、特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している機械学習モデルを用いて、前記対象の関節点それぞれ毎に、当該関節点を表す第2の特徴量を出力する、部分特徴量出力ステップと、
を有する、ことを特徴とする関節点検出方法。
(付記9)
 付記8に記載の関節点検出方法であって、
 前記対象の関節点それぞれ毎の前記第2の特徴量を用いて、前記対象の関節点の座標を検出する、関節点検出ステップを更に有する、
ことを特徴とする関節点検出方法。
(付記10)
 付記8または9に記載の関節点検出方法であって、
 前記部分特徴量出力ステップにおいて、前記対象の関節点それぞれ毎の前記第1の特徴量を入力として、複数の前記特定の関節点それぞれについて当該特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している、機械学習モデルを用いて、前記対象の関節点それぞれ毎に、当該関節点を表す第2の特徴量を出力する、
ことを特徴とする関節点検出方法。
(付記11)
 付記8から10のいずれかに記載の関節点検出方法であって、
 前記機械学習モデルが、畳み込みニューラルネットワークによって構築されており、
 前記第1の特徴量、及び前記第2の特徴量、それぞれが、画像上の関節点が存在する可能性を表現するヒートマップを含む、
ことを特徴とする関節点検出方法。
(付記12)
 対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す特徴量を出力する、全特徴量出力ステップと、
 前記対象の関節点それぞれ毎の前記特徴量から、特定の関節点の特徴量が存在しない場合の特徴量を訓練用特徴量として生成する、特徴量生成ステップと、
 生成された前記訓練用特徴量を含む訓練データを用いて、前記特定の関節点の特徴量がゼロである場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成する、学習モデル生成ステップと、
を有する、ことを特徴とする学習モデル生成方法。
(付記13)
 付記12に記載の学習モデル生成方法であって、
 前記特徴量生成ステップにおいて、前記対象の関節点それぞれ毎の前記特徴量から、複数の特定の関節点それぞれ毎に、当該特定の関節点の特徴量のみが存在しない場合の特徴量のセットを、訓練用特徴量セットとして生成し、
 前記学習モデル生成ステップにおいて、複数の特定の関節点それぞれ毎に、対応する前記訓練用特徴量セットを含む訓練データを用いて、当該特定の関節点の特徴量がゼロである場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成する、
ことを特徴とする学習モデル生成方法。
(付記14)
 付記12または13に記載の学習モデル生成方法であって、
 前記機械学習モデルが、畳み込みニューラルネットワークによって構築されており、
 前記特徴量が、画像上の関節点が存在する可能性を表現するヒートマップを含み、
 前記特徴量生成ステップが、前記ヒートマップ上のデータをゼロまたは1とすることによって、特徴量を存在しないことに設定する、
ことを特徴とする学習モデル生成方法。
(付記15)
コンピュータに、
 対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す第1の特徴量を出力する、全特徴量出力ステップと、
 前記対象の関節点それぞれ毎の前記第1の特徴量を入力として、特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している機械学習モデルを用いて、前記対象の関節点それぞれ毎に、当該関節点を表す第2の特徴量を出力する、部分特徴量出力ステップと、
を実行させる命令を含む、プログラムを記録していることを特徴とするコンピュータ読み取り可能な記録媒体。
(付記16)
 付記15に記載のコンピュータ読み取り可能な記録媒体であって、
前記プログラムが、前記コンピュータに、
 前記対象の関節点それぞれ毎の前記第2の特徴量を用いて、前記対象の関節点の座標を検出する、関節点検出ステップを実行させる命令を更に含む、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記17)
 付記15または16に記載のコンピュータ読み取り可能な記録媒体であって、
 前記部分特徴量出力ステップにおいて、前記対象の関節点それぞれ毎の前記第1の特徴量を入力として、複数の前記特定の関節点それぞれについて当該特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している、機械学習モデルを用いて、前記対象の関節点それぞれ毎に、当該関節点を表す第2の特徴量を出力する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記18)
 付記15から17のいずれかに記載のコンピュータ読み取り可能な記録媒体であって、
 前記機械学習モデルが、畳み込みニューラルネットワークによって構築されており、
 前記第1の特徴量、及び前記第2の特徴量、それぞれが、画像上の関節点が存在する可能性を表現するヒートマップを含む、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記19)
コンピュータに、
 対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す特徴量を出力する、全特徴量出力ステップと、
 前記対象の関節点それぞれ毎の前記特徴量から、特定の関節点の特徴量がゼロに設定された場合の特徴量を訓練用特徴量として生成する、特徴量生成ステップと、
 生成された前記訓練用特徴量を含む訓練データを用いて、前記特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成する、学習モデル生成ステップと、
を実行させる命令を含む、プログラムを記録していることを特徴とするコンピュータ読み取り可能な記録媒体。
(付記20)
 付記19に記載のコンピュータ読み取り可能な記録媒体であって、
 前記特徴量生成ステップにおいて、前記対象の関節点それぞれ毎の前記特徴量から、複数の特定の関節点それぞれ毎に、当該特定の関節点の特徴量のみが存在しない場合の特徴量のセットを、訓練用特徴量セットとして生成し、
 前記学習モデル生成ステップにおいて、複数の特定の関節点それぞれ毎に、対応する前記訓練用特徴量セットを含む訓練データを用いて、当該特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記21)
 付記19または20に記載のコンピュータ読み取り可能な記録媒体であって、
 前記機械学習モデルが、畳み込みニューラルネットワークによって構築されており、
 前記特徴量が、画像上の関節点が存在する可能性を表現するヒートマップを含み、
 前記特徴量生成ステップが、前記ヒートマップ上のデータをゼロまたは1とすることによって、特徴量を存在しないことに設定する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
 以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2021年2月26日に出願された日本出願特願2021-029411を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 以上のように、本発明によれば、関節点の位置の推定精度の向上を図ることができる。本発明は、人、ロボットといった、関節点を有するものの姿勢検出が求められる分野に有用である。具体的な分野としては、映像監視、ユーザインタフェースなどが挙げられる。
 10 学習モデル生成装置(実施の形態1)
 11 全特徴量出力部
 12 特徴量生成部
 13 学習モデル生成部
 14 乱数発生部
 15 記憶部
 16 機械学習モデル(CNN)
 20 画像データ(学習用)
 21 ヒートマップ
 22 訓練用ヒートマップセット
 30 関節点検出装置(実施の形態2)
 31 全特徴量出力部
 32 部分特徴量出力部
 33 関節点検出部
 34 記憶部
 40 画像データ(検出対象)
 41 第1のヒートマップ
 42 第2のヒートマップ
 110 コンピュータ
 111 CPU
 112 メインメモリ
 113 記憶装置
 114 入力インターフェイス
 115 表示コントローラ
 116 データリーダ/ライタ
 117 通信インターフェイス
 118 入力機器
 119 ディスプレイ装置
 120 記録媒体
 121 バス

 

Claims (21)

  1.  対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す第1の特徴量を出力する、全特徴量出力手段と、
     前記対象の関節点それぞれ毎の前記第1の特徴量を入力として、特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している機械学習モデルを用いて、前記対象の関節点それぞれ毎に、当該関節点を表す第2の特徴量を出力する、部分特徴量出力手段と、
    を備えていることを特徴とする関節点検出装置。
  2.  請求項1に記載の関節点検出装置であって、
     前記対象の関節点それぞれ毎の前記第2の特徴量を用いて、前記対象の関節点の座標を検出する、関節点検出手段を更に備えている、
    ことを特徴とする関節点検出装置。
  3.  請求項1または2に記載の関節点検出装置であって、
     前記部分特徴量出力手段が、前記対象の関節点それぞれ毎の前記第1の特徴量を入力として、複数の前記特定の関節点それぞれについて当該特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している、機械学習モデルを用いて、前記対象の関節点それぞれ毎に、当該関節点を表す第2の特徴量を出力する、
    ことを特徴とする関節点検出装置。
  4.  請求項1から3のいずれかに記載の関節点検出装置であって、
     前記機械学習モデルが、畳み込みニューラルネットワークによって構築されており、
     前記第1の特徴量、及び前記第2の特徴量、それぞれが、画像上の関節点が存在する可能性を表現するヒートマップを含む、
    ことを特徴とする関節点検出装置。
  5.  対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す特徴量を出力する、全特徴量出力手段と、
     前記対象の関節点それぞれ毎の前記特徴量から、特定の関節点の特徴量が存在しない場合の特徴量を訓練用特徴量として生成する、特徴量生成手段と、
     生成された前記訓練用特徴量を含む訓練データを用いて、前記特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成する、学習モデル生成手段と、
    を備えていることを特徴とする学習モデル生成装置。
  6.  請求項5に記載の学習モデル生成装置であって、
     前記特徴量生成手段が、前記対象の関節点それぞれ毎の前記特徴量から、複数の特定の関節点それぞれ毎に、当該特定の関節点の特徴量のみが存在しない場合の特徴量のセットを、訓練用特徴量セットとして生成し、
     前記学習モデル生成手段が、複数の特定の関節点それぞれ毎に、対応する前記訓練用特徴量セットを含む訓練データを用いて、当該特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成する、
    ことを特徴とする学習モデル生成装置。
  7.  請求項5または6に記載の学習モデル生成装置であって、
     前記機械学習モデルが、畳み込みニューラルネットワークによって構築されており、
     前記特徴量が、画像上の関節点が存在する可能性を表現するヒートマップを含み、
     前記特徴量生成手段が、前記ヒートマップ上のデータをゼロまたは1とすることによって
    、特徴量を存在しないことに設定する、
    ことを特徴とする学習モデル生成装置。
  8.  対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す第1の特徴量を出力し、
     前記対象の関節点それぞれ毎の前記第1の特徴量を入力として、特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している機械学習モデルを用いて、前記対象の関節点それぞれ毎に、当該関節点を表す第2の特徴量を出力する、
    ことを特徴とする関節点検出方法。
  9.  請求項8に記載の関節点検出方法であって、
     前記対象の関節点それぞれ毎の前記第2の特徴量を用いて、前記対象の関節点の座標を検出する、
    ことを特徴とする関節点検出方法。
  10.  請求項8または9に記載の関節点検出方法であって、
     前記部分特徴量の出力において、前記対象の関節点それぞれ毎の前記第1の特徴量を入力として、複数の前記特定の関節点それぞれについて当該特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している、機械学習モデルを用いて、前記対象の関節点それぞれ毎に、当該関節点を表す第2の特徴量を出力する、
    ことを特徴とする関節点検出方法。
  11.  請求項8から10のいずれかに記載の関節点検出方法であって、
     前記機械学習モデルが、畳み込みニューラルネットワークによって構築されており、
     前記第1の特徴量、及び前記第2の特徴量、それぞれが、画像上の関節点が存在する可能性を表現するヒートマップを含む、
    ことを特徴とする関節点検出方法。
  12.  対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す特徴量を出力し、
     前記対象の関節点それぞれ毎の前記特徴量から、特定の関節点の特徴量が存在しない場合の特徴量を訓練用特徴量として生成し、
     生成された前記訓練用特徴量を含む訓練データを用いて、前記特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成する、
    ことを特徴とする学習モデル生成方法。
  13.  請求項12に記載の学習モデル生成方法であって、
     前記特徴量の生成において、前記対象の関節点それぞれ毎の前記特徴量から、複数の特定の関節点それぞれ毎に、当該特定の関節点の特徴量のみが存在しない場合の特徴量のセットを、訓練用特徴量セットとして生成し、
     前記学習モデルの生成において、複数の特定の関節点それぞれ毎に、対応する前記訓練用特徴量セットを含む訓練データを用いて、当該特定の関節点の特徴量がゼロである場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成する、
    ことを特徴とする学習モデル生成方法。
  14.  請求項12または13に記載の学習モデル生成方法であって、
     前記機械学習モデルが、畳み込みニューラルネットワークによって構築されており、
     前記特徴量が、画像上の関節点が存在する可能性を表現するヒートマップを含み、
     前記特徴量の生成において、前記ヒートマップ上のデータをゼロまたは1とすることによって、特徴量を存在しないことに設定する、
    ことを特徴とする学習モデル生成方法。
  15. コンピュータに、
     対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す第1の特徴量を出力させ、
     前記対象の関節点それぞれ毎の前記第1の特徴量を入力として、特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している機械学習モデルを用いて、前記対象の関節点それぞれ毎に、当該関節点を表す第2の特徴量を出力させる、
    命令を含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
  16.  請求項15に記載のコンピュータ読み取り可能な記録媒体であって、
    前記プログラムが、前記コンピュータに、
     前記対象の関節点それぞれ毎の前記第2の特徴量を用いて、前記対象の関節点の座標を検出させる、命令を更に含む、
    ことを特徴とするコンピュータ読み取り可能な記録媒体。
  17.  請求項15または16に記載のコンピュータ読み取り可能な記録媒体であって、
     前記部分特徴量の出力において、前記対象の関節点それぞれ毎の前記第1の特徴量を入力として、複数の前記特定の関節点それぞれについて当該特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習している、機械学習モデルを用いて、前記対象の関節点それぞれ毎に、当該関節点を表す第2の特徴量を出力する、
    ことを特徴とするコンピュータ読み取り可能な記録媒体。
  18.  請求項15から17のいずれかに記載のコンピュータ読み取り可能な記録媒体であって、
     前記機械学習モデルが、畳み込みニューラルネットワークによって構築されており、
     前記第1の特徴量、及び前記第2の特徴量、それぞれが、画像上の関節点が存在する可能性を表現するヒートマップを含む、
    ことを特徴とするコンピュータ読み取り可能な記録媒体。
  19. コンピュータに、
     対象の画像データから、前記対象の関節点それぞれ毎に、当該関節点を表す特徴量を出力させ、
     前記対象の関節点それぞれ毎の前記特徴量から、特定の関節点の特徴量がゼロに設定された場合の特徴量を訓練用特徴量として生成させ、
     生成された前記訓練用特徴量を含む訓練データを用いて、前記特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成させる、
    命令を含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
  20.  請求項19に記載のコンピュータ読み取り可能な記録媒体であって、
     前記特徴量の生成において、前記対象の関節点それぞれ毎の前記特徴量から、複数の特定の関節点それぞれ毎に、当該特定の関節点の特徴量のみが存在しない場合の特徴量のセットを、訓練用特徴量セットとして生成し、
     前記学習モデルの生成において、複数の特定の関節点それぞれ毎に、対応する前記訓練用特徴量セットを含む訓練データを用いて、当該特定の関節点の特徴量が存在しない場合の他の関節点間の位置関係を機械学習することによって、機械学習モデルを生成する、
    ことを特徴とするコンピュータ読み取り可能な記録媒体。
  21.  請求項19または20に記載のコンピュータ読み取り可能な記録媒体であって、
     前記機械学習モデルが、畳み込みニューラルネットワークによって構築されており、
     前記特徴量が、画像上の関節点が存在する可能性を表現するヒートマップを含み、
     前記特徴量の生成において、前記ヒートマップ上のデータをゼロまたは1とすることによって、特徴量を存在しないことに設定する、
    ことを特徴とするコンピュータ読み取り可能な記録媒体。
PCT/JP2022/003766 2021-02-26 2022-02-01 関節点検出装置、学習モデル生成装置、関節点検出方法、学習モデル生成方法、及びコンピュータ読み取り可能な記録媒体 WO2022181252A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US18/273,930 US20240078832A1 (en) 2021-02-26 2022-02-01 Joint detection apparatus, learning-model generation apparatus, joint detection method, learning-model generation method, and computer readable recording medium
JP2023502225A JPWO2022181252A5 (ja) 2022-02-01 関節点検出装置、関節点検出方法、及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-029411 2021-02-26
JP2021029411 2021-02-26

Publications (1)

Publication Number Publication Date
WO2022181252A1 true WO2022181252A1 (ja) 2022-09-01

Family

ID=83048136

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/003766 WO2022181252A1 (ja) 2021-02-26 2022-02-01 関節点検出装置、学習モデル生成装置、関節点検出方法、学習モデル生成方法、及びコンピュータ読み取り可能な記録媒体

Country Status (2)

Country Link
US (1) US20240078832A1 (ja)
WO (1) WO2022181252A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020000096A1 (en) * 2018-06-29 2020-01-02 Wrnch Inc. Human pose analysis system and method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020000096A1 (en) * 2018-06-29 2020-01-02 Wrnch Inc. Human pose analysis system and method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WANG HONGSONG; WANG LIANG: "Modeling Temporal Dynamics and Spatial Configurations of Actions Using Two-Stream Recurrent Neural Networks", 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), IEEE COMPUTER SOCIETY, US, 21 July 2017 (2017-07-21), US , pages 3633 - 3642, XP033249713, ISSN: 1063-6919, DOI: 10.1109/CVPR.2017.387 *

Also Published As

Publication number Publication date
US20240078832A1 (en) 2024-03-07
JPWO2022181252A1 (ja) 2022-09-01

Similar Documents

Publication Publication Date Title
US20210090327A1 (en) Neural network processing for multi-object 3d modeling
US10572072B2 (en) Depth-based touch detection
JP7050740B2 (ja) 物体を把持するための奥行知覚モデリング
JP2019517701A (ja) 画像内の物体を検出する方法及び物体検出システム
JP6872044B2 (ja) 対象物の外接枠を決定するための方法、装置、媒体及び機器
KR20190054702A (ko) 영상에서 객체의 행동을 인식하는 방법 및 그 장치
US10977549B2 (en) Object animation using generative neural networks
CN111524216B (zh) 生成三维人脸数据的方法和装置
US10162737B2 (en) Emulating a user performing spatial gestures
KR20190084460A (ko) 잡음에 강인한 소리 기반의 호흡기 질병 탐지 방법 및 그 시스템
CN110956131B (zh) 单目标追踪方法、装置及系统
JP2021144359A (ja) 学習装置、推定装置、学習方法、及びプログラム
JP7267068B2 (ja) 学習済みモデル生成装置、プログラム及び学習済みモデル生成システム
US11301717B2 (en) Method and apparatus for measuring interaction force based on sequential images using attention network
WO2022181252A1 (ja) 関節点検出装置、学習モデル生成装置、関節点検出方法、学習モデル生成方法、及びコンピュータ読み取り可能な記録媒体
JP6986160B2 (ja) 画像処理方法および画像処理装置
JP6892155B2 (ja) 人体部位推定装置、人体部位推定方法、及びプログラム
WO2022181251A1 (ja) 関節点検出装置、関節点検出方法、及びコンピュータ読み取り可能な記録媒体
US20210374543A1 (en) System, training device, training method, and predicting device
US20220012551A1 (en) Machine learning apparatus, machine learning method, and computer-readable recording medium
WO2022181253A1 (ja) 関節点検出装置、学習モデル生成装置、関節点検出方法、学習モデル生成方法、及びコンピュータ読み取り可能な記録媒体
CN114090466A (zh) 一种指令处理装置、方法、计算机设备及存储介质
WO2019186833A1 (ja) 画像処理装置、画像処理方法、及び、コンピュータ読み取り可能な記録媒体
US20220300818A1 (en) Structure optimization apparatus, structure optimization method, and computer-readable recording medium
JP7480920B2 (ja) 学習装置、推定装置、学習方法、推定方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22759293

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18273930

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2023502225

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22759293

Country of ref document: EP

Kind code of ref document: A1