WO2021064960A1 - 運動認識方法、運動認識プログラムおよび情報処理装置 - Google Patents
運動認識方法、運動認識プログラムおよび情報処理装置 Download PDFInfo
- Publication number
- WO2021064960A1 WO2021064960A1 PCT/JP2019/039193 JP2019039193W WO2021064960A1 WO 2021064960 A1 WO2021064960 A1 WO 2021064960A1 JP 2019039193 W JP2019039193 W JP 2019039193W WO 2021064960 A1 WO2021064960 A1 WO 2021064960A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- basic
- recognition
- recognition method
- motion recognition
- motion
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/251—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63B—APPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
- A63B24/00—Electric or electronic controls for exercising apparatus of preceding groups; Controlling or monitoring of exercises, sportive games, training or athletic performances
- A63B24/0062—Monitoring athletic performances, e.g. for determining the work of a user on an exercise apparatus, the completed jogging or cycling distance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/215—Motion-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/34—Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/87—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using selection of the recognition techniques, e.g. of a classifier in a multiple classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63B—APPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
- A63B2220/00—Measuring of physical parameters relating to sporting activity
- A63B2220/05—Image processing for measuring physical parameters
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63B—APPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
- A63B2220/00—Measuring of physical parameters relating to sporting activity
- A63B2220/80—Special sensors, transducers or devices therefor
- A63B2220/805—Optical or opto-electronic sensors
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63B—APPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
- A63B2244/00—Sports without balls
- A63B2244/12—Acrobats
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63B—APPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
- A63B71/00—Games or sports accessories not covered in groups A63B1/00 - A63B69/00
- A63B71/06—Indicating or scoring devices for games or players, or for other sports activities
- A63B71/0605—Decision makers and devices using detection means facilitating arbitration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20036—Morphological image processing
- G06T2207/20044—Skeletonization; Medial axis transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30221—Sports video; Sports image
Definitions
- the present invention relates to a motion recognition method, a motion recognition program, and an information processing device.
- the movements of people are automatically recognized using the skeletal information of people such as athletes and patients.
- a 3D (Threee Dimensions) laser sensor hereinafter, also referred to as a distance sensor or a depth sensor
- the three-dimensional skeleton coordinates of the person are recognized and the recognition result is obtained.
- a device that automatically recognizes the movement of a person is used.
- a series of movements are segmented and divided into basic motor units using the recognition result of the skeletal information of the performer acquired in time series. Then, for each segmented section, the feature amount using the orientation of the joints is calculated, and the feature amount that specifies the basic movement is compared with the predetermined rule, so that the technique performed from the series of movements can be performed. Recognize automatically.
- the basic movement is a movement in which a series of movements are segmented based on the change in the supporting state using skeletal information, and various movements are possible and the degree of freedom is high.
- the above rule base in which the feature amounts required to recognize each basic movement are defined and the rules for each feature amount are defined for the number of basic movements is used. It is conceivable to use a learning model that uses machine learning or the like.
- the present invention provides a motion recognition method, a motion recognition program, and an information processing device capable of improving the recognition accuracy of motion with a high degree of freedom by using a method suitable for the nature of motion in one aspect.
- the purpose is to do.
- the computer executes a process of acquiring skeletal information including each joint position of the subject performing a series of motions including a plurality of basic motions in chronological order.
- the motion recognition method is a first motion recognition method using a first feature amount determined as a result of the basic motion by a computer according to the type of the basic motion, and a second transition in the process of the basic motion.
- the process of deciding which of the second motion recognition method using the feature amount of is to be adopted is executed.
- the computer determines the type of the basic motion using the skeletal information by either the determined first motion recognition method or the second motion recognition method, and the determination is made. Execute the process to output the type of basic exercise.
- FIG. 1 is a diagram showing an overall configuration example of the automatic scoring system according to the first embodiment.
- FIG. 2 is a diagram illustrating a recognition device according to the first embodiment.
- FIG. 3 is a flowchart showing the flow of the recognition process according to the first embodiment.
- FIG. 4 is a functional block diagram showing a functional configuration of the learning device according to the first embodiment.
- FIG. 5 is a diagram illustrating a distance image.
- FIG. 6 is a diagram illustrating a skeleton definition.
- FIG. 7 is a diagram illustrating skeletal data.
- FIG. 8 is a diagram illustrating the generation of learning data.
- FIG. 9 is a diagram illustrating learning of the recognition model.
- FIG. 10 is a functional block diagram showing a functional configuration of the recognition device according to the first embodiment.
- FIG. 10 is a functional block diagram showing a functional configuration of the recognition device according to the first embodiment.
- FIG. 11 is a diagram illustrating a rule for a consequential feature amount.
- FIG. 12 is a diagram illustrating a technique recognition rule.
- FIG. 13 is a diagram for explaining the recognition of the basic movement using the feature amount.
- FIG. 14 is a diagram illustrating recognition of basic motion using process features.
- FIG. 15 is a functional block diagram showing a functional configuration of the scoring device according to the first embodiment.
- FIG. 16 is a flowchart showing the flow of the learning process.
- FIG. 17 is a flowchart showing the flow of the automatic scoring process.
- FIG. 18 is a flowchart showing the flow of the process recognition process.
- FIG. 19 is a diagram illustrating a correction based on a consequential feature amount for the process recognition result.
- FIG. 20 is a diagram illustrating a hardware configuration example.
- FIG. 1 is a diagram showing an overall configuration example of the automatic scoring system according to the first embodiment.
- this system has a 3D (Three-Dimensional) laser sensor 5, a learning device 10, a recognition device 50, and a scoring device 90, and captures three-dimensional data of the performer 1 who is the subject.
- It is a system that recognizes the skeleton and scores accurate techniques.
- this embodiment as an example, an example of recognizing the skeletal information of a performer in a gymnastics competition will be described.
- the 3D laser sensor 5 is an example of a sensor that captures a distance image of the performer 1
- the learning device 10 is an example of a device that executes learning of a learning model used by the recognition device 50.
- the recognition device 50 is an example of a device that automatically recognizes a performance technique or the like by using skeleton information indicating a three-dimensional skeleton position of the performer 1 based on a distance image
- the scoring device 90 is an example of a device of the recognition device 50. This is an example of a device that automatically scores the performance of the performer 1 using the recognition result.
- the current scoring method in gymnastics is visually performed by a plurality of graders, but with the sophistication of techniques, it is becoming more difficult for the graders to visually score.
- an automatic scoring system and a scoring support system for scoring competitions using a 3D laser sensor have been known.
- a distance image which is three-dimensional data of the athlete, is acquired by a 3D laser sensor, and the skeleton such as the orientation of each joint of the athlete and the angle of each joint is recognized from the distance image.
- the scoring support system the result of skeleton recognition is displayed by a 3D model to support the grader to perform more correct scoring by confirming the detailed situation of the performer.
- the performance technique is recognized from the result of skeleton recognition, and scoring is performed according to the scoring rule.
- the skeletal information obtained as a result of the skeletal recognition is used to identify the basic movement, which is a movement in which the series of movements of the performer 1 is segmented based on the change in the support state.
- the technique is specified by the combination of basic movements between each segment.
- the segmented basic motion is classified into those that need to be observed and those that do not need to be observed by the recognition device 50, and the process features that transition in the process of the basic motion are used.
- the recognition is performed using the recognition and the consequential feature amount determined as the result of the basic movement in the section, and the basic movement is recognized by the combination thereof.
- FIG. 2 is a diagram illustrating the recognition device 50 according to the first embodiment.
- the basic movement is a combination of basic movement A (high degree of freedom), which requires complex and continuous evaluation of the movement of each joint of the whole body, and movement of each joint of the whole body. It is roughly divided into basic exercise B (small degree of freedom), which requires low continuous evaluation.
- the basic exercise A is, for example, a jump-type exercise.
- the basic movement B is, for example, a somersault type movement.
- the basic motion A of the jump system there are often multiple frames that are jumping in the frames within the section, and it is difficult to judge what kind of movement (movement) it is from only one frame. Therefore, it is preferable to determine the details of the basic motion of the jump system by using the feature amount (process feature amount) that transitions in the process of each frame in the section.
- the basic motion B of the somersault system can be determined to be the motion of the somersault system if there is at least one rotating frame in the frame in the section. Therefore, the details of the basic motion of the somersault system can be determined by using the feature amount (resulting feature amount) determined as a result from the series of movements of the entire frame in the section.
- the recognition device 50 switches between the recognition model deeply learned using the process features and the rule base associated with the resulting features and the basic movement name according to the nature of the movement. , Perform accurate motion recognition.
- FIG. 3 is a flowchart showing the flow of the recognition process according to the first embodiment.
- the recognition device 50 acquires time-series skeletal information (S1) and determines the nature of the movement of the event during the performance (S2). Then, in the case of a non-rotating event such as a pommel horse (S3: No), the recognition device 50 extracts the process feature amount in the segment section (S4) and executes basic motion recognition by the recognition model (S5). On the other hand, the recognition device 50 extracts the consequential features in the segment section (S6) in the case of a rotating event such as a balance beam or a yuka (S3: Yes), and executes basic motion recognition based on a rule (S6). S7). After that, the recognition device 50 recognizes the technique performed by the actor 1 using the recognized basic movement (S8).
- the recognition device 50 identifies the basic movement of the jump system as the basic movement name "front-back open leg jump with forward leg crossing” by process recognition using a recognition model. Further, the recognition device 50 identifies the basic motion of the somersault system as the basic motion name "backward bending / stretching somersault” by the consequential recognition using the rule base.
- the recognition device 50 realizes accurate technique recognition for various movements by using a recognition method suitable for the nature of the movement.
- FIG. 4 is a functional block diagram showing a functional configuration of the learning device 10 according to the first embodiment.
- the learning device 10 includes a communication unit 11, a storage unit 12, and a control unit 20.
- the communication unit 11 is a processing unit that controls communication with other devices, such as a communication interface.
- the communication unit 11 receives the distance image of the performer 1 taken by the 3D laser sensor 5, receives various data and instructions from the administrator terminal and the like, and transmits the learned recognition model to the recognition device 50. ..
- the storage unit 12 is a storage device that stores data, a program executed by the control unit 20, and the like, and is, for example, a memory and a processor.
- the storage unit 12 stores the distance image 13, the skeleton definition 14, the skeleton data 15, and the recognition model 16.
- the distance image 13 is a distance image of the performer 1 captured by the 3D laser sensor 5.
- FIG. 5 is a diagram illustrating a distance image 13. As shown in FIG. 5, the distance image 13 is data including the distance from the 3D laser sensor 5 to the pixels, and the closer the distance from the 3D laser sensor 5 is, the darker the color is displayed. The distance image 13 is captured at any time during the performance of the performer 1.
- the skeleton definition 14 is definition information for identifying each joint on the skeleton model.
- the definition information stored here may be measured for each performer by 3D sensing with a 3D laser sensor, or may be defined using a skeleton model of a general system.
- FIG. 6 is a diagram for explaining the skeleton definition 14.
- the skeleton definition 14 stores 18 definition information (Nos. 0 to 17) in which each joint specified by a known skeleton model is numbered.
- the right shoulder joint SHOULDER_RIGHT
- the left elbow joint ELBOW_LEFT
- the left knee joint KNEE_LEFT
- the right hip joint HIP_RIGHT
- the X coordinate of the 7th right shoulder joint may be described as X7
- the Y coordinate may be described as Y7
- the Z coordinate may be described as Z7.
- the Z-axis can be defined as the distance direction from the 3D laser sensor 5 toward the target
- the Y-axis can be defined as the height direction perpendicular to the Z-axis
- the X-axis can be defined as the horizontal direction.
- the skeleton data 15 is data including information about the skeleton generated by using each distance image. Specifically, the skeleton data 15 includes the positions of the joints defined in the skeleton definition 14 acquired using the distance image.
- FIG. 7 is a diagram illustrating skeleton data 15. As shown in FIG. 7, the skeleton data 15 is information to which "frames, image information, and skeleton information" are associated.
- the "frame” is an identifier that identifies each frame imaged by the 3D laser sensor 5
- the "image information” is data of a distance image in which the positions of joints and the like are known.
- the "skeleton information” is the three-dimensional position information of the skeleton, and is the joint position (three-dimensional coordinates) corresponding to each of the 18 joints shown in FIG.
- the positions of 18 joints including the coordinates “X3, Y3, Z3” of the HEAD are known in the “image data A1” which is a distance image.
- the joint position can be extracted by using, for example, a learning model learned in advance and a learning model that extracts each joint position from a distance image.
- the recognition model 16 is a learning model that recognizes the basic movement performed by the actor 1 based on time-series skeletal information, and is a learning model that uses a neural network or the like that is learned by the learning unit 23, which will be described later. For example, the recognition model 16 estimates the basic movement performed by the performer 1 among a plurality of basic movements by learning the time-series change of the skeleton information of the performer as a feature amount (process feature amount).
- the control unit 20 is a processing unit that controls the entire learning device 10, and is, for example, a processor.
- the control unit 20 has an acquisition unit 21, a learning data generation unit 22, and a learning unit 23, and executes learning of the recognition model 16.
- the acquisition unit 21, the learning data generation unit 22, and the learning unit 23 are examples of electronic circuits such as processors and examples of processes possessed by the processors.
- the acquisition unit 21 is a processing unit that acquires various data. For example, the acquisition unit 21 acquires a distance image from the 3D laser sensor 5 and stores it in the storage unit 12. Further, the acquisition unit 21 acquires skeleton data from an administrator terminal or the like and stores it in the storage unit 12.
- the learning data generation unit 22 is a processing unit that generates learning data used for learning the recognition model 16. Specifically, the learning data generation unit 22 generates learning data in which the name of the basic movement, which is the correct answer information, is associated with the time-series skeletal information, stores it in the storage unit 12, and outputs it to the learning unit 23. ..
- FIG. 8 is a diagram illustrating the generation of learning data.
- x, y, and z indicate the coordinates
- i indicates the number of joints
- x indicates the magnitude of the i-th inter-articular vector in the x-axis direction
- e i, y Indicates the magnitude of the i-th inter-articular vector in the y-axis direction
- e i and z indicate the magnitude of the i-th inter-articular vector in the z-axis direction.
- the learning data generation unit 22 After that, the learning data generation unit 22 generates learning data in which a series of inter-joint vectors including the inter-articular vectors of each frame related to the basic movement and a known basic movement name (type) are associated with each other.
- the number of frames related to the basic movement can be arbitrarily set such as 10 frames and 30 frames, and the number of frames capable of expressing the characteristics of the basic movement of the jump system without rotation is preferable.
- the inter-articular vector is also described as E0 or the like, but the vector of each axis (x, y, z-axis) from joint number 0 to 1, the vector of each axis from joint number 1 to 2, and the like are described. included.
- the learning unit 23 is a processing unit that executes learning of the recognition model 16 using the learning data generated by the learning data generation unit 22. Specifically, the learning unit 23 optimizes the parameters of the recognition model 16 by supervised learning using the learning data, stores the learned recognition model 16 in the storage unit 12, and transmits it to the recognition device 50.
- the timing of ending the learning can be arbitrarily set, such as when the learning using a predetermined number or more of the learning data is completed or when the restoration error becomes less than the threshold value.
- FIG. 9 is a diagram illustrating learning of the recognition model 16.
- the training data is input to the recognition model 16.
- the learning unit 23 learns the recognition model 16 so that the output result and the objective variable match by an error back propagation method based on an error between the output result of the recognition model 16 and the objective variable “basic motion name”. ..
- the learning unit 23 acquires each of the 30 inter-articular vectors from frame 3 to frame N as explanatory variables, and uses the basic movement name “open leg A jump” associated between these frames as the objective variable. get. Then, the learning unit 23 inputs the acquired 30 inter-articular vectors into the recognition model 16 as one input data, and as the output result of the recognition model 16, the probability of corresponding to each of the 89 basic movements designated in advance. Get (likelihood).
- the learning unit 23 learns the recognition model 16 so that the "open leg A jump", which is the objective variable, has the highest probability among the probabilities corresponding to each basic exercise. In this way, the learning unit 23 learns the recognition model 16 using the fluctuation of the inter-articular vector that characterizes the basic movement as a feature quantity.
- FIG. 10 is a functional block diagram showing a functional configuration of the recognition device 50 according to the first embodiment.
- the recognition device 50 includes a communication unit 51, a storage unit 52, and a control unit 60.
- the communication unit 51 is a processing unit that controls communication with other devices, such as a communication interface.
- the communication unit 51 receives the distance image of the performer 1 taken by the 3D laser sensor 5, receives the learned recognition model from the learning device 10, and transmits various recognition results to the scoring device.
- the storage unit 52 is a storage device that stores data, a program executed by the control unit 60, and the like, and is, for example, a memory and a processor.
- the storage unit 52 stores the distance image 53, the skeleton definition 54, the skeleton data 55, the result rule 56 for the feature amount, the learned recognition model 57, and the technique recognition rule 58.
- the distance image 53 is a distance image of the performer 1 captured by the 3D laser sensor 5, and is, for example, a distance image of the performance of the performer to be scored.
- the skeleton definition 54 is definition information for identifying each joint on the skeleton model. Since the skeleton definition 54 is the same as that in FIG. 6, detailed description thereof will be omitted.
- the skeleton data 55 is data including information about the skeleton generated for each frame by the data generation unit 62 described later. Specifically, the skeleton data 55 is information to which "frames, image information, and skeleton information" are associated with each other, as in FIG.
- the consequential feature amount rule 56 is information referred to when identifying the basic motion of the somersault system having a high degree of freedom. Specifically, the consequential feature amount rule 56 is information in which the consequential feature amount and the basic movement name are associated with each other.
- the resulting feature amount for example, a combination of a cumulative twist angle, a maximum leg opening angle, and a difference in height between the left foot and the shoulder can be used.
- FIG. 11 is a diagram for explaining the rule 56 for the resulting feature amount.
- the rule 56 for the consequential feature amount is information associated with the “resulting feature amount and the basic movement name”.
- the "resulting feature amount” is a feature amount determined as a result of the basic movement in the segment section
- the "basic movement name” is the type (name) of the basic movement obtained from which the resulting feature amount is acquired.
- the cumulative twist angle is X degrees or more
- the maximum leg opening angle is B degrees or more
- the difference in height between the left foot and the shoulder is A cm or more
- the learned recognition model 57 is a recognition model learned by the learning device 10.
- the learned recognition model 57 is a learning model that recognizes the basic movement performed by the actor 1 based on the skeletal information of the time series.
- the technique recognition rule 58 is information referred to when the actor 1 recognizes the technique performed. Specifically, the technique recognition rule 58 is information in which the name of the technique and the information preset for specifying the technique are associated with each other.
- FIG. 12 is a diagram illustrating the technique recognition rule 58. As shown in FIG. 12, the technique recognition rule 58 stores "combination of basic exercises and technique name" in association with each other. In the example of FIG. 12, when “basic movement A, basic movement B, basic movement C" is continuously executed, an example of being recognized as “skill XX" is shown.
- the control unit 60 is a processing unit that controls the entire recognition device 50, such as a processor.
- the control unit 60 has an acquisition unit 61, a data generation unit 62, an estimation unit 63, and a technique recognition unit 67, and executes recognition of a basic motion having a high degree of freedom and recognition of a technique combining basic motions.
- the acquisition unit 61, the data generation unit 62, the estimation unit 63, and the technique recognition unit 67 are examples of electronic circuits such as processors and examples of processes possessed by the processors.
- the acquisition unit 61 is a processing unit that acquires various data and various instructions. For example, the acquisition unit 61 acquires a distance image based on the measurement result (three-dimensional point cloud data) by the 3D laser sensor 5 and stores it in the storage unit 52. Further, the acquisition unit 61 acquires the learned recognition model 57 from the learning device 10 and stores it in the storage unit 12.
- the data generation unit 62 is a processing unit that generates skeletal information including the positions of 18 joints from each distance image. For example, the data generation unit 62 generates skeleton information that specifies 18 joint positions by using a trained model that recognizes skeleton information from a distance image. Then, the data generation unit 62 stores the frame data 55 in which the frame number corresponding to the distance image, the distance image, and the skeleton information are associated with each other in the storage unit 52. Further, the skeleton information in the skeleton data 15 in the learning device 10 can also be generated by the same method.
- the estimation unit 63 includes a determination unit 64, a consequential recognition unit 65, and a process recognition unit 66, and associates a recognition model deeply learned using the process feature with the result feature and the basic movement name. It is a processing unit that executes accurate recognition of basic movement by switching between the rule base and the rule base according to the nature of the movement.
- the determination unit 64 is a processing unit that determines whether to execute process recognition or consequential recognition based on the nature of the movement. Taking the case where the item to be recognized is the balance beam or the floor as an example, the determination unit 64 determines that the consequential recognition is executed for the motion accompanied by the rotation in the somersault direction, and is processive for the other motions. Judge to execute recognition.
- the determination unit 64 executes the determination of the segment point. Specifically, when the determination unit 64 detects a posture that is a delimiter of the performance (movement), the determination unit 64 determines the posture as a segment point, sets the segment section between the segment points as a recognition target, and results as a result. It is output to the target recognition unit 65 and the process recognition unit 66.
- the determination unit 64 refers to the skeleton information, and has a posture in which both feet are in a predetermined position (ground, yuka, balance beam, etc.), a predetermined posture, and a support posture for exercise equipment (for example, a pommel horse). When a posture in which the wrist is supported by the horseback or pomer is detected, the posture is determined to be a segment point.
- the consequential recognition unit 65 is a processing unit that recognizes the basic movement performed in the segment section by using the consequential feature amount determined as a result from the series of movements of the entire frame in the segment section. Specifically, the result recognition unit 65 calculates the result feature amount by using the skeleton information of the frame corresponding to the segment section between the segment points notified by the determination unit 64. Then, the result recognition unit 65 refers to the result rule 56 for the result feature amount, and acquires the basic movement name associated with the calculated result feature amount. After that, the result recognition unit 65 outputs the recognized basic movement name, segment section, skeletal information between segments, and the like to the skill recognition unit 67.
- the consequential recognition unit 65 calculates the cumulative twist angle, the maximum leg opening angle, and the difference in height between the left foot and the shoulder as the consequential feature amount. Specifically, the consequential recognition unit 65 calculates the twist angle ( ⁇ T t ) of the unit time using a general method, and calculates the cumulative twist angle by ⁇ t ⁇ T t. Further, the result recognition unit 65 calculates the maximum leg opening angle by using the equation (2).
- j 11 indicates the skeletal information of the joint number 11
- j 10 indicates the skeletal information of the joint number 10
- j 14 indicates the skeletal information of the joint number 14
- j 15 indicates the skeletal information of the joint number 14.
- the skeletal information of joint number 15 is shown.
- the result recognition unit 65 calculates the difference in height between the left foot and the shoulder by max (z 13 ⁇ z 4).
- z 13 is the z-axis coordinate of the joint number 13
- z 4 is the z-axis coordinate of the joint number 4.
- the joint number is a number on the skeleton definition shown in FIG.
- the maximum leg opening angle is less than 135 degrees, it is recognized that the leg opening is insufficient. If the difference in height between the left foot and the shoulder is less than 0, it is recognized that the height of the left foot is insufficient. In these cases, it is determined that the feature amount for specifying the basic movement is insufficient.
- the number of twists and somersault postures such as stretching, bending and stretching, and holding can be used.
- the number of twists can be calculated by "([cumulative twist angle +30) / 180] / 2 ([x] is the maximum integer of x or less)".
- the process recognition unit 66 is a processing unit that recognizes the basic movement performed in the segment section by using the process result feature quantity that transitions in the process of each frame in the segment section. .. Specifically, the process recognition unit 66 calculates the process feature amount for the skeleton information of each frame corresponding to the segment section between the segment points notified by the determination unit 64. Then, the process recognition unit 66 inputs each process feature amount in the segment section into the trained recognition model 57, and recognizes the basic motion based on the output result of the trained recognition model 57. Then, the process recognition unit 66 outputs the recognized basic movement name, segment section, skeletal information between segments, and the like to the skill recognition unit 67.
- FIG. 14 is a diagram illustrating recognition of basic motion using process features.
- Each process feature including the target feature (E3) is acquired and input to the trained recognition model 57.
- the process recognition unit 66 acquires the probabilities of 89 basic movement names as the output result of the learned recognition model 57. Then, the process recognition unit 66 acquires the "open leg A jump" having the highest probability among the 89 basic movement names. Then, the process recognition unit 66 recognizes the "open leg A jump" as a basic movement.
- the technique recognition unit 67 is a processing unit that recognizes the technique performed by the actor 1 by using the recognition result of the basic movement by the estimation unit 63. Specifically, the technique recognition unit 67 acquires the recognition result of the basic movement of each segment section from the result recognition unit 65 when the event is the balance beam or the floor. Then, the technique recognition unit 67 compares the recognition result with the technique recognition rule 58, identifies the technique name, and outputs it to the scoring device 90. Further, the technique recognition unit 67 acquires the recognition result of the basic movement of each segment section from the process recognition unit 66 when the event is other than the balance beam or the yuka. Then, the technique recognition unit 67 compares the recognition result with the technique recognition rule 58 and specifies the technique name. For example, when the basic movement of each segment section is recognized as "basic movement A, basic movement B, basic movement C", the technique recognition unit 67 recognizes it as "skill XX".
- FIG. 15 is a functional block diagram showing a functional configuration of the scoring device 90 according to the first embodiment.
- the scoring device 90 includes a communication unit 91, a storage unit 92, and a control unit 94.
- the communication unit 91 receives the recognition result of the technique, the skeleton information of the performer (three-dimensional skeleton position information), and the like from the recognition device 50.
- the storage unit 92 is an example of a storage device that stores data, a program executed by the control unit 94, and the like, such as a memory and a hard disk.
- the storage unit 92 stores the technical information 93.
- the technique information 93 is information in which the name of the technique, the difficulty level, the score, the position of each joint, the angle of the joint, the scoring rule, and the like are associated with each other.
- the technique information 93 includes various other information used for scoring.
- the control unit 94 is a processing unit that controls the entire scoring device 90, such as a processor.
- the control unit 94 has a scoring unit 95 and an output control unit 96, and scores the performer according to the information input from the recognition device 50.
- the scoring unit 95 is a processing unit that executes scoring of the performer's skill and scoring of the performer's performance. Specifically, the scoring unit 95 refers to the technique information 93 and identifies a performance combining a plurality of techniques based on the recognition result of the technique transmitted from the recognition device 50 at any time. Then, the scoring unit 95 compares the skeleton information of the performer, the specified performance, the recognition result of the input technique, and the technique information 93 with the technique information 93, and executes the scoring of the technique or performance performed by the actor 1. .. For example, the scoring unit 95 calculates a D score or an E score. Then, the scoring unit 95 outputs the scoring result to the output control unit 96. The scoring unit 95 can also perform scoring using widely used scoring rules.
- the output control unit 96 is a processing unit that displays the scoring result of the scoring unit 95 on a display or the like.
- the output control unit 96 acquires various information such as a distance image captured by each 3D laser sensor, three-dimensional skeleton information, each image data during the performance by the performer 1, and a scoring result from the recognition device 50. And display it on the specified screen.
- FIG. 16 is a flowchart showing the flow of the learning process.
- the learning data generation unit 22 of the learning device 10 acquires each skeleton information included in each skeleton data 15 (S101) and executes an annotation to generate correct answer information of the basic movement (S102). ..
- the learning data generation unit 22 executes shaping of the learning data such as dividing into frames of each segment section in which the basic exercise is performed and executing padding (S103). Then, the learning data generation unit 22 divides the learning data into learning data (training data) used for training and evaluation data used for evaluation (S104).
- the learning data generation unit 22 executes expansion of the learning data including inversion for each instrument coordinate axis, translation along the instrument, addition of random noise, and the like (S105). For example, the learning data generation unit 22 increases the learning data by changing the data having different left and right directions to the same direction.
- the learning data generation unit 22 extracts the process feature amount using the skeleton information of the frame corresponding to each segment section (S106). Subsequently, the learning data generation unit 22 executes scale adjustment including normalization and standardization (S107).
- the learning unit 23 determines the algorithm, network, hyperparameters, etc. of the recognition model 16, and executes the learning of the recognition model 16 using the learning data (S108). At this time, the learning unit 23 evaluates the learning accuracy (evaluation error) of the recognition model 16 during learning by using the evaluation data for each epoch.
- the learning unit 23 ends learning when a predetermined condition such as the number of learning times exceeds the threshold value or the evaluation error becomes a certain value or less is satisfied (S109). Then, the learning unit 23 selects the recognition model 16 when the evaluation error is minimized (S110).
- FIG. 17 is a flowchart showing the flow of the automatic scoring process.
- the recognition device 50 reads the item to be scored in advance specified by the administrator or the like (S201), and updates the number of frames to be processed by a value obtained by adding 1 to the frame number (S202). ).
- the estimation unit 63 of the recognition device 50 reads the skeleton data of each frame generated by the data generation unit 62 (S203), and the position of the body including the body angle and orientation of the performer 1 and the height of the left and right feet. And the posture are calculated, and the segment point is detected (S204).
- the estimation unit 63 of the recognition device 50 determines the motion property based on the item information (S206). Taking the balance beam as an example, in the case of motion without rotation (S206: No), the estimation unit 63 of the recognition device 50 executes recognition of the basic motion by the process recognition process for the frame of the segment section (S207). On the other hand, in the case of motion with rotation (S206: Yes), the estimation unit 63 extracts the consequential features using the skeleton information of the frame of the segment section (S208), and recognizes the basic motion by the consequential recognition process. Execute (S209).
- the estimation unit 63 uses the amount of rotation in the somersault direction for determining the motion property. In other events, the estimation unit 63 determines the rotation by determining the motor qualities from other feature quantities.
- the difficulty level determination of the technique recognition by the technique recognition unit 67 and the technique by the scoring device 90 is executed (S210). Then, the scoring device 90 evaluates the performance execution points and calculates the D score and the like (S211). After that, while the performance continues (S212: No), S202 and subsequent steps are repeated.
- the scoring device 90 resets various flags and counts used for scoring (S213), and re-determines and totals the skill level from the entire performance (S214). ..
- the scoring device 90 stores the evaluation result and the like in the storage unit 92 and displays it on a display device such as a display (S215). If no segment point is detected in S205 (S205: No), S212 and subsequent steps are executed.
- FIG. 18 is a flowchart showing the flow of the process recognition process. This process is executed in S207 of FIG.
- the data generation unit 62 of the recognition device 50 divides (classifies) all the acquired frames into segment sections and executes padding to shape the data to be recognized, as in the case of learning. Is executed (S301).
- the data generation unit 62 extracts (calculates) a process feature amount using the skeleton information of each frame of the segment section (S302), and scale adjustment including normalization and standardization for the frame to be recognized. Is executed (S303).
- the estimation unit 63 of the recognition device 50 inputs the process feature amount generated from the time-series skeleton information into the trained recognition model 57 (S304), and acquires the recognition result from the trained recognition model 57. (S305). After that, the estimation unit 63 executes the recognition of the basic movement based on the recognition result (S306).
- the recognition device 50 classifies the time-series information of the segmented whole-body skeletal information using a simple feature amount such as the presence or absence of rotation. Based on the classification result, the recognition device 50 can perform process recognition if there is no rotation and consequential recognition if there is rotation, and can output the final recognition result of the basic motion from those recognition results. That is, the recognition device 50 can roughly classify the types of segmented basic movements and perform recognition by a recognition method suitable for each major classification.
- the recognition device 50 executes rule-based basic motion recognition for exercises with a low degree of freedom, and executes basic motion recognition by a learning model for exercises with a high degree of freedom.
- the recognition device 50 suppresses the creation of rules for the number of basic movements by using a method suitable for the nature of the movement, suppresses the recognition processing by machine learning for the event with a low degree of freedom, and is free. It is possible to improve the recognition accuracy of high-degree movements.
- Example 1 in the case of a jump-type event of gymnastics, an example in which recognition of a basic movement using process recognition processing is executed has been described, but the present invention is not limited to this.
- the recognition result can be corrected by the resulting feature amount. The reliability of recognition accuracy can be improved.
- FIG. 19 is a diagram for explaining the correction based on the consequential feature amount for the process recognition result.
- the numerical value in FIG. 19 is a technique number on the scoring rule of the technique corresponding to the basic exercise. Similar basic movements correspond to rows and columns to meet the requirements.
- the process recognition result is corrected by the judgment result based on the consequential feature amount, and the final basic motion recognition result is obtained.
- the recognition device 50 calculates the resulting feature amount using the skeletal information in the same segment section. Then, the recognition device 50 is based on the "difference in height between the left foot and the shoulder" included in the resulting feature amount, and is the recognition material of the "front and rear open leg jumping ring with the front legs crossed", the "height of the left foot”. Is insufficient (S21).
- the recognition device 50 corrects the recognition result for those that do not meet the requirements to be satisfied in the determination of the resulting feature amount (S22). That is, the recognition device 50 refers to the rule 56 for the consequential feature amount, and determines that the basic motion satisfying the calculated consequential feature amount is "front-back open leg jump (2.305) with the front legs crossed" (S23). ). In this way, the recognition device 50 can improve the reliability of the recognition accuracy by correcting the recognition result by the result feature amount of the process recognition result.
- the gymnastics competition has been described as an example, but the present invention is not limited to this, and can be applied to other competitions in which the athlete performs a series of techniques and the referee scores.
- Examples of other sports include figure skating, rhythmic gymnastics, cheerleading, swimming diving, karate kata, and mogul air.
- it can be applied to the estimation of the joint position of any of the 18 joints, the position between the joints, and the like.
- gymnastics, figure skating, rhythmic gymnastics, cheerleading, etc. which have both jumping and somersault (rotating) techniques, can switch the recognition method depending on the presence or absence of rotational movement, as in Example 1. it can.
- the recognition method can be switched depending on whether or not there is an ascending / descending motion such as stairs and whether or not there is a bending / stretching motion during walking.
- each component of each device shown in the figure is a functional concept, and does not necessarily have to be physically configured as shown in the figure. That is, the specific forms of distribution and integration of each device are not limited to those shown in the figure. That is, all or a part thereof can be functionally or physically distributed / integrated in any unit according to various loads, usage conditions, and the like. Further, each 3D laser sensor may be built in each device, or may be connected by communication or the like as an external device of each device.
- recognition of basic movement and recognition of technique can be implemented by separate devices.
- learning device 10 the recognition device 50, and the scoring device 90 can be realized by any combination of devices.
- the acquisition unit 61 is an example of an acquisition unit
- the estimation unit 63 is an example of a first determination unit and a second determination unit
- the technique recognition unit 67 is an example of an output unit.
- each processing function performed by each device can be realized by a CPU and a program that is analyzed and executed by the CPU, or can be realized as hardware by wired logic.
- FIG. 20 is a diagram illustrating a hardware configuration example.
- the computer 100 includes a communication device 100a, an HDD (Hard Disk Drive) 100b, a memory 100c, and a processor 100d. Further, the parts shown in FIG. 20 are connected to each other by a bus or the like.
- HDD Hard Disk Drive
- the communication device 100a is a network interface card or the like, and communicates with other servers.
- the HDD 100b stores a program or DB that operates the functions shown in FIG. 10 and the like.
- the processor 100d reads a program that executes the same processing as each processing unit shown in FIG. 10 from the HDD 100b or the like and expands the program into the memory 100c to operate a process that executes each function described in FIG. 10 or the like. That is, this process executes the same function as each processing unit of the recognition device 50.
- the processor 100d reads a program having the same functions as the acquisition unit 61, the data generation unit 62, the estimation unit 63, the technique recognition unit 67, and the like from the HDD 100b and the like. Then, the processor 100d executes a process of executing the same processing as the acquisition unit 61, the data generation unit 62, the estimation unit 63, the technique recognition unit 67, and the like.
- the computer 100 operates as an information processing device that executes the recognition method by reading and executing the program. Further, the computer 100 can realize the same function as that of the above-described embodiment by reading the program from the recording medium by the medium reading device and executing the read program.
- the program referred to in the other embodiment is not limited to being executed by the computer 100.
- the present invention can be similarly applied when another computer or server executes a program, or when they execute a program in cooperation with each other.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Physical Education & Sports Medicine (AREA)
- Image Analysis (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
認識装置は、複数の基本運動を含む一連の運動を実施する被写体の各関節位置を含む骨格情報を時系列で取得する。認識装置は、基本運動の種別により、基本運動の結果として定まる第一の特徴量を用いた第一の運動認識手法と、基本運動の過程の中で遷移する第二の特徴量を用いた第二の運動認識手法とのいずれを採用するかを決定する。認識装置は、決定された第一の運動認識手法または第二の運動認識手法のいずれかにより、骨格情報を用いて基本運動の種別を決定し、決定された基本運動の種別を出力する。
Description
本発明は、運動認識方法、運動認識プログラムおよび情報処理装置に関する。
体操や医療などの幅広い分野において、選手や患者などの人物の骨格情報を用いて、人物の動作を自動で認識することが行われている。近年では、人物までの距離をセンシングする3D(Three Dimensions)レーザセンサ(以下、距離センサや深度センサともいう。)が出力する距離画像に基づいて、人物の3次元骨格座標を認識し、認識結果を用いて人物の動作を自動認識する装置が利用されている。
例えば、体操を例にして説明すると、時系列で取得した演技者の骨格情報の認識結果を用いて一連の動きを分節化し、基本運動単位に分割する。そして、分節化された各区間について、関節の向きなどを用いた特徴量を算出し、基本運動を特定する特徴量を予め定めたルールと比較することで、一連の動きから演技された技を自動で認識する。
ところで、基本運動は、骨格情報を用いて一連の動きを支持状態の変化に基づき分節化された運動であり、多彩な運動が可能であり自由度が高い。このような自由度が高い基本運動の認識の手段としては、各基本運動を認識するのに必要な特徴量を定義し、特徴量毎のルールを基本運動の数だけ定義した上記ルールベースと、機械学習などを用いた学習モデルを利用することが考えられる。
ルールベースの場合、基本運動の自由度が高くなるほど、各基本運動を認識するための特徴量が多くなり、結果として定義しなければならないルールが複雑になる。一方で、学習モデルを用いる場合には、特徴量を定義する必要がない。しかし、学習モデルから基本運動の認識結果が出力されるものの、スポーツなどにおける正確な判定基準と必ずしも合致するとは限らない。例えば、「宙返り」という出力が得られたとしても、学習時に利用するデータによっては、この出力結果が体操競技のルールブック上の宙返りの要件を確実に満たしていない場合がある。
そこで、本願発明では、一つの側面において、運動の性質に適した手法を用いることで、自由度が高い運動の認識精度を向上させることができる運動認識方法、運動認識プログラムおよび情報処理装置を提供することを目的とする。
第1の案では、運動認識方法は、コンピュータが、複数の基本運動を含む一連の運動を実施する被写体の各関節位置を含む骨格情報を時系列で取得する処理を実行する。運動認識方法は、コンピュータが、前記基本運動の種別により、前記基本運動の結果として定まる第一の特徴量を用いた第一の運動認識手法と、前記基本運動の過程の中で遷移する第二の特徴量を用いた第二の運動認識手法とのいずれを採用するかを決定する処理を実行する。運動認識方法は、コンピュータが、決定された前記第一の運動認識手法または前記第二の運動認識手法のいずれかにより、前記骨格情報を用いて前記基本運動の種別を決定し、決定された前記基本運動の種別を出力する処理を実行する。
一つの側面では、自由度が高い運動の認識精度を向上させることができる。
以下に、本発明にかかる運動認識方法、運動認識プログラムおよび情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
[全体構成]
図1は、実施例1にかかる自動採点システムの全体構成例を示す図である。図1に示すように、このシステムは、3D(Three-Dimensional)レーザセンサ5、学習装置10、認識装置50、採点装置90を有し、被写体である演技者1の3次元データを撮像し、骨格等を認識して正確な技の採点を行うシステムである。本実施例では、一例として、体操競技における演技者の骨格情報を認識する例で説明する。
図1は、実施例1にかかる自動採点システムの全体構成例を示す図である。図1に示すように、このシステムは、3D(Three-Dimensional)レーザセンサ5、学習装置10、認識装置50、採点装置90を有し、被写体である演技者1の3次元データを撮像し、骨格等を認識して正確な技の採点を行うシステムである。本実施例では、一例として、体操競技における演技者の骨格情報を認識する例で説明する。
なお、3Dレーザセンサ5は、演技者1の距離画像を撮像するセンサの一例であり、学習装置10は、認識装置50が利用する学習モデルの学習を実行する装置の一例である。認識装置50は、距離画像に基づく、演技者1の3次元の骨格位置を示す骨格情報を用いて、演技の技などを自動認識する装置の一例であり、採点装置90は、認識装置50の認識結果を用いて演技者1の演技を自動採点する装置の一例である。
一般的に、体操競技における現在の採点方法は、複数の採点者によって目視で行われているが、技の高度化に伴い、採点者の目視では採点が困難な場合が増加している。近年では、3Dレーザセンサを使った、採点競技の自動採点システムや採点支援システムが知られている。例えば、これらのシステムにおいては、3Dレーザセンサにより選手の3次元データである距離画像を取得し、距離画像から選手の各関節の向きや各関節の角度などである骨格を認識する。そして、採点支援システムにおいては、骨格認識の結果を3Dモデルにより表示することで、採点者が演技者の細部の状況を確認するなどにより、より正しい採点を実施することを支援する。また、自動採点システムにおいては、骨格認識の結果から、演技した技などを認識し、採点ルールに照らして採点を行う。
ここで、演技した技の自動認識は、骨格認識の結果で得られる骨格情報を用いて、演技者1の一連の動きを支持状態の変化に基づき分節化された運動である基本運動を特定し、各分節間の基本運動の組み合わせにより、技の特定が行われる。
ところで、基本運動の認識をルールベース手法で行う場合、自由度の高い運動について時間的に遷移する身体部位同士の関係についての記述する必要がありルールが複雑になる。また、機械学習を用いることで複雑なルールを記述することなく認識を行うことができるが、競技の採点規則上の要件を満たすことを保証できないこともあり、演技全体での認識率は低下することがある。
そこで、実施例1では、認識装置50により、分節化された基本運動を、過程を観測する必要のあるものと無いものに分類し、基本運動の過程の中で遷移する過程的特徴量を用いた認識と、区間内の基本運動の結果として定まる結果的特徴量を用いて認識を行い、それらの組み合わせにより基本運動を認識する。
図2は、実施例1にかかる認識装置50を説明する図である。図2に示すように、基本運動は、全身の各関節の動きを複合的かつ連続的に評価する必要が高い基本運動A(自由度が高い)と、全身の各関節の動きを複合的かつ連続的に評価する必要が低い基本運動B(自由度が小さい)とに大別される。基本運動Aは、例えば、ジャンプ系の運動である。基本運動Bは、例えば、宙返り系の運動である。
ジャンプ系の基本運動Aは、区間内のフレームにジャンプを行っているフレームが複数存在することが多く、1つのフレームからだけではどのような運動(動作)なのか判断することが難しい。このため、区間内の各フレームの過程の中で遷移する特徴量(過程的特徴量)を用いて、ジャンプ系の基本運動の詳細を判断することが好ましい。一方、宙返り系の基本運動Bは、区間内のフレームにおいて回転しているフレームが1つでも存在すれば、宙返り系の運動と判断することができる。このため、区間内のフレーム全体の一連の動きから結果的に定まる特徴量(結果的特徴量)を用いて、宙返り系の基本運動の詳細を判断することができる。
このようなことから、認識装置50は、過程的特徴量を用いて深層学習された認識モデルと、結果的特徴量と基本運動名と対応付けたルールベースとを、運動の性質により切り替えることで、正確な運動認識を実行する。
図3は、実施例1にかかる認識処理の流れを示すフローチャートである。図3に示すように、認識装置50は、時系列の骨格情報を取得し(S1)、演技中の種目の運動の性質を判定する(S2)。そして、認識装置50は、あん馬などの回転無の種目の場合(S3:No)、分節区間内の過程的特徴量を抽出し(S4)、認識モデルによる基本運動認識を実行する(S5)。一方、認識装置50は、平均台やゆかなどの回転有の種目の場合(S3:Yes)、分節区間内の結果的特徴量を抽出し(S6)、ルールベースによる基本運動認識を実行する(S7)。その後、認識装置50は、認識された基本運動を用いて、演技者1が演技する技を認識する(S8)。
例えば、図2に示すように、認識装置50は、ジャンプ系の基本運動については、認識モデルを用いた過程的認識により、基本運動名「前へ脚交差した前後開脚とび」と特定する。また、認識装置50は、宙返り系の基本運動については、ルールベースを用いた結果的認識により、基本運動名「後方屈伸宙返り」と特定する。
このように、認識装置50は、種々の運動について、運動の性質に適した認識手法を用いることで正確な技認識を実現する。
[機能構成]
次に、図1に示したシステムが有する各装置の機能構成につて説明する。なお、ここでは、学習装置10、認識装置50、採点装置90のそれぞれについて説明する。
次に、図1に示したシステムが有する各装置の機能構成につて説明する。なお、ここでは、学習装置10、認識装置50、採点装置90のそれぞれについて説明する。
(学習装置10の構成)
図4は、実施例1にかかる学習装置10の機能構成を示す機能ブロック図である。図4に示すように、学習装置10は、通信部11、記憶部12、制御部20を有する。
図4は、実施例1にかかる学習装置10の機能構成を示す機能ブロック図である。図4に示すように、学習装置10は、通信部11、記憶部12、制御部20を有する。
通信部11は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどである。例えば、通信部11は、3Dレーザセンサ5により撮影された演技者1の距離画像を受信し、管理者端末などから各種データや指示を受信し、認識装置50に学習済みの認識モデルを送信する。
記憶部12は、データや制御部20が実行するプログラムなどを記憶する記憶装置であり、例えばメモリやプロセッサなどである。この記憶部12は、距離画像13、骨格定義14、骨格データ15、認識モデル16を記憶する。
距離画像13は、3Dレーザセンサ5により撮像される演技者1の距離画像である。図5は、距離画像13を説明する図である。図5に示すように、距離画像13は、3Dレーザセンサ5から画素までの距離が含まれるデータであり、3Dレーザセンサ5からの距離が近いほど、濃い色で表示される。なお、距離画像13は、演技者1の演技中に随時撮像される。
骨格定義14は、骨格モデル上の各関節を特定するための定義情報である。ここで記憶される定義情報は、3Dレーザセンサによる3Dセンシングによって演技者ごとに測定してもよく、一般的な体系の骨格モデルを用いて定義してもよい。
図6は、骨格定義14を説明する図である。図6に示すように、骨格定義14は、公知の骨格モデルで特定される各関節をナンバリングした、18個(0番から17番)の定義情報を記憶する。例えば、図4に示すように、右肩関節(SHOULDER_RIGHT)には7番が付与され、左肘関節(ELBOW_LEFT)には5番が付与され、左膝関節(KNEE_LEFT)には11番が付与され、右股関節(HIP_RIGHT)には14番が付与される。ここで、実施例では、7番の右肩関節のX座標をX7、Y座標をY7、Z座標をZ7と記載する場合がある。なお、例えば、Z軸は、3Dレーザセンサ5から対象に向けた距離方向、Y軸は、Z軸に垂直な高さ方向、X軸は、水平方向をと定義することができる。
骨格データ15は、各距離画像を用いて生成される骨格に関する情報を含むデータである。具体的には、骨格データ15は、距離画像を用いて取得された、骨格定義14に定義される各関節の位置を含む。図7は、骨格データ15を説明する図である。図7に示すように、骨格データ15は、「フレーム、画像情報、骨格情報」が対応付けられる情報である。
ここで、「フレーム」は、3Dレーザセンサ5による撮像される各フレームを識別する識別子であり、「画像情報」は、関節などの位置が既知である距離画像のデータである。「骨格情報」は、骨格の3次元の位置情報であり、図6に示した18個の各関節に対応する関節位置(3次元座標)である。図7の例では、距離画像である「画像データA1」には、HEADの座標「X3,Y3,Z3」などを含む18個の関節の位置が既知であることを示す。なお、関節位置は、例えば、予め学習された学習モデルであって、距離画像から各関節位置を抽出する学習モデルなどを用いて抽出することもできる。
認識モデル16は、時系列の骨格情報に基づき、演技者1が演技する基本運動を認識する学習モデルであり、後述する学習部23によって学習されるニューラルネットワークなどを用いた学習モデルである。例えば、認識モデル16は、演技者の骨格情報の時系列の変化を特徴量(過程的特徴量)として学習することで、複数ある基本運動のうち演技者1が演技する基本運動を推定する。
制御部20は、学習装置10全体を司る処理部であり、例えばプロセッサなどである。制御部20は、取得部21、学習データ生成部22、学習部23を有し、認識モデル16の学習を実行する。なお、取得部21、学習データ生成部22、学習部23は、プロセッサなどの電子回路の一例やプロセッサなどが有するプロセスの一例である。
取得部21は、各種データを取得する処理部である。例えば、取得部21は、3Dレーザセンサ5から距離画像を取得して記憶部12に格納する。また、取得部21は、管理者端末などから、骨格データを取得して記憶部12に格納する。
学習データ生成部22は、認識モデル16の学習に利用する学習データを生成する処理部である。具体的には、学習データ生成部22は、時系列の骨格情報に正解情報である基本運動の名称を対応付けた学習データを生成して、記憶部12に格納し、学習部23に出力する。
図8は、学習データの生成を説明する図である。図8に示すように、学習データ生成部22は、既知である基本運動に該当するフレームにおける骨格データ15の各骨格情報を参照し、関節間の向きを示す関節間ベクトルを算出する。例えば、学習データ生成部22は、time=0のフレームの骨格情報(J0)からtime=tのフレームの骨格情報(Jt)のそれぞれについて、関節情報を式(1)に入力して、各フレームの関節間ベクトルを算出する。なお、式(1)におけるx、y、zは座標を示し、iは関節の数を示し、ei,xはi番目の関節間ベクトルのx軸方向の大きさを示し、ei,yはi番目の関節間ベクトルのy軸方向の大きさを示し、ei,zはi番目の関節間ベクトルのz軸方向の大きさを示す。
その後、学習データ生成部22は、当該基本運動に関連する各フレームの関節間ベクトルを含む一連の関節間ベクトルと、既知である基本運動名(種別)とを対応付けた学習データを生成する。
なお、基本運動に関連するフレームの数は、10フレームや30フレームなど任意に設定することができ、回転がないジャンプ系の基本運動の特徴を表すことができるフレーム数が好ましい。また、図8では、説明を簡略化するために、骨格情報をJ0などと記載したが、実際は、18関節ごとにx、y、z値の座標(合計18×3=54個)が設定されている。また、関節間ベクトルについても同様に、E0などと記載したが、関節番号0から1への各軸(x、y、z軸)のベクトル、関節番号1から2への各軸のベクトルなどが含まれる。
学習部23は、学習データ生成部22により生成された学習データを用いて、認識モデル16の学習を実行する処理部である。具体的には、学習部23は、学習データを用いた教師有学習によって認識モデル16のパラメータを最適化し、学習済みの認識モデル16を記憶部12に格納し、認識装置50に送信する。なお、学習を終了するタイミングは、所定数以上の学習データを用いた学習が完了した時点や復元誤差が閾値未満となった時点など、任意に設定することができる。
図9は、認識モデル16の学習を説明する図である。図9に示すように、学習部23は、time=3のフレームの骨格情報(J3)からL個の時系列の学習データを特定し、各関節間ベクトルを説明変数として取得し、L個の学習データを認識モデル16に入力する。そして、学習部23は、認識モデル16の出力結果と目的変数「基本運動名」との誤差に基づく誤差逆伝搬法などにより、出力結果と目的変数とが一致するように認識モデル16を学習する。
例えば、学習部23は、フレーム3からフレームNまでの30個の各関節間ベクトルを説明変数として取得するとともに、これらのフレーム間に対応付けられる基本運動名「開脚A飛び」を目的変数として取得する。そして、学習部23は、取得した30個の各関節間ベクトルを1つの入力データとして認識モデル16に入力し、認識モデル16の出力結果として、予め指定する89個の各基本運動に該当する確率(尤度)を取得する。
その後、学習部23は、各基本運動に該当する確率のうち目的変数である「開脚A飛び」が最も確率が高くなるように、認識モデル16を学習する。このようにして、学習部23は、基本運動を特徴づける関節間ベクトルの変動を特徴量として、認識モデル16を学習する。
なお、学習部23は、時系列の骨格情報として例えば30フレームを1つの入力データとして認識モデル16に入力することから、パディングなどにより学習データの整形を実行することもできる。例えば、time=0のフレーム0からtime=tのフレームtまでのt個の骨格情報が存在するオリジナルデータから、1つずつずらして所定数ずつを学習データとして取得する場合、各学習データの数を合わせるために、先頭フレームのデータのデータをコピーするとともに、最終フレームのデータをコピーして学習データの数を増やす。
(認識装置50の構成)
図10は、実施例1にかかる認識装置50の機能構成を示す機能ブロック図である。図10に示すように、認識装置50は、通信部51、記憶部52、制御部60を有する。
図10は、実施例1にかかる認識装置50の機能構成を示す機能ブロック図である。図10に示すように、認識装置50は、通信部51、記憶部52、制御部60を有する。
通信部51は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどである。例えば、通信部51は、3Dレーザセンサ5により撮影された演技者1の距離画像を受信し、学習装置10から学習済みの認識モデルを受信し、各種認識結果を採点装置に送信する。
記憶部52は、データや制御部60が実行するプログラムなどを記憶する記憶装置であり、例えばメモリやプロセッサなどである。この記憶部52は、距離画像53、骨格定義54、骨格データ55、結果的特徴量用ルール56、学習済みの認識モデル57、技認識ルール58を記憶する。
距離画像53は、3Dレーザセンサ5により撮像される演技者1の距離画像であり、例えば採点対象の演技者の演技を撮像した距離画像である。骨格定義54は、骨格モデル上の各関節を特定するための定義情報である。なお、骨格定義54は、図6と同様なので、詳細な説明は省略する。
骨格データ55は、後述するデータ生成部62によりフレームごとに生成される骨格に関する情報を含むデータである。具体的には、骨格データ55は、図5と同様、「フレーム、画像情報、骨格情報」が対応付けられる情報である。
結果的特徴量用ルール56は、自由度が高い宙返り系の基本運動を識別するときに参照される情報である。具体的には、結果的特徴量用ルール56は、結果的特徴量と基本運動名とを対応付けた情報である。ここで、結果的特徴量としては、例えば累積ひねり角度、最大開脚角度、左足と肩の高さの差の組み合わせを用いることができる。
図11は、結果的特徴量用ルール56を説明する図である。図11に示すように、結果的特徴量用ルール56は、「結果的特徴量、基本運動名」を対応付けた情報である。「結果的特徴量」は、分節区間内の基本運動の結果として定まる特徴量であり、「基本運動名」は、結果的特徴量が取得された基本運動の種別(名称)である。図11の例では、「累積ひねり角度がX度以上、最大開脚角度がB度以上、左足と肩の高さの差がAcm以上」の場合は、基本運動AAと判定されることを示す。
学習済みの認識モデル57は、学習装置10により学習された認識モデルである。この学習済みの認識モデル57は、時系列の骨格情報に基づき、演技者1が演技した基本運動を認識する学習モデルである。
技認識ルール58は、演技者1が演技した技を認識するときに参照される情報である。具体的には、技認識ルール58は、技の名称と、技を特定するために予め設定された情報とを対応付けた情報である。図12は、技認識ルール58を説明する図である。図12に示すように、技認識ルール58は、「基本運動の組み合わせ、技名」を対応付けて記憶する。図12の例では、「基本運動A、基本運動B、基本運動C」が連続して実行された場合は、「技XX」と認識される例を示している。
制御部60は、認識装置50全体を司る処理部であり、例えばプロセッサなどである。制御部60は、取得部61、データ生成部62、推定部63、技認識部67を有し、自由度の高い基本運動の認識や基本運動を組み合わせた技の認識を実行する。なお、取得部61、データ生成部62、推定部63、技認識部67は、プロセッサなどの電子回路の一例やプロセッサなどが有するプロセスの一例である。
取得部61は、各種データや各種指示を取得する処理部である。例えば、取得部61は、3Dレーザセンサ5による計測結果(3次元点群データ)に基づく距離画像を取得して記憶部52に格納する。また、取得部61は、学習装置10から、学習済みの認識モデル57を取得して記憶部12に格納する。
データ生成部62は、各距離画像から、18個の関節の位置を含む骨格情報を生成する処理部である。例えば、データ生成部62は、距離画像から骨格情報を認識する学習済みのモデルを用いて、18個の関節位置を特定した骨格情報を生成する。そして、データ生成部62は、距離画像に対応するフレームの番号と、距離画像と、骨格情報とを対応付けた骨格データ55を記憶部52に格納する。また、学習装置10における骨格データ15における骨格情報も同様の手法により生成することができる。
推定部63は、判定部64、結果的認識部65、過程的認識部66を有し、過程的特徴量を用いて深層学習された認識モデルと、結果的特徴量と基本運動名と対応付けたルールベースとを、運動の性質により切り替えることで、基本運動の正確な認識を実行する処理部である。図13は、特徴量を用いた基本運動の認識を説明する図である。ここでは、time=0のフレームからtime=tのフレームまでのフレーム間を利用する例を説明する。
図13に示すように、推定部63は、過程的認識により基本運動の認識を行う場合、time=0のフレームからtime=tのフレームまでの各過程的特徴量を入力データとして、学習済みの認識モデル57を用いた基本運動の認識を実行する。一方、推定部63は、結果的認識により基本運動の認識を行う場合、time=0のフレームからtime=tのフレームまでの各骨格情報から結果的特徴量を生成し、結果的特徴量用ルール56にしたがって基本運動の認識を実行する。
判定部64は、運動の性質に基づき、過程的認識か結果的認識のいずれを実行するかを判定する処理部である。認識対象の種目が平均台またはゆかの場合を例にとると、判定部64は宙返り方向の回転を伴う運動に対して結果的認識を実行すると判定し、それ以外の運動に対しては過程的認識を実行すると判定する。
また、判定部64は、分節点の判定を実行する。具体的には、判定部64は、演技(動作)の区切りとなる姿勢を検出した場合、当該姿勢を分節点と判定し、分節点と分節点との間の分節区間を認識対象として、結果的認識部65や過程的認識部66に出力する。例えば、判定部64は、骨格情報を参照し、両足が所定位置(地面、ゆか、平均台の台面など)に付いている姿勢、予め指定した姿勢、運動器具への支持姿勢(例えば、あん馬の馬背やポメルに手首を支持している姿勢)を検出した場合、当該姿勢を分節点と判定する。
結果的認識部65は、分節区間内のフレーム全体の一連の動きから結果的に定まる結果的特徴量を用いて、分節区間で演技された基本運動を認識する処理部である。具体的には、結果的認識部65は、判定部64により通知された分節点と分節点との間の分節区間に該当するフレームの骨格情報を用いて、結果的特徴量を算出する。そして、結果的認識部65は、結果的特徴量用ルール56を参照し、算出した結果的特徴量に対応付けられる基本運動名を取得する。その後、結果的認識部65は、認識された基本運動名、分節区間、分節間の骨格情報などを技認識部67に出力する。
例えば、結果的認識部65は、結果的特徴量として、累積ひねり角度、最大開脚角度、左足と肩の高さの差を算出する。具体的には、結果的認識部65は、一般的な手法を用いて単位時間のひねり角度(ΔTt)を算出し、ΣtΔTtにより累積ひねり角度を算出する。また、結果的認識部65は、式(2)を用いて、最大開脚角度を算出する。なお、式(2)におけるj11は、関節番号11の骨格情報を示し、j10は、関節番号10の骨格情報を示し、j14は、関節番号14の骨格情報を示し、j15は、関節番号15の骨格情報を示す。また、結果的認識部65は、max(z13-z4)により、左足と肩の高さの差を算出する。ここで、z13は、関節番号13のz軸の座標であり、z4は、関節番号4のz軸の座標である。なお、関節番号は、図6に示した骨格定義上の番号である。
なお、最大開脚角度が135度未満である場合は、開脚不足と認識される。また、左足と肩の高さの差が0未満である場合、左足の高さ不足と認識される。これらの場合、基本運動を特定する特徴量としては不十分と判定される。
また、これらの特徴量以外にも、例えばひねり回数や、伸身、屈伸、かかえ込みなどの宙返り姿勢などを用いることもできる。なお、ひねり回数は、「([累積ひねり角度+30)/180]/2([x]はx以下の最大の整数)」で算出することができる。
図10に戻り、過程的認識部66は、分節区間内の各フレームの過程の中で遷移する過程的結果的特徴量を用いて、分節区間で演技された基本運動を認識する処理部である。具体的には、過程的認識部66は、判定部64により通知された分節点と分節点との間の分節区間に該当する各フレームの骨格情報に対して過程的特徴量を算出する。そして、過程的認識部66は、分節区間内の各過程的特徴量を学習済みの認識モデル57に入力し、学習済みの認識モデル57の出力結果に基づいて、基本運動を認識する。そして、過程的認識部66は、認識された基本運動名、分節区間、分節間の骨格情報などを技認識部67に出力する。
図14は、過程的特徴量を用いた基本運動の認識を説明する図である。図14に示すように、過程的認識部66は、データ生成部62により生成された骨格情報から、判定対象の分節区間に該当するtime=3のフレームの骨格情報(J3)から生成された過程的特徴量(E3)を含む各過程的特徴量を取得して、学習済みの認識モデル57に入力する。
その後、過程的認識部66は、学習済みの認識モデル57の出力結果として、89個の基本運動名の確率を取得する。そして、過程的認識部66は、89個の基本運動名の確率のうち最も確率が高い「開脚A飛び」を取得する。そして、過程的認識部66は、「開脚A飛び」を基本運動と認識する。
技認識部67は、推定部63による基本運動の認識結果を用いて、演技者1が演技した技を認識する処理部である。具体的には、技認識部67は、種目が平均台やゆかの場合、各分節区間の基本運動の認識結果を結果的認識部65から取得する。そして、技認識部67は、認識結果と技認識ルール58とを比較し、技名を特定して、採点装置90に出力する。また、技認識部67は、種目が平均台やゆか以外の場合、各分節区間の基本運動の認識結果を過程的認識部66から取得する。そして、技認識部67は、認識結果と技認識ルール58とを比較し、技名を特定する。例えば、技認識部67は、各分節区間の基本運動が「基本運動A、基本運動B、基本運動C」と認識された場合、「技XX」と認識する。
(採点装置90の構成)
図15は、実施例1にかかる採点装置90の機能構成を示す機能ブロック図である。図18に示すように、採点装置90は、通信部91、記憶部92、制御部94を有する。通信部91は、認識装置50から技の認識結果、演技者の骨格情報(3次元の骨格位置情報)などを受信する。
図15は、実施例1にかかる採点装置90の機能構成を示す機能ブロック図である。図18に示すように、採点装置90は、通信部91、記憶部92、制御部94を有する。通信部91は、認識装置50から技の認識結果、演技者の骨格情報(3次元の骨格位置情報)などを受信する。
記憶部92は、データや制御部94が実行するプログラムなどを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。この記憶部92は、技情報93を記憶する。技情報93は、技の名前、難易度、得点、各関節の位置、関節の角度、採点ルールなどを対応付けた情報である。また、技情報93には、採点に利用される他の様々な情報が含まれる。
制御部94は、採点装置90全体を司る処理部であり、例えばプロセッサなどである。この制御部94は、採点部95と出力制御部96とを有し、認識装置50から入力された情報にしたがって、演技者の採点などを行う。
採点部95は、演技者の技の採点や演技者の演技の採点を実行する処理部である。具体的には、採点部95は、技情報93を参照し、認識装置50から随時送信される技の認識結果に基づき、複数の技を組み合わせた演技を特定する。そして、採点部95は、演技者の骨格情報、特定した演技、入力された技の認識結果などと、技情報93とを比較して、演技者1が演技した技や演技の採点を実行する。例えば、採点部95は、DスコアやEスコアを算出する。そして、採点部95は、採点結果を出力制御部96に出力する。なお、採点部95は、広く利用されている採点ルールを用いた採点を実行することもできる。
出力制御部96は、採点部95の採点結果などをディスプレイ等に表示する処理部である。例えば、出力制御部96は、認識装置50から、各3Dレーザセンサによる撮像された距離画像、3次元の骨格情報、演技者1が演技中の各画像データ、採点結果などの各種情報を取得して、所定の画面に表示する。
[学習処理]
図16は、学習処理の流れを示すフローチャートである。図16に示すように、学習装置10の学習データ生成部22は、各骨格データ15に含まれる各骨格情報を取得し(S101)、基本運動の正解情報を生成するアノテーションを実行する(S102)。
図16は、学習処理の流れを示すフローチャートである。図16に示すように、学習装置10の学習データ生成部22は、各骨格データ15に含まれる各骨格情報を取得し(S101)、基本運動の正解情報を生成するアノテーションを実行する(S102)。
続いて、学習データ生成部22は、基本運動が行われる各分節区間のフレームに分割したり、パディングを実行したりする学習データの整形を実行する(S103)。そして、学習データ生成部22は、学習データを訓練に使用する学習用データ(訓練データ)と評価に利用する評価用データとに分割する(S104)。
その後、学習データ生成部22は、器具座標軸毎の反転、器具の沿った平行移動、ランダムノイズの追加などを含む学習データの拡張を実行する(S105)。例えば、学習データ生成部22は、左右の向きが違うデータを同じ向きに変更して学習データを増加させたりする。
そして、学習データ生成部22は、各分節区間に該当するフレームの骨格情報を用いて、過程的特徴量を抽出する(S106)。続いて、学習データ生成部22は、正規化や標準化などを含むスケール調整を実行する(S107)。
そして、学習部23は、認識モデル16のアルゴリズム、ネットワーク、ハイパーパラメータ等を決定し、学習データを用いて、認識モデル16の学習を実行する(S108)。このとき、学習部23は、1エポックごとに、評価用データを用いて、学習中の認識モデル16の学習精度(評価誤差)を評価する。
その後、学習部23は、学習回数が閾値を越える、評価誤差が一定値以下になるなどの所定条件を満たすと、学習を終了する(S109)。そして、学習部23は、評価誤差が最小になったときの認識モデル16を選択する(S110)。
[自動採点処理]
図17は、自動採点処理の流れを示すフローチャートである。図17に示すように、認識装置50は、管理者等により予め指定された採点対象の種目を読み込み(S201)、処理対象のフレーム数を、フレーム番号に1を加算した値により更新する(S202)。
図17は、自動採点処理の流れを示すフローチャートである。図17に示すように、認識装置50は、管理者等により予め指定された採点対象の種目を読み込み(S201)、処理対象のフレーム数を、フレーム番号に1を加算した値により更新する(S202)。
続いて、認識装置50の推定部63は、データ生成部62により生成された各フレームの骨格データを読み込み(S203)、演技者1の体躯角度や向き、左右足高さなどを含む体躯の位置や姿勢を算出し、分節点を検出する(S204)。
そして、認識装置50の推定部63は、分節点が検出されると(S205:Yes)、種目情報に基づき運動性質を判定する(S206)。平均台を例にとると、認識装置50の推定部63は、回転無の運動の場合(S206:No)、分節区間のフレームについて過程的認識処理による基本運動の認識を実行する(S207)。一方、推定部63は、回転ありの運動の場合(S206:Yes)、分節区間のフレームの骨格情報を用いて結果的特徴量を抽出し(S208)、結果的認識処理により基本運動の認識を実行する(S209)。例えば、推定部63は、S206において、種目が平均台の場合には運動性質判定に、宙返り方向の回転量を使う。推定部63は、他の種目においては、他の特徴量から運動資質を判定することで、回転を判断する。
その後、技認識部67による技認識や採点装置90による技等の難易度判定が実行される(S210)。そして、採点装置90は、演技実施点を評価してDスコア等を算出する(S211)。その後、演技が継続している間(S212:No)、S202以降が繰り返される。
一方、演技が終了すると(S212:Yes)、採点装置90は、採点に利用した各種フラグやカウントのリセットを実行し(S213)、演技全体から技難度の再判定や集計を実行する(S214)。
その後、採点装置90は、評価結果などを記憶部92に格納したり、ディスプレイなどの表示装置に表示したりする(S215)。なお、S205において、分節点が検出されない場合(S205:No)、S212以降が実行される。
(過程的認識処理)
図18は、過程的認識処理の流れを示すフローチャートである。なお、この処理は、図17のS207で実行される。
図18は、過程的認識処理の流れを示すフローチャートである。なお、この処理は、図17のS207で実行される。
図18に示すように、認識装置50のデータ生成部62は、学習時と同様、取得された全フレームを分節区間ごとに分割(分類)したり、パディングを実行したりする認識対象のデータ整形を実行する(S301)。
続いて、データ生成部62は、分節区間の各フレームの骨格情報を用いて過程的特徴量を抽出(算出)し(S302)、認識対象のフレームに対して正規化や標準化などを含むスケール調整を実行する(S303)。
そして、認識装置50の推定部63は、時系列の骨格情報から生成された過程的特徴量を学習済みの認識モデル57に入力し(S304)、学習済みの認識モデル57から認識結果を取得する(S305)。その後、推定部63は、認識結果に基づき、基本運動の認識を実行する(S306)。
[効果]
上述したように、認識装置50は、分節化された全身の骨格情報の時系列情報を、例えば回転の有無などの簡便な特徴量を用いた分類を行う。認識装置50は、分類結果に基づき、回転が無ければ過程的認識、回転があれば結果的認識を行い、それらの認識結果から最終的な基本運動の認識結果を出力することができる。つまり、認識装置50は、分節化された基本運動の種類を大まかに分類し、大分類ごとに適した認識手法による認識を行うことができる。
上述したように、認識装置50は、分節化された全身の骨格情報の時系列情報を、例えば回転の有無などの簡便な特徴量を用いた分類を行う。認識装置50は、分類結果に基づき、回転が無ければ過程的認識、回転があれば結果的認識を行い、それらの認識結果から最終的な基本運動の認識結果を出力することができる。つまり、認識装置50は、分節化された基本運動の種類を大まかに分類し、大分類ごとに適した認識手法による認識を行うことができる。
したがって、認識装置50は、自由度が低い運動については、ルールベースの基本運動認識を実行し、自由度が高い運動の場合は、学習モデルによる基本運動認識を実行する。この結果、認識装置50は、運動の性質に適した手法を用いることで、基本運動の数だけルールを作成することを抑制し、自由度の低い種目に対する機械学習による認識処理を抑制し、自由度が高い運動の認識精度を向上させることができる。
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。
[補正]
例えば、実施例1では、体操競技のジャンプ系の種目の場合、過程的認識処理を用いた基本運動の認識が実行される例を説明したが、これに限定されるものではない。例えば、ジャンプ系の種目であっても、「輪とび」などのように、採点規則に認定の基準が明記される特定の技の場合は、結果的特徴量により認識結果を補正することで、認識精度の信頼性を向上させることができる。
例えば、実施例1では、体操競技のジャンプ系の種目の場合、過程的認識処理を用いた基本運動の認識が実行される例を説明したが、これに限定されるものではない。例えば、ジャンプ系の種目であっても、「輪とび」などのように、採点規則に認定の基準が明記される特定の技の場合は、結果的特徴量により認識結果を補正することで、認識精度の信頼性を向上させることができる。
図19は、過程的認識結果に対する結果的特徴量に基づく補正を説明する図である。図19の数値は、基本運動に対応する技の採点規則上の技番号である。類似の基本運動が行、満たすべき要件を列に対応する。ここでは、過程的認識結果を結果的特徴量による判定結果で補正し、最終的な基本運動認識結果を求める例を説明する。
例えば、過程的認識結果が「2.505」となり、基本運動として「前へ脚交差した前後開脚とびから輪」が認識されたとする(S20)。このとき、認識装置50は、認識された基本運動が予め定めた「輪とび」系に該当することから、同じ分節区間内の骨格情報を用いて、結果的特徴量を算出する。そして、認識装置50は、結果的特徴量に含まれる「左足と肩の高さの差」に基づき、「前へ脚交差した前後開脚とびから輪」の認識材料である「左足の高さ」が不足していることを検出する(S21)。
そして、認識装置50は、結果的特徴量の判定で満たすべき要件を満たさないものについて認識結果を補正する(S22)。つまり、認識装置50は、結果的特徴量用ルール56を参照し、算出した結果的特徴量を満たす基本運動を「前へ脚交差した前後開脚とび(2.305)」と判定する(S23)。このようにして、認識装置50は、過程的認識結果を結果的特徴量により認識結果を補正することで、認識精度の信頼性を向上させることができる。
[適用例]
上記実施例では、体操競技を例にして説明したが、これに限定されるものではなく、選手が一連の技を行って審判が採点する他の競技にも適用することができる。他の競技の一例としては、フィギュアスケート、新体操、チアリーディング、水泳の飛び込み、空手の型、モーグルのエアーなどがある。また、上記実施例では、18関節のいずれかの関節位置や関節間の位置などの推定にも適用することができる。また、体操に限らず、ジャンプ系と宙返り系(回転系)の両方の技があるフィギュアスケート、新体操、チアリーディングなどは、実施例1と同様、回転動作の有無により認識手法を切り替えることができる。また、リハビリなどの場合は、階段などの昇降動作の有無や歩行途中の屈伸動作の有無などにより認識手法を切り替えることができる。
上記実施例では、体操競技を例にして説明したが、これに限定されるものではなく、選手が一連の技を行って審判が採点する他の競技にも適用することができる。他の競技の一例としては、フィギュアスケート、新体操、チアリーディング、水泳の飛び込み、空手の型、モーグルのエアーなどがある。また、上記実施例では、18関節のいずれかの関節位置や関節間の位置などの推定にも適用することができる。また、体操に限らず、ジャンプ系と宙返り系(回転系)の両方の技があるフィギュアスケート、新体操、チアリーディングなどは、実施例1と同様、回転動作の有無により認識手法を切り替えることができる。また、リハビリなどの場合は、階段などの昇降動作の有無や歩行途中の屈伸動作の有無などにより認識手法を切り替えることができる。
[骨格情報]
また、上記実施例では、18個の各関節の位置を用いる学習や認識を行う例を説明したが、これに限定されるものではなく、1個以上の関節を指定して学習等を実行することもできる。また、上記実施例では、骨格情報の一例として各関節の位置を例示して説明したが、これに限定されるものではなく、各関節の角度、手足の向き、顔の向きなどを採用することができる。
また、上記実施例では、18個の各関節の位置を用いる学習や認識を行う例を説明したが、これに限定されるものではなく、1個以上の関節を指定して学習等を実行することもできる。また、上記実施例では、骨格情報の一例として各関節の位置を例示して説明したが、これに限定されるものではなく、各関節の角度、手足の向き、顔の向きなどを採用することができる。
[数値等]
上記実施例で用いた数値などがあくまで一例であり、実施例を限定するものではなく、任意に設定変更することができる。また、フレームの数や基本運動の正解情報(ラベル)の数等も一例であり、任意に設定変更することができる。また、モデルには、ニューラルネットワークに限らず、様々な機械学習や深層学習を用いることができる。
上記実施例で用いた数値などがあくまで一例であり、実施例を限定するものではなく、任意に設定変更することができる。また、フレームの数や基本運動の正解情報(ラベル)の数等も一例であり、任意に設定変更することができる。また、モデルには、ニューラルネットワークに限らず、様々な機械学習や深層学習を用いることができる。
[システム]
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。また、各3Dレーザセンサは、各装置に内蔵されていてもよく、各装置の外部装置として通信等で接続されていてもよい。
例えば、基本運動の認識と技の認識は、別々の装置で実装することもできる。また、学習装置10、認識装置50、採点装置90は、任意に組み合わせた装置で実現することもできる。なお、取得部61は、取得部の一例であり、推定部63は、第一決定部と第二決定部の一例であり、技認識部67は、出力部の一例である。
さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[ハードウェア]
次に、学習装置10、認識装置50、採点装置90などのコンピュータのハードウェア構成について説明する。なお、各装置は同様の構成を有するので、ここでは、コンピュータ100として説明し、具体例は認識装置50を例示する。
次に、学習装置10、認識装置50、採点装置90などのコンピュータのハードウェア構成について説明する。なお、各装置は同様の構成を有するので、ここでは、コンピュータ100として説明し、具体例は認識装置50を例示する。
図20は、ハードウェア構成例を説明する図である。図20に示すように、コンピュータ100は、通信装置100a、HDD(Hard Disk Drive)100b、メモリ100c、プロセッサ100dを有する。また、図20に示した各部は、バス等で相互に接続される。
通信装置100aは、ネットワークインタフェースカードなどであり、他のサーバとの通信を行う。HDD100bは、図10等に示した機能を動作させるプログラムやDBを記憶する。
プロセッサ100dは、図10に示した各処理部と同様の処理を実行するプログラムをHDD100b等から読み出してメモリ100cに展開することで、図10等で説明した各機能を実行するプロセスを動作させる。すなわち、このプロセスは、認識装置50が有する各処理部と同様の機能を実行する。具体的には、認識装置50を例にすると、プロセッサ100dは、取得部61、データ生成部62、推定部63、技認識部67等と同様の機能を有するプログラムをHDD100b等から読み出す。そして、プロセッサ100dは、取得部61、データ生成部62、推定部63、技認識部67等と同様の処理を実行するプロセスを実行する。
このようにコンピュータ100は、プログラムを読み出して実行することで認識方法を実行する情報処理装置として動作する。また、コンピュータ100は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、コンピュータ100によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。
10 学習装置
11 通信部
12 記憶部
13 距離画像
14 骨格定義
15 骨格データ
16 認識モデル
20 制御部
21 取得部
22 学習データ生成部
23 学習部
50 認識装置
51 通信部
52 記憶部
53 距離画像
54 骨格定義
55 骨格データ
56 結果的特徴量用ルール
57 学習済みの認識モデル
58 技認識ルール
60 制御部
61 取得部
62 データ生成部
63 推定部
64 判定部
65 結果的認識部
66 過程的認識部
67 技認識部
11 通信部
12 記憶部
13 距離画像
14 骨格定義
15 骨格データ
16 認識モデル
20 制御部
21 取得部
22 学習データ生成部
23 学習部
50 認識装置
51 通信部
52 記憶部
53 距離画像
54 骨格定義
55 骨格データ
56 結果的特徴量用ルール
57 学習済みの認識モデル
58 技認識ルール
60 制御部
61 取得部
62 データ生成部
63 推定部
64 判定部
65 結果的認識部
66 過程的認識部
67 技認識部
Claims (9)
- コンピュータが、
複数の基本運動を含む一連の運動を実施する被写体の各関節位置を含む骨格情報を時系列で取得し、
前記基本運動の種別により、前記基本運動の結果として定まる第一の特徴量を用いた第一の運動認識手法と、前記基本運動の過程の中で遷移する第二の特徴量を用いた第二の運動認識手法とのいずれを採用するかを決定し、
決定された前記第一の運動認識手法または前記第二の運動認識手法のいずれかにより、前記骨格情報を用いて前記基本運動の種別を決定し、
決定された前記基本運動の種別を出力する
処理を実行することを特徴とする運動認識方法。 - 前記骨格情報に基づく前記一連の運動を複数の区間に分節化することで、前記複数の基本運動を特定する処理を前記コンピュータにさらに実行させ、
前記決定する処理は、前記複数の区間それぞれについて、前記第一の運動認識手法と前記第二の運動認識手法とのいずれを採用するかを決定し、
前記決定する処理は、決定された前記第一の運動認識手法または前記第二の運動認識手法のいずれかにより、前記複数の区間それぞれの骨格情報を用いて、各区間内の基本運動それぞれについて、種別を決定し、
前記出力する処理は、決定された前記各区間の基本運動それぞれの種別を出力することを特徴とする請求項1に記載の運動認識方法。 - 前記決定する処理は、前記基本運動に属する区間内の骨格情報を用いて算出された、前記基本運動の種別に対して一意な前記第一の特徴量と前記基本運動の種別とを対応付けた対応付けルールにしたがって、前記各区間内の基本運動の種別を決定することを特徴とする請求項2に記載の運動認識方法。
- 前記決定する処理は、前記基本運動に属する区間内の骨格情報を用いて前記第二の特徴量として算出された各関節の向きを示す関節ベクトルを説明変数、前記基本運動の種別を目的変数とする学習データを用いて学習された学習モデルに、前記各区間に対応する各関節ベクトルを入力して得られる結果に基づき、前記各区間内の基本運動の種別を決定することを特徴とする請求項2に記載の運動認識方法。
- 前記決定する処理は、前記第二の運動認識手法により特定の基本運動と認識された場合、前記第一の特徴量を算出し、前記第一の特徴量を用いた前記第一の運動認識手法により、前記第二の運動認識手法の認識結果を補正することを特徴とする請求項2に記載の運動認識方法。
- 前記取得する処理は、複数の技を含む体操の演技に関して、演技者の各関節位置を含む骨格情報を時系列で取得し、
前記分節化する処理は、地面への着地または体操器具の支持の有無により、前記体操の演技を前記複数の区間に分節し、
前記決定する処理は、前記複数の区間それぞれについて、前記体操の演技が回転を行う技を含む種目か否かにより、前記第一の運動認識手法と前記第二の運動認識手法とのいずれを採用するかを決定し、
前記決定する処理は、決定された前記第一の運動認識手法または前記第二の運動認識手法のいずれかにより、各区間内の基本運動の種別を決定することを特徴とする請求項2に記載の運動認識方法。 - 前記出力する処理は、決定された前記各区間の基本運動の種別の組み合わせにより、前記一連の運動における技それぞれを識別して出力することを特徴とする請求項6に記載の運動認識方法。
- コンピュータに、
複数の基本運動を含む一連の運動を実施する被写体の各関節位置を含む骨格情報を時系列で取得し、
前記基本運動の種別により、前記基本運動の結果として定まる第一の特徴量を用いた第一の運動認識手法と、前記基本運動の過程の中で遷移する第二の特徴量を用いた第二の運動認識手法のいずれを採用するかを決定し、
決定された前記第一の運動認識手法または前記第二の運動認識手法のいずれかにより、前記骨格情報を用いて前記基本運動の種別を決定し、
決定された前記基本運動の種別を出力する
処理を実行させることを特徴とする運動認識プログラム。 - 複数の基本運動を含む一連の運動を実施する被写体の各関節位置を含む骨格情報を時系列で取得する取得部と、
前記運動の種別により、前記基本運動の結果として定まる第一の特徴量を用いた第一の運動認識手法と、前記基本運動の過程の中で遷移する第二の特徴量を用いた第二の運動認識手法のいずれを採用するかを決定する第一決定部と、
決定された前記第一の運動認識手法または前記第二の運動認識手法のいずれかにより、前記骨格情報を用いて前記基本運動の種別を決定する第二決定部と、
決定された前記基本運動の種別を出力する出力部と
を有することを特徴とする情報処理装置。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021550899A JP7409390B2 (ja) | 2019-10-03 | 2019-10-03 | 運動認識方法、運動認識プログラムおよび情報処理装置 |
EP19947501.3A EP4040386A4 (en) | 2019-10-03 | 2019-10-03 | MOTION DETECTION METHOD, MOTION DETECTION PROGRAM AND INFORMATION PROCESSING DEVICE |
PCT/JP2019/039193 WO2021064960A1 (ja) | 2019-10-03 | 2019-10-03 | 運動認識方法、運動認識プログラムおよび情報処理装置 |
CN201980100910.8A CN114467113A (zh) | 2019-10-03 | 2019-10-03 | 运动识别方法、运动识别程序以及信息处理装置 |
US17/711,028 US20220222975A1 (en) | 2019-10-03 | 2022-04-01 | Motion recognition method, non-transitory computer-readable recording medium and information processing apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/039193 WO2021064960A1 (ja) | 2019-10-03 | 2019-10-03 | 運動認識方法、運動認識プログラムおよび情報処理装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US17/711,028 Continuation US20220222975A1 (en) | 2019-10-03 | 2022-04-01 | Motion recognition method, non-transitory computer-readable recording medium and information processing apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021064960A1 true WO2021064960A1 (ja) | 2021-04-08 |
Family
ID=75337969
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2019/039193 WO2021064960A1 (ja) | 2019-10-03 | 2019-10-03 | 運動認識方法、運動認識プログラムおよび情報処理装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220222975A1 (ja) |
EP (1) | EP4040386A4 (ja) |
JP (1) | JP7409390B2 (ja) |
CN (1) | CN114467113A (ja) |
WO (1) | WO2021064960A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022244135A1 (ja) * | 2021-05-19 | 2022-11-24 | 日本電信電話株式会社 | 学習装置、推定装置、学習モデルデータ生成方法、推定方法及びプログラム |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934881B (zh) * | 2017-12-19 | 2022-02-18 | 华为技术有限公司 | 图像编码方法、动作识别的方法及计算机设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018070414A1 (ja) | 2016-10-11 | 2018-04-19 | 富士通株式会社 | 運動認識装置、運動認識プログラムおよび運動認識方法 |
WO2019116495A1 (ja) * | 2017-12-14 | 2019-06-20 | 富士通株式会社 | 技認識プログラム、技認識方法および技認識システム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3451292B1 (en) * | 2016-04-28 | 2020-02-12 | Fujitsu Limited | Skeleton estimation device, skeleton estimation method, and skeleton estimation program |
-
2019
- 2019-10-03 JP JP2021550899A patent/JP7409390B2/ja active Active
- 2019-10-03 WO PCT/JP2019/039193 patent/WO2021064960A1/ja unknown
- 2019-10-03 CN CN201980100910.8A patent/CN114467113A/zh active Pending
- 2019-10-03 EP EP19947501.3A patent/EP4040386A4/en active Pending
-
2022
- 2022-04-01 US US17/711,028 patent/US20220222975A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018070414A1 (ja) | 2016-10-11 | 2018-04-19 | 富士通株式会社 | 運動認識装置、運動認識プログラムおよび運動認識方法 |
WO2019116495A1 (ja) * | 2017-12-14 | 2019-06-20 | 富士通株式会社 | 技認識プログラム、技認識方法および技認識システム |
Non-Patent Citations (1)
Title |
---|
See also references of EP4040386A4 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022244135A1 (ja) * | 2021-05-19 | 2022-11-24 | 日本電信電話株式会社 | 学習装置、推定装置、学習モデルデータ生成方法、推定方法及びプログラム |
JP7572654B2 (ja) | 2021-05-19 | 2024-10-24 | 日本電信電話株式会社 | 学習装置、推定装置、学習モデルデータ生成方法、推定方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2021064960A1 (ja) | 2021-04-08 |
CN114467113A (zh) | 2022-05-10 |
US20220222975A1 (en) | 2022-07-14 |
JP7409390B2 (ja) | 2024-01-09 |
EP4040386A4 (en) | 2022-10-05 |
EP4040386A1 (en) | 2022-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7235133B2 (ja) | 運動認識方法、運動認識プログラムおよび情報処理装置 | |
JP6733738B2 (ja) | 運動認識装置、運動認識プログラムおよび運動認識方法 | |
CN107632698B (zh) | 基于影像的动作分析系统与方法 | |
JP7367764B2 (ja) | 骨格認識方法、骨格認識プログラムおよび情報処理装置 | |
Chaudhari et al. | Yog-guru: Real-time yoga pose correction system using deep learning methods | |
JP6943294B2 (ja) | 技認識プログラム、技認識方法および技認識システム | |
WO2017210654A2 (en) | Methods and devices for assessing a captured motion | |
JP7164045B2 (ja) | 骨格認識方法、骨格認識プログラムおよび骨格認識システム | |
JP7014304B2 (ja) | 認識方法、認識プログラム、認識装置および学習方法 | |
US20220222975A1 (en) | Motion recognition method, non-transitory computer-readable recording medium and information processing apparatus | |
US11995845B2 (en) | Evaluation method, storage medium, and information processing apparatus | |
CN108875586A (zh) | 一种基于深度图像与骨骼数据多特征融合的功能性肢体康复训练检测方法 | |
Ross et al. | Classifying elite from novice athletes using simulated wearable sensor data | |
WO2016021152A1 (ja) | 姿勢推定方法および姿勢推定装置 | |
US20220301352A1 (en) | Motion recognition method, non-transitory computer-readable storage medium for storing motion recognition program, and information processing device | |
WO2022208859A1 (ja) | 技認識方法、技認識装置および体操採点支援システム | |
JP2023178888A (ja) | 判定装置、判定方法、及びプロググラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19947501 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2021550899 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
ENP | Entry into the national phase |
Ref document number: 2019947501 Country of ref document: EP Effective date: 20220503 |