WO2021064830A1 - 評価方法、評価プログラムおよび情報処理装置 - Google Patents

評価方法、評価プログラムおよび情報処理装置 Download PDF

Info

Publication number
WO2021064830A1
WO2021064830A1 PCT/JP2019/038638 JP2019038638W WO2021064830A1 WO 2021064830 A1 WO2021064830 A1 WO 2021064830A1 JP 2019038638 W JP2019038638 W JP 2019038638W WO 2021064830 A1 WO2021064830 A1 WO 2021064830A1
Authority
WO
WIPO (PCT)
Prior art keywords
transition period
evaluation
information
model
unit
Prior art date
Application number
PCT/JP2019/038638
Other languages
English (en)
French (fr)
Inventor
雅人 阪田
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to JP2021550781A priority Critical patent/JP7248137B2/ja
Priority to PCT/JP2019/038638 priority patent/WO2021064830A1/ja
Publication of WO2021064830A1 publication Critical patent/WO2021064830A1/ja
Priority to US17/683,151 priority patent/US11995845B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63BAPPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
    • A63B24/00Electric or electronic controls for exercising apparatus of preceding groups; Controlling or monitoring of exercises, sportive games, training or athletic performances
    • A63B24/0062Monitoring athletic performances, e.g. for determining the work of a user on an exercise apparatus, the completed jogging or cycling distance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/003Repetitive work cycles; Sequence of movements
    • G09B19/0038Sports
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63BAPPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
    • A63B24/00Electric or electronic controls for exercising apparatus of preceding groups; Controlling or monitoring of exercises, sportive games, training or athletic performances
    • A63B24/0062Monitoring athletic performances, e.g. for determining the work of a user on an exercise apparatus, the completed jogging or cycling distance
    • A63B2024/0068Comparison to target or threshold, previous performance or not real time comparison to other individuals
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63BAPPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
    • A63B24/00Electric or electronic controls for exercising apparatus of preceding groups; Controlling or monitoring of exercises, sportive games, training or athletic performances
    • A63B24/0062Monitoring athletic performances, e.g. for determining the work of a user on an exercise apparatus, the completed jogging or cycling distance
    • A63B2024/0071Distinction between different activities, movements, or kind of sports performed
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63BAPPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
    • A63B2220/00Measuring of physical parameters relating to sporting activity
    • A63B2220/05Image processing for measuring physical parameters
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63BAPPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
    • A63B71/00Games or sports accessories not covered in groups A63B1/00 - A63B69/00
    • A63B71/06Indicating or scoring devices for games or players, or for other sports activities
    • A63B71/0605Decision makers and devices using detection means facilitating arbitration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20036Morphological image processing
    • G06T2207/20044Skeletonization; Medial axis transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30221Sports video; Sports image

Definitions

  • the present invention relates to an evaluation method, an evaluation program, and an information processing device.
  • the movements of people are automatically recognized using the skeletal information of people such as athletes and patients.
  • a technique of automatically recognizing a performer's skill, performing automatic scoring, and evaluating the performance of the target person is used as an example of movement.
  • a plurality of frames can be divided into a plurality of groups in a time series. Classify. Then, for each group, the type of basic movement corresponding to the group is identified based on the movement of the feature points included in the continuous frames. After that, the skill and difficulty of the exercise performed by the performer are evaluated based on the order of the types of basic exercises corresponding to the consecutive groups in chronological order.
  • the degree of recovery of the subject can be evaluated more accurately by evaluating the transitional part that is not walking in addition to the evaluation of the predetermined movement (walking) alone. In this way, in addition to the operation, it is required to evaluate the transition part between the operation and the operation.
  • the skill of the performer corresponding to the type of basic exercise is specified, even if a non-basic exercise is extracted, it is necessary to specify whether the extracted part is a transition part or another movement. Cannot be evaluated correctly.
  • One aspect is to provide an evaluation method, an evaluation program, and an information processing device capable of evaluating a transitional part between operations.
  • the computer executes a process of acquiring skeletal information based on the position information of the joints of the subjects performing a plurality of actions in chronological order.
  • the evaluation method is a process in which a computer specifies a transition period between a first operation included in the plurality of operations and a second operation following the first operation based on the time-series skeleton information. Execute.
  • the computer inputs the skeleton information corresponding to the specified transition period into the evaluation model trained to evaluate the transition period between operations based on the skeleton information, and evaluates the transition period. , The process of outputting the evaluation result of the transition period is executed.
  • FIG. 1 is a diagram showing an overall configuration example of the system according to the first embodiment.
  • FIG. 2 is a functional block diagram showing a functional configuration of the learning device according to the first embodiment.
  • FIG. 3 is a diagram illustrating a distance image.
  • FIG. 4 is a diagram illustrating a skeleton definition.
  • FIG. 5 is a diagram illustrating skeletal data.
  • FIG. 6 is a diagram for explaining frame information.
  • FIG. 7 is a diagram illustrating the generation of learning data.
  • FIG. 8 is a diagram illustrating learning data.
  • FIG. 9 is a diagram illustrating learning of the transitional partial evaluation model.
  • FIG. 10 is a functional block diagram showing a functional configuration of the recognition device according to the first embodiment.
  • FIG. 10 is a functional block diagram showing a functional configuration of the recognition device according to the first embodiment.
  • FIG. 11 is a functional block diagram showing a functional configuration of the scoring device according to the first embodiment.
  • FIG. 12 is a diagram showing an example of a scoring image.
  • FIG. 13 is a flowchart showing the learning flow of the transitional partial evaluation model.
  • FIG. 14 is a flowchart showing the flow of the recognition process.
  • FIG. 15 is a diagram showing a verification example determined to have a combination.
  • FIG. 16 is a diagram showing a verification example in which it is determined that there is no combination.
  • FIG. 17 is a diagram illustrating a verification example of combination determination.
  • FIG. 18 is a diagram illustrating an example of determining a random number at the cutout location.
  • FIG. 19 is a diagram illustrating another example of the recognition process of the transition portion.
  • FIG. 20 is a diagram illustrating identification of known transitional portions.
  • FIG. 21 is a diagram illustrating a hardware configuration example.
  • FIG. 1 is a diagram showing an overall configuration example of the system according to the first embodiment.
  • this system has a 3D (Three-Dimensional) laser sensor 5, a learning device 10, a recognition device 50, and a scoring device 90, and captures three-dimensional data of the performer 1 who is the subject.
  • It is a system that recognizes the skeleton and scores accurate techniques.
  • this embodiment as an example, an example of recognizing the skeletal information of a performer in a gymnastics competition will be described.
  • the current scoring method in gymnastics is visually performed by a plurality of graders, but with the sophistication of techniques, it is becoming more difficult for the graders to visually score.
  • an automatic scoring system and a scoring support system for scoring competitions using a 3D laser sensor have been known.
  • a distance image which is three-dimensional data of the athlete, is acquired by a 3D laser sensor, and the skeleton such as the orientation of each joint of the athlete and the angle of each joint is recognized from the distance image.
  • the scoring support system the result of skeleton recognition is displayed by a 3D model to support the grader to perform more correct scoring by confirming the detailed situation of the performer.
  • the performance technique is recognized from the result of skeleton recognition, and scoring is performed according to the scoring rule.
  • D score that indicates the total score of the techniques performed during the performance
  • E score that indicates the performance of the performance
  • a referee is assigned to each score.
  • D score calculation There are techniques as a component of D score calculation, and each technique is given a difficulty level such as A or B, and the points to be added differ depending on the difficulty level.
  • scoring is performed according to the combination of techniques, such as women's balance beam, floor, uneven bars, men's floor, and horizontal bar.
  • a combination of certain types of techniques is required as part of the configuration request (CR), and if a combination of techniques with a certain difficulty level or higher is approved, a combination point (CV) ) And series bonus (SB) are added.
  • CR configuration request
  • CV combination point
  • SB series bonus
  • a model is used in which a distance image, which is three-dimensional data of a player, is input to automatically recognize the technique.
  • a method of defining the feature amount of the technique is generally used.
  • a method of automatically recognizing by a rule base or a learning model in which a distance image or a transition of a distance image is machine-learned as learning data is used. The method to be used is known.
  • the combination between moves is "stopping between moves, extra steps between moves, and foot touching the platform between moves" at the transition.
  • Losing the balance between moves, and before the railroad crossing of the second move, the first move clearly stretches the legs or hips, and there is no extra arm swing. It is difficult to manually define all the features of such behavior, and it is difficult to evaluate the transition part on a rule basis and detect the combination.
  • taking the balance beam as an example there are various patterns of combinations such as combinations of acrobatics (acro), combinations of dance (jump, hop, turn), and a mixture of acro and dance. It is difficult to manually classify cases and make all rules.
  • Example 1 deep learning is adopted as a method that does not manually define the feature amount.
  • the recognition device 50 executes the recognition of the technique and the evaluation of the transition portion by using the technique recognition model for performing the technique recognition and the transition portion evaluation model for evaluating the transition portion.
  • the technique recognition model preprocesses the skeleton information acquired in time series, inputs the relative coordinate data and edge data obtained by the preprocessing, and outputs the technique recognition result.
  • the model for evaluation of the transition part corresponds to the combination between the technique and the technique by preprocessing the skeleton information of the corresponding transition part between the techniques and inputting the relative coordinate data and edge data obtained by the preprocessing. Outputs the likelihood indicating whether or not to do so.
  • the recognition device 50 recognizes the motion (technique) based on the time-series skeletal information, and automatically evaluates the transition portion (combination of techniques) of the motion.
  • FIG. 2 is a functional block diagram showing a functional configuration of the learning device 10 according to the first embodiment.
  • the learning device 10 includes a communication unit 11, a storage unit 12, and a control unit 20.
  • the communication unit 11 is a processing unit that controls communication with other devices, such as a communication interface.
  • the communication unit 11 receives the distance image of the performer 1 taken by the 3D laser sensor 5, receives various data and instructions from the administrator terminal and the like, and transmits each trained model to the recognition device 50. ..
  • the storage unit 12 is a storage device that stores data, a program executed by the control unit 20, and the like, and is, for example, a memory and a processor.
  • the storage unit 12 stores a distance image 13, a skeleton definition 14, skeleton data 15, frame information 16, a technique recognition model 17, and a transition part evaluation model 18.
  • the distance image 13 is a distance image of the performer 1 captured by the 3D laser sensor 5.
  • FIG. 3 is a diagram illustrating a distance image. As shown in FIG. 3, the distance image 13 is data including the distance from the 3D laser sensor 5 to the pixels, and the closer the distance from the 3D laser sensor 5 is, the darker the color is displayed.
  • the skeleton definition 14 is definition information for identifying each joint on the skeleton model.
  • the definition information stored here may be measured for each performer by 3D sensing with a 3D laser sensor, or may be defined using a skeleton model of a general system.
  • FIG. 4 is a diagram for explaining the skeleton definition 14.
  • the skeleton definition 14 stores 18 definition information (Nos. 0 to 17) in which each joint specified by a known skeleton model is numbered.
  • the right shoulder joint SHOULDER_RIGHT
  • the left elbow joint ELBOW_LEFT
  • the left knee joint KNEE_LEFT
  • the right hip joint HIP_RIGHT
  • the X coordinate of the 7th right shoulder joint may be described as X7
  • the Y coordinate may be described as Y7
  • the Z coordinate may be described as Z7.
  • the Z-axis can be defined as the distance direction from the 3D laser sensor 5 toward the target
  • the Y-axis can be defined as the height direction perpendicular to the Z-axis
  • the X-axis can be defined as the horizontal direction.
  • the skeleton data 15 is data including information about the skeleton generated by using each distance image. Specifically, the skeleton data 15 includes the positions of the joints defined in the skeleton definition 14 acquired using the distance image.
  • FIG. 5 is a diagram illustrating skeleton data 15. As shown in FIG. 5, the skeleton data 15 is information to which "frames, image information, and skeleton information" are associated.
  • the "frame” is an identifier that identifies each frame imaged by the 3D laser sensor 5
  • the "image information” is data of a distance image in which the positions of joints and the like are known.
  • the "skeleton information” is the three-dimensional position information of the skeleton, and is the joint position (three-dimensional coordinates) corresponding to each of the 18 joints shown in FIG.
  • the positions of 18 joints including the coordinates “X3, Y3, Z3” of the HEAD are known in the “image data A1” which is a distance image.
  • the joint position can be extracted by using, for example, a learning model learned in advance and a learning model that extracts each joint position from a distance image.
  • the frame information 16 is information used for learning a model for evaluation of transitional parts, which will be described later, and is frame information related to a distance image captured during the performance of a certain performer.
  • FIG. 6 is a diagram for explaining the frame information 16. As shown in FIG. 6, the frame information 16 is information to which "element, motion, start, end" are associated.
  • “Element” is information indicating the type of technique performed. “Motion” is information indicating whether or not it is an operation, and “element” is set when it corresponds to a technique, and “combination” is set when it corresponds to a combination, and it does not correspond to a combination. In the case of the transition part, “none” is set. “Start, end” indicates the start frame and end frame of motion. In the example of FIG. 6, it is shown that frames 727 to 741 corresponding to “combination” are used as teacher data with a combination (label “1”), and frames 57 to 186 corresponding to “none” are combined. Indicates that it is used as teacher data with nothing (label “0").
  • the technique recognition model 17 is a learning model that recognizes whether or not a technique is performed based on edge data generated from time-series skeleton information, and uses a neural network or the like learned by the technique recognition learning unit 30 described later. It is a model.
  • the transition part evaluation model 18 is a learning model that evaluates the transition part based on edge data generated from time-series skeletal information, and is a model using a neural network or the like learned by the evaluation learning unit 40 described later. Is. This transitional evaluation model 18 "stops between moves, extra steps between moves, the foot touches the platform between moves, loses balance between moves, Before the railroad crossing of the second technique, the first technique is learned to evaluate the transition period that does not correspond to "extra arm swing, which clearly stretches the legs or hips" as a combination.
  • the control unit 20 is a processing unit that controls the entire learning device 10, and is, for example, a processor.
  • the control unit 20 has a technique recognition learning unit 30 and an evaluation learning unit 40, and executes learning of the technique recognition model 17 and the transition partial evaluation model 18.
  • the technique recognition learning unit 30 and the evaluation learning unit 40 are an example of an electronic circuit such as a processor and an example of a process possessed by the processor or the like.
  • the technique recognition learning unit 30 has a preprocessing unit 31, a learning data generation unit 32, and a learning unit 33, and is a processing unit that executes learning of the technique recognition model 17 and generates a technique recognition model 17.
  • the pre-processing unit 31 is a processing unit that calculates edge data from skeletal information of 18 joints in order to execute learning of the technique recognition model 17.
  • the preprocessing unit 31 acquires a technique name preset by the administrator or the like for the "element".
  • the preprocessing unit 31 determines a predetermined number (for example, 60) of cutout points with random numbers so as to include the specified frames, and acquires the skeleton data 15 corresponding to each of the determined frames.
  • the preprocessing unit 31 acquires 60 frames from the frames.
  • the preprocessing unit 31 calculates edge data from the skeleton data 15 corresponding to each acquired frame.
  • the preprocessing unit 31 reads out the skeleton information from each skeleton data 15 of each of the 60 frames. Then, the preprocessing unit 31 calculates edge data, which is data representing the orientation of the connected skeletons (between joints), for each of the 18 joints, using each skeleton information and the equation (1). After that, the preprocessing unit 31 outputs the edge data corresponding to each joint to the learning data generation unit 32.
  • the preprocessing unit 31 generates one edge data for each of the 18 joints by combining the edge data calculated from the skeleton information of 60 frames.
  • x, y, z indicate the coordinates
  • i indicates the number of joints
  • e i, x indicates the size of the i-th joint in the x-axis direction
  • e i, y indicates i.
  • the size of the th-th joint in the y-axis direction is shown
  • e i and z indicate the size of the i-th joint in the z-axis direction.
  • the learning data generation unit 32 is a processing unit that generates learning data used for learning the technique recognition model 17 by using edge data generated using time-series skeleton information. For example, the learning data generation unit 32 acquires the edge data of each joint corresponding to the section (movement part) corresponding to the technique and the name of the technique from the preprocessing unit 31. Then, the learning data generation unit 32 generates learning data in which the edge data of each joint and the technique name are associated with each other. After that, the learning data generation unit 32 stores the learning data in the storage unit 12 and outputs it to the learning unit 33.
  • the learning unit 33 is a processing unit that executes learning of the technique recognition model 17. Specifically, the learning unit 33 learns the neural network used in the technique recognition model 17 by using each edge data of the learning data as an explanatory variable and the technique name of the learning data as an objective variable (label). That is, the learning unit 33 learns the technique recognition model 17 that recognizes the technique by using the change in the edge data of each joint in the time series as a feature amount.
  • the learning unit 33 inputs the edge data of each joint acquired from a predetermined motion section into the technique recognition model 17 as one input data, and determines the degree of matching (likelihood) of each technique assumed in advance. Obtained from the recognition model 17. Then, the learning unit 33 reverse-propagates the error based on the error between the output result and the label so that the likelihood of the technique name of the label, which is the correct answer information, is the largest among the likelihoods of each technique included in the output result.
  • Each parameter of the neural network is learned by the method.
  • the learning unit 33 executes the learning of the technique recognition model 17 using each learning data, and when the learning is completed, stores the learned technique recognition model 17 in the storage unit 12.
  • the timing of ending the learning can be arbitrarily set, such as when the learning using a predetermined number or more of the learning data is completed or when the restoration error becomes less than the threshold value.
  • the evaluation learning unit 40 has a section determination unit 41, a preprocessing unit 42, a learning data generation unit 43, and a learning unit 44, and is a processing unit that executes learning of the transitional partial evaluation model 18. ..
  • the pre-processing unit 42 is a processing unit that calculates edge data from the skeletal information of 18 joints in order to execute learning of the transition part evaluation model 18. Specifically, the preprocessing unit 42 determines a predetermined number (for example, 60) of cutout points from the frame of the section determined by the section determination unit 41 with random numbers, and acquires the skeleton data 15 corresponding to the determined frame. To do. After that, the preprocessing unit 42 calculates the edge data corresponding to each of the 18 joints from the skeleton data 15 using the equation (1), and outputs the calculation result to the learning data generation unit 43.
  • a predetermined number for example, 60
  • the learning data generation unit 43 is a processing unit that generates learning data to be used for learning the transition part evaluation model 18 by using the edge data generated using the time-series skeleton information. Specifically, the learning data generation unit 43 has edge data (edge data before cutting out) corresponding to a predetermined section input from the preprocessing unit 42 and edge data corresponding to the technique portion from the edge data for each of the 18 joints. Data excluding (edge data after cutting out) is generated. Then, the learning data generation unit 43 generates learning data in which the pre-cutting edge data for each of the 18 joints, the post-cutting edge data for each of the 18 joints, and the label (correct answer information) are associated with each other.
  • FIG. 7 is a diagram illustrating the generation of learning data.
  • the learning data generation unit 43 sets the edge data corresponding to the frames 704 to 763 as the edge data before cutting out.
  • the learning data generation unit 43 excludes the technical part from the frame 763 from the frame 704, and generates the edge data after cutting out the frame 741 from the frame 727 of the transition part.
  • the learning data generation unit 43 generates learning data in which the edge data before cutting, the edge data after cutting, and the label (1) are associated with each other.
  • FIG. 8 is a diagram for explaining the learning data.
  • the learning data generation unit 43 includes input data as explanatory variables for each section of the technique portion (a), the combination between techniques (b), and the combination between techniques (c). Generate training data including output data that is the objective variable.
  • FIG. 8 for simplification of the description, only one joint is shown, but in reality, edge data of 18 joints are associated with each other.
  • pre-cutting edge data including the technique part as input data
  • post-cutting edge data in which the technique part of the input data is removed as output data A
  • the portion (b) having a combination between techniques the technique portion and the pre-cutting edge data including the combination as the input data
  • the learning unit 44 is a processing unit that executes learning of the transitional partial evaluation model 18. Specifically, the learning unit 44 uses the edge data (for 18 joints) before cutting out the learning data as an explanatory variable, the edge data (for 18 joints) after cutting out the learning data, or the determination result of the presence or absence of a combination as the objective variable. The neural network used in the transition partial evaluation model 18 is learned.
  • the transition part evaluation model 18 includes a model A for cutting out the transition part and a model B for evaluating the transition part, and each model is configured by using an autoencoder. That is, the learning unit 44 uses the change in the edge data of each joint in the time series as a feature amount to extract the transition part, and the model B that evaluates the transition part using the change in the time series of the transition part as the feature amount.
  • a model 18 for transitional evaluation including and is trained.
  • FIG. 9 is a diagram illustrating learning of the transitional partial evaluation model 18.
  • the learning unit 44 inputs the input data (edge data) composed of "technique A, inter-technique, and technique B" into the model A, the model A has the inter-technique excluding the technique part. Output the edge data of. Then, the learning unit 44 learns the model A based on the difference between the output of the model A and the cut-out edge data included in the learning data.
  • the model B restores the edge data between the techniques input to the model A.
  • the learning unit 44 acquires the determination result of the presence / absence of the combination from the model B (for example, the output of the encoder), and based on the difference between the acquired determination result of the presence / absence of the combination and the correct answer information (label) included in the learning data. , Perform model B training.
  • the above-mentioned flow of FIG. 9 will be specifically described using the learning data with the combination shown in FIG. 8 (b).
  • the learning unit 44 inputs the input data (edge data before cutting out) including the technique, the technique, and the technique into the model A, and acquires the output result in which the transition portion is cut out by the model A. Then, the learning unit 44 learns the model A by using an error back propagation method or the like so that the error between the output result of the model A and the output data A in the learning data is minimized.
  • the learning unit 44 inputs the output result of the model A to the model B, and acquires the determination result of the presence / absence of the combination from the model B. Then, the learning unit 44 learns the model B by using an error back propagation method or the like so as to minimize the error between the determination result of the presence or absence of the combination acquired from the model B and the output data B in the learning data.
  • the learning unit 44 executes learning of the transitional partial evaluation model 18 including the model A and the model B using each learning data, and when the learning is completed, the learned transitional partial evaluation model 18 is completed. Is stored in the storage unit 12.
  • the timing of ending the learning can be arbitrarily set, such as when the learning using a predetermined number or more of the learning data is completed or when the restoration error becomes less than the threshold value.
  • FIG. 10 is a functional block diagram showing a functional configuration of the recognition device 50 according to the first embodiment.
  • the recognition device 50 includes a communication unit 51, a storage unit 52, and a control unit 60.
  • the communication unit 51 is a processing unit that controls communication with other devices, such as a communication interface.
  • the communication unit 51 receives the distance image of the performer 1 taken by the 3D laser sensor 5, acquires various learned models from the learning device 10, and transmits the recognition result to the scoring device.
  • the storage unit 52 is a storage device that stores data, a program executed by the control unit 60, and the like, and is, for example, a memory and a processor.
  • the storage unit 52 stores the distance image 53, the technique recognition model 54, the transition part evaluation model 55, the skeleton data 56, and the edge data 57.
  • the distance image 53 is a distance image of the performer 1 captured by the 3D laser sensor 5, and is, for example, a distance image of the performance of the performer to be scored.
  • the distance image 53 is captured at any time during the performance of the performer 1.
  • the technique recognition model 54 is a learned technique recognition model acquired from the learning device 10. When the edge data of 18 joints corresponding to a certain section is input as input data, the technique recognition model 54 outputs the probability (likelihood) corresponding to each technique designated in advance.
  • the transition part evaluation model 55 is a trained transition part evaluation model acquired from the learning device 10. When the edge data of 18 joints corresponding to a certain section is input as input data, the transition partial evaluation model 55 outputs the probability (likelihood) corresponding to the combination between techniques.
  • the skeleton data 56 is data including information about the skeleton generated by using each distance image. Specifically, the skeleton data 56 is the position of each joint defined in the skeleton definition 14 acquired by using the distance image. Since the skeleton data 56 is the same information as the skeleton data 15 shown in FIG. 5, detailed description thereof will be omitted.
  • the edge data 57 is each edge data of 18 joints calculated using the skeleton information of the skeleton data 56.
  • the edge data 57 is data representing the orientation of the connected skeletons (between joints).
  • the control unit 60 is a processing unit that controls the entire recognition device 50, such as a processor.
  • the control unit 60 has a skeleton information generation unit 61, a preprocessing unit 62, a technique recognition unit 63, a combination evaluation unit 64, and an output unit 65, and executes technique recognition and combination determination between techniques.
  • the skeleton information generation unit 61, the preprocessing unit 62, the technique recognition unit 63, the combination evaluation unit 64, and the output unit 65 are examples of electronic circuits such as processors and examples of processes possessed by the processors.
  • the skeleton information generation unit 61 is a processing unit that generates skeleton information including the positions of 18 joints from each distance image captured by the 3D laser sensor 5. For example, the skeleton information generation unit 61 executes background subtraction, noise correction, and the like on the distance image to generate 3D point cloud data. In addition, the skeleton information generation unit 61 generates low-precision skeleton information that specifies 16 joint positions from the 3D point cloud data. Then, the skeleton information generation unit 61 executes fitting of the skeleton and the point cloud using the low-precision skeleton information and the 3D point cloud data, and generates high-precision skeleton information. After that, the skeleton information generation unit 61 stores the frame number corresponding to the distance image, and the skeleton data 56 in which the distance image and the skeleton information are associated with each other in the storage unit 52.
  • a trained model that recognizes skeleton information from a distance image or 3D point cloud data can also be used to generate low-precision skeleton information. Further, the skeleton information in the skeleton data 15 in the learning device 10 can also be generated by the same method.
  • the pre-processing unit 62 is a processing unit that generates edge data from each skeleton information. Specifically, the pre-processing unit 62 generates each edge data of 18 joints as a pre-processing of the technique recognition process or the combination determination process using each model. For example, the preprocessing unit 62 calculates the edge data 57 of each joint by using the equation (1) and the skeleton information of each skeleton data 56 as in the learning device 10. Then, the preprocessing unit 62 stores the frame and the edge data 57 of each joint in association with each other in the storage unit 52.
  • the technique recognition unit 63 is a processing unit that executes technique recognition using the edge data of the performer 1 acquired in time series and the technique recognition model 54. Specifically, the technique recognition unit 63 inputs the edge data 57 of 18 joints corresponding to the frame of a certain section into the technique recognition model 54 as one input data, and each technique is output as an output result of the technique recognition model 54. To get the likelihood of. Then, the technique recognition unit 63 sets the technique corresponding to the highest likelihood among the likelihoods included in the output result as the technique recognition result. At this time, if any of the likelihoods corresponding to each technique is less than the threshold value, it can be determined that there is no corresponding technique.
  • the technique recognition unit 63 inputs each edge data generated from the frame 1 to the frame 60 into the technique recognition model 54, and determines whether or not the technique is based on the output result of the technique recognition model 54. .. Subsequently, the technique recognition unit 63 inputs each edge data generated from the frame 2 to the frame 61 into the technique recognition model 54, and determines whether or not the technique is based on the output result of the technique recognition model 54. To do. Subsequently, the technique recognition unit 63 inputs each edge data generated from the frame 3 to the frame 63 into the technique recognition model 54, and based on the output result of the technique recognition model 54, determines whether or not the technique is a technique. judge.
  • the technique recognition unit 63 repeatedly executes the technique recognition of the performer 1 using the edge data based on the distance image obtained by capturing each performance of the performer 1, and combines the recognition results into the evaluation unit 64 and the output. It is output to the unit 65 or stored in the storage unit 52.
  • the combination evaluation unit 64 is a processing unit that evaluates the transition portion by using the edge data of the performer 1 acquired in time series and the transition portion evaluation model 55. For example, the combination evaluation unit 64 inputs each edge data of 18 joints as one input data into the model A of the transition part evaluation model 55, and generates edge data corresponding to the transition part from which the technique part has been removed. To do. Subsequently, the combination evaluation unit 64 inputs the edge data corresponding to the transition portion, which is the output result of the model A, into the model B, and acquires the probability (likelihood) corresponding to the combination. Then, the combination evaluation unit 64 outputs the likelihood as a combination determination result (evaluation result) to the output unit 65 or stores it in the storage unit 52.
  • the combination evaluation unit 64 also shifts the frames one by one to change the input data and repeats the evaluation of the combination. Further, the determination result of the presence or absence of the combination is output with a likelihood of about 0 (without combination) to 1 (with combination). Therefore, the presence or absence of the combination may be output with 0.5 as the threshold value, and if the value is close to 0.5 (for example, 0.4 to 0.6), it can be regarded as unevaluable.
  • the output unit 65 is a processing unit that outputs the recognition result of the technique and the determination result of the combination.
  • the output unit 65 outputs the recognition result of the technique acquired from the technique recognition unit 63 and the evaluation result of the combination acquired from the combination evaluation unit 64 to the scoring device 90 or outputs to a display unit such as a display.
  • the output unit 65 can also output the frame number used for determining the technique together with the recognition result of the technique, and the frame number used for the evaluation of the combination together with the evaluation result of the combination.
  • FIG. 11 is a functional block diagram showing a functional configuration of the scoring device 90 according to the first embodiment.
  • the scoring device 90 includes a communication unit 91, a storage unit 92, and a control unit 94.
  • the communication unit 91 receives the recognition result of the technique, the evaluation result of the combination between the techniques, the skeleton information of the performer (three-dimensional skeleton position information), and the like from the recognition device 50.
  • the storage unit 92 is an example of a storage device that stores data, a program executed by the control unit 94, and the like, such as a memory and a hard disk.
  • the storage unit 92 stores the technical information 93.
  • the technique information 93 is information in which the name of the technique, the difficulty level, the score, the position of each joint, the angle of the joint, the scoring rule, and the like are associated with each other.
  • the technique information 93 also includes combination scoring information in which combinations between techniques and scores are associated with each other.
  • the control unit 94 is a processing unit that controls the entire scoring device 90, such as a processor.
  • the control unit 94 has a scoring unit 95 and an output control unit 96, and scores the performer according to the information input to the recognition device 50.
  • the scoring unit 95 is a processing unit that executes scoring of the performer's skill and scoring of the performer's performance. Specifically, the scoring unit 95 compares the recognition result and the evaluation result of the combination of the technique transmitted from the recognition device 50 at any time with the technique information 93, and scores the technique and the performance performed by the actor 1. Execute. Then, the scoring unit 95 outputs the scoring result to the output control unit 96.
  • the output control unit 96 is a processing unit that displays the scoring result of the scoring unit 95 on a display or the like.
  • the output control unit 96 receives a performance image, a distance image captured by each 3D laser sensor, three-dimensional skeleton information generated by the recognition device 50, and each image data during the performance of the performer 1 from the recognition device 50. , Acquires various information such as scoring results and displays them on a predetermined screen.
  • FIG. 12 is a diagram showing an example of a scoring image.
  • the scoring image includes the image of the performer 1, the 3D image data during the performance of the performer 1, the D score, the SM (Symbol Mark) showing the actual technique, and the difficulty of the actual technique.
  • DV Deniculty Value
  • EG Element Group
  • the interval corresponding to the combination is displayed under each technique of SM.
  • FIG. 13 is a flowchart showing the learning flow of the transitional partial evaluation model. As shown in FIG. 13, the evaluation learning unit 40 of the learning device 10 determines which section of the frame information 16 is to be cut out as learning data (S101).
  • the evaluation learning unit 40 determines a cutout portion from the determined section with a random number (S102), and cuts out the skeleton data from the determined portion (S103). Then, the evaluation learning unit 40 executes preprocessing on each skeleton data and calculates edge data for 18 joints (S104).
  • the evaluation learning unit 40 After that, the evaluation learning unit 40 generates each edge data of the transition part (between the techniques) excluding the technique part (movement part) from each edge data obtained in the preprocessing (S105), and generates the learning data. (S106). Then, the evaluation learning unit 40 executes learning of the transitional partial evaluation model 18 using the learning data (S107).
  • FIG. 14 is a flowchart showing the flow of the recognition process. As shown in FIG. 14, when the processing start is instructed (S201: Yes), the recognition device 50 acquires a distance image (S202) and generates skeleton information (S203).
  • the recognition device 50 generates edge data for 18 joints from the skeleton information (S204), inputs each edge data into the technique recognition model 54, and acquires the result of the technique recognition (S205).
  • the recognition device 50 cuts out an evaluation portion from the acquired frame (S206), inputs edge data for 18 joints corresponding to the cut out portion into the transition portion evaluation model 18, and evaluates the transition portion. (S207).
  • the recognition device 50 determines that the transition portion is a combination (S209), and the output result does not have a likelihood equal to or higher than the threshold value. (S208: No), it is determined that the transition portion is not a combination (S210).
  • the learning device 10 prepares a model A that calculates edge data from time-series skeleton data and outputs data of a transition portion from the edge data. From the data output from the learning device 10 model A, a model B that outputs the evaluation result of the transition portion is prepared. Then, the learning device 10 inputs edge data to the transition portion evaluation model 55 in which the model A and the model B are connected, and learns the transition portion data and the evaluation result as an output. After that, the recognition device 50 uses the transition part evaluation model 55 as an input to determine the presence or absence of the combination.
  • the recognition device 50 acquires skeletal information based on the position information of the joints of the subjects that execute a plurality of movements in chronological order.
  • the recognition device 50 specifies a transition period between the first operation included in the plurality of operations and the second operation following the first operation, based on the skeleton information of the time series. Then, the recognition device 50 can evaluate the transition period by inputting the skeleton information corresponding to the specified transition period. As a result, the recognition device 50 can evaluate the transitional portion between actions.
  • the transition part can be evaluated accurately, the combination points (CV) and series bonus (SB) in gymnastics and the like can be accurately given.
  • CV combination points
  • SB series bonus
  • the technique recognition model 17 and the transition part evaluation model 18 can be followed by re-learning the technique recognition model 17 and the transition part evaluation model 18, so that the automatic scoring system can be used. Reliability and versatility can be improved.
  • FIG. 15 is a diagram showing a verification example determined to have a combination
  • FIG. 16 is a diagram showing a verification example determined to have no combination.
  • the input data input to the model A of the transitional partial evaluation model and the output data output by the model A of the transitional partial evaluation model are displayed for a certain joint.
  • the horizontal axis of each graph is the number of frames, and the vertical axis is the normalized value of the coordinates.
  • FIG. 17 is a diagram illustrating a verification example of combination determination.
  • the upper figure of FIG. 17 shows the determination result of the combination by the recognition device 50
  • the lower figure of FIG. 17 shows the scoring result by the referee.
  • both will be described in comparison.
  • the referee recognizes the combination between the frame 125 to the frame 140, the frame 1168 to the frame 1173, and the frame 2637 to the frame 2369.
  • the recognition device 50 can be used to accurately determine the combination between techniques.
  • FIG. 18 is a diagram illustrating an example of determining a random number at the cutout location.
  • the probability distribution at the time of cutting out is a normal distribution.
  • Example 1 For example, in Example 1, a transition portion is extracted using the model A of the transition portion evaluation model 55, and then the transition portion is evaluated using the model B of the transition portion evaluation model 55. , Not limited to this. For example, when the transition portion is known in advance, the evaluation of the transition portion can be performed using only the model B of the transition portion evaluation model 55.
  • FIG. 19 is a diagram illustrating another example of the recognition process of the transition portion.
  • the recognition device 50 uses the edge data of the transition portion as the model 55 for evaluation of the transition portion. Input to model B instead of model A. Then, the recognition device 50 acquires the determination result of the presence / absence of the combination from the model B of the transition portion evaluation model 55, and evaluates whether the input transition portion corresponds to the combination or is a mere transition portion.
  • FIG. 20 is a diagram illustrating identification of a known transitional portion.
  • the frame 1 to the frame 60 are recognized as the technique A
  • the frames 61 to 120 are not recognized as the technique
  • the frame 121 to the frame 181 are recognized as the technique B.
  • the combination evaluation unit 64 can specify the frame 61 to the frame 120 as the transition portion, directly input the edge data of the transition portion into the model B of the transition portion evaluation model 55, and the transition portion is combined. Evaluate whether or not it corresponds to. As a result, the time required for evaluation of the transition portion can be shortened, and the real-time property can be improved.
  • the gymnastics competition has been described as an example, but the present invention is not limited to this, and can be applied to other competitions in which the athlete performs a series of techniques and the referee scores.
  • sports include figure skating, rhythmic gymnastics, cheerleading, swimming diving, karate kata, and mogul air.
  • figure skating it is possible to evaluate whether or not extra movement is included at the transition between the first jump landing and the second jump start.
  • posture detection of drivers of trucks, taxis, trains, etc. and posture detection of pilots For example, when applied to health care, it is possible to evaluate whether or not there is any extra movement between the time when the foot is off the ground and the time when the same foot is landed on the ground again.
  • each component of each device shown in the figure is a functional concept, and does not necessarily have to be physically configured as shown in the figure. That is, the specific forms of distribution and integration of each device are not limited to those shown in the figure. That is, all or a part thereof can be functionally or physically distributed / integrated in any unit according to various loads, usage conditions, and the like. Further, each 3D laser sensor may be built in each device, or may be connected by communication or the like as an external device of each device.
  • technique recognition and combination evaluation can be implemented in separate devices.
  • the learning device 10, the recognition device 50, and the scoring device 90 can be realized by any combination of devices.
  • the skeleton information generation unit 61 is an example of an acquisition unit
  • the combination evaluation unit 64 is an example of a specific unit and an evaluation unit
  • the output unit 65 is an example of an output unit.
  • each processing function performed by each device can be realized by a CPU and a program that is analyzed and executed by the CPU, or can be realized as hardware by wired logic.
  • FIG. 21 is a diagram illustrating a hardware configuration example.
  • the computer 100 includes a communication device 100a, an HDD (Hard Disk Drive) 100b, a memory 100c, and a processor 100d. Further, the parts shown in FIG. 21 are connected to each other by a bus or the like.
  • HDD Hard Disk Drive
  • the communication device 100a is a network interface card or the like, and communicates with other servers.
  • the HDD 100b stores a program or DB that operates the functions shown in FIG. 10 and the like.
  • the processor 100d reads a program that executes the same processing as each processing unit shown in FIG. 10 from the HDD 100b or the like and expands the program into the memory 100c to operate a process that executes each function described in FIG. 10 or the like. That is, this process executes the same function as each processing unit of the recognition device 50.
  • the processor 100d provides a program having the same functions as the skeleton information generation unit 61, the preprocessing unit 62, the technique recognition unit 63, the combination evaluation unit 64, the output unit 65, and the like.
  • the processor 100d executes a process of executing the same processing as the skeleton information generation unit 61, the preprocessing unit 62, the technique recognition unit 63, the combination evaluation unit 64, the output unit 65, and the like.
  • the computer 100 operates as an information processing device that executes the recognition method by reading and executing the program. Further, the computer 100 can realize the same function as that of the above-described embodiment by reading the program from the recording medium by the medium reading device and executing the read program.
  • the program referred to in the other embodiment is not limited to being executed by the computer 100.
  • the present invention can be similarly applied when another computer or server executes a program, or when they execute a program in cooperation with each other.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Physical Education & Sports Medicine (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

認識装置は、複数の動作を実行する被写体の関節の位置情報に基づく骨格情報を、時系列に取得する。続いて、認識装置は、時系列の骨格情報に基づき、複数の動作に含まれる第一の動作と、第一の動作に続く第二の動作との間の移行期間を特定する。そして、認識装置は、骨格情報に基づき動作間の移行期間を評価するように学習された評価モデルに、特定した移行期間に対応する骨格情報を入力して、移行期間を評価し、移行期間の評価結果を出力する。

Description

評価方法、評価プログラムおよび情報処理装置
 本発明は、評価方法、評価プログラムおよび情報処理装置に関する。
 体操や医療などの幅広い分野において、選手や患者などの人物の骨格情報を用いて、人物の動作を自動で認識することが行われている。具体的には、体操を例にすると、動作の一例として演技者の技を自動で認識して自動採点を行い、対象者の演技を評価する技術が利用されている。
 例えば、演技者の所定部位または関節部に対応する特徴点の位置情報を含む複数のフレームを、部位の位置に基づいて時系列に分節することで、複数のフレームを時系列に複数のグループに分類する。そして、グループ毎に、連続するフレームに含まれる特徴点の動きを基にして、グループに対応する基本運動の種別を識別する。その後、時系列に連続するグループに対応する基本運動の種別の順序を基にして、演技者が行った運動の技および難度を評価する。
国際公開第2018/070414号
 しかしながら、上記技術では、動作と動作の間である移行部分を評価することができない。例えば、体操などの採点競技においては、動作(技)単体の採点に加え、技ではない移行部分を評価する必要がある。これは、移行部分の評価に応じて、移行部分を挟む技と技に対して、移行が所定の条件を満たす場合に、技の基礎点に加えてCV(Connection Value)などの加点が得られる場合があるためである。
 また、リハビリなどにおいては、所定の動作(歩行)単体の評価に加え、歩行ではない移行部分を評価することで、対象者の回復度合いをより正確に評価できることが期待できる。このように、動作以外に、動作と動作の移行部分を評価することが求められる。しかし、上記技術では、基本運動の種別に該当する演技者の技などを特定するので、基本運動以外を抽出しても、その抽出した部分が移行部分なのか他の動作なのかを特定することができず、正しく評価することもできない。
 一つの側面では、動作と動作の間である移行部分を評価することができる評価方法、評価プログラムおよび情報処理装置を提供することを目的とする。
 第1の案では、評価方法は、コンピュータが、複数の動作を実行する被写体の関節の位置情報に基づく骨格情報を、時系列に取得する処理を実行する。評価方法は、コンピュータが、前記時系列の骨格情報に基づき、前記複数の動作に含まれる第一の動作と、第一の動作に続く第二の動作との間の移行期間を特定する処理を実行する。評価方法は、コンピュータが、前記骨格情報に基づき動作間の移行期間を評価するように学習された評価モデルに、特定した前記移行期間に対応する骨格情報を入力して、前記移行期間を評価し、前記移行期間の評価結果を出力する処理を実行する。
 一実施形態によれば、動作と動作の間である移行部分を評価することができる。
図1は、実施例1にかかるシステムの全体構成例を示す図である。 図2は、実施例1にかかる学習装置の機能構成を示す機能ブロック図である。 図3は、距離画像を説明する図である。 図4は、骨格定義を説明する図である。 図5は、骨格データを説明する図である。 図6は、フレーム情報を説明する図である。 図7は、学習データの生成を説明する図である。 図8は、学習データを説明する図である。 図9は、移行部分評価用モデルの学習を説明する図である。 図10は、実施例1にかかる認識装置の機能構成を示す機能ブロック図である。 図11は、実施例1にかかる採点装置の機能構成を示す機能ブロック図である。 図12は、採点画像の一例を示す図である。 図13は、移行部分評価用モデルの学習の流れを示すフローチャートである。 図14は、認識処理の流れを示すフローチャートである。 図15は、組み合わせ有と判定された検証例を示す図である。 図16は、組み合わせ無と判定された検証例を示す図である。 図17は、組み合わせ判定の検証例を説明する図である。 図18は、切り出し箇所の乱数の決定例を説明する図である。 図19は、移行部分の認識処理の別例を説明する図である。 図20は、既知である移行部分の特定を説明する図である。 図21は、ハードウェア構成例を説明する図である。
 以下に、本発明にかかる評価方法、評価プログラムおよび情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
[全体構成]
 図1は、実施例1にかかるシステムの全体構成例を示す図である。図1に示すように、このシステムは、3D(Three-Dimensional)レーザセンサ5、学習装置10、認識装置50、採点装置90を有し、被写体である演技者1の3次元データを撮像し、骨格等を認識して正確な技の採点を行うシステムである。なお、本実施例では、一例として、体操競技における演技者の骨格情報を認識する例で説明する。
 一般的に、体操競技における現在の採点方法は、複数の採点者によって目視で行われているが、技の高度化に伴い、採点者の目視では採点が困難な場合が増加している。近年では、3Dレーザセンサを使った、採点競技の自動採点システムや採点支援システムが知られている。例えば、これらのシステムにおいては、3Dレーザセンサにより選手の3次元データである距離画像を取得し、距離画像から選手の各関節の向きや各関節の角度などである骨格を認識する。そして、採点支援システムにおいては、骨格認識の結果を3Dモデルにより表示することで、採点者が演技者の細部の状況を確認するなどにより、より正しい採点を実施することを支援する。また、自動採点システムにおいては、骨格認識の結果から、演技した技などを認識し、採点ルールに照らして採点を行う。
 このような体操競技では、演技中に繰り出された技の点の合計を示すDスコアと、演技の出来栄えを示すEスコアの2種類があり、それぞれの採点に審判員が配置される。Dスコア算出の構成要素として技があり、各々の技にはAやBなどの難易度が与えられており、難易度に応じて加算する点数が異なる。さらに、女子の平均台、ゆか、段違い平行棒や、男子のゆか、鉄棒などのように、競技によっては技の組み合わせに応じた採点が行われている。例えば、平均台の場合は、構成要求(CR)の一部に、ある種類の技の組み合わせが要求されている他、一定の難易度以上の技の組み合わせが承認された場合、組み合わせ点(CV)やシリーズボーナス(SB)が加点される仕組みがある。
 したがって、自動採点を行うためには、選手が繰り出した技や組み合わせを、動作から自動的に判別する仕組みが求められている。つまり、自動採点システムの精度向上、信頼性の向上を図るためには、技の自動認識だけではなく、技と技の間の移行部分を正確に評価し、移行部分が技と技の組み合わせに該当するか否かを精度よく判別することが要求されている。
 ここで、体操競技の技を自動で認識する手法として、選手の3次元データである距離画像を入力して技を自動で認識するモデルが利用されている。このようなモデルとしては、技の特徴量を定義する手法が一般的であり、例えば、ルールベースにより自動認識する手法や、距離画像や距離画像の遷移を学習データとして機械学習させた学習モデルを利用する手法が知られている。
 一方、採点規則によると、技と技の間の組み合わせとは、移行部分において「技と技の間に止まり、技と技の間に余分なステップ、技と技の間で足が台に触れる、技と技の間でバランスを失う、2つめの技の踏切の前に1つめの技で明らかに脚または腰が伸張する、余分な腕の振り」などの実施がないことをいう。このような動作の特徴量をすべて人手により定義することは難しく、ルールベースで移行部分を評価して組み合わせを検出することは難しい。さらに、平均台を例に挙げると、組み合わせには、アクロバット系(アクロ)同士の組み合わせや、ダンス系同士(ジャンプ、ホップ、ターン)の組み合わせ、アクロとダンスの混合など様々なパターンがあるので、人手により場合分けをしてすべてをルール化するのは困難である。
 そこで、実施例1では、人手により特徴量の定義を伴わない方法として、深層学習(Deep Learning)を採用する。例えば、認識装置50は、技認識を行う技認識用モデルと、移行部分を評価する移行部分評価用モデルとを用いて、技の認識と移行部分の評価とを実行する。
 具体的には、技認識用モデルは、時系列に取得される骨格情報に前処理を行い、前処理によって得られる相対座標データやエッジデータを入力として、技認識結果を出力する。移行部分評価用モデルは、技と技の間に該当する移行部分の骨格情報に前処理を行い、前処理で得られる相対座標データやエッジデータを入力として、技と技の間の組み合わせに該当するか否かを示す尤度を出力する。
 このようにして、実施例1にかかる認識装置50は、時系列の骨格情報を元に、動作(技)を認識するとともに、動作の移行部分(技の組み合わせ)を自動で評価する。
[機能構成]
 次に、図1に示したシステムが有する各装置の機能構成につて説明する。なお、ここでは、学習装置10、認識装置50、採点装置90のそれぞれについて説明する。
(学習装置10の構成)
 図2は、実施例1にかかる学習装置10の機能構成を示す機能ブロック図である。図2に示すように、学習装置10は、通信部11、記憶部12、制御部20を有する。
 通信部11は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどである。例えば、通信部11は、3Dレーザセンサ5により撮影された演技者1の距離画像を受信し、管理者端末などから各種データや指示を受信し、認識装置50に学習済みの各モデルを送信する。
 記憶部12は、データや制御部20が実行するプログラムなどを記憶する記憶装置であり、例えばメモリやプロセッサなどである。この記憶部12は、距離画像13、骨格定義14、骨格データ15、フレーム情報16、技認識用モデル17、移行部分評価用モデル18を記憶する。
 距離画像13は、3Dレーザセンサ5により撮像される演技者1の距離画像である。図3は、距離画像を説明する図である。図3に示すように、距離画像13は、3Dレーザセンサ5から画素までの距離が含まれるデータであり、3Dレーザセンサ5からの距離が近いほど、濃い色で表示される。
 骨格定義14は、骨格モデル上の各関節を特定するための定義情報である。ここで記憶される定義情報は、3Dレーザセンサによる3Dセンシングによって演技者ごとに測定してもよく、一般的な体系の骨格モデルを用いて定義してもよい。
 図4は、骨格定義14を説明する図である。図4に示すように、骨格定義14は、公知の骨格モデルで特定される各関節をナンバリングした、18個(0番から17番)の定義情報を記憶する。例えば、図4に示すように、右肩関節(SHOULDER_RIGHT)には7番が付与され、左肘関節(ELBOW_LEFT)には5番が付与され、左膝関節(KNEE_LEFT)には11番が付与され、右股関節(HIP_RIGHT)には14番が付与される。ここで、実施例では、7番の右肩関節のX座標をX7、Y座標をY7、Z座標をZ7と記載する場合がある。なお、例えば、Z軸は、3Dレーザセンサ5から対象に向けた距離方向、Y軸は、Z軸に垂直な高さ方向、X軸は、水平方向と定義することができる。
 骨格データ15は、各距離画像を用いて生成される骨格に関する情報を含むデータである。具体的には、骨格データ15は、距離画像を用いて取得された、骨格定義14に定義される各関節の位置を含む。図5は、骨格データ15を説明する図である。図5に示すように、骨格データ15は、「フレーム、画像情報、骨格情報」が対応付けられる情報である。
 ここで、「フレーム」は、3Dレーザセンサ5による撮像される各フレームを識別する識別子であり、「画像情報」は、関節などの位置が既知である距離画像のデータである。「骨格情報」は、骨格の3次元の位置情報であり、図4に示した18個の各関節に対応する関節位置(3次元座標)である。図5の例では、距離画像である「画像データA1」には、HEADの座標「X3,Y3,Z3」などを含む18個の関節の位置が既知であることを示す。なお、関節位置は、例えば、予め学習された学習モデルであって、距離画像から各関節位置を抽出する学習モデルなどを用いて抽出することもできる。
 フレーム情報16は、後述する移行部分評価用モデルの学習などに利用される情報であって、ある演技者の演技時に撮像された距離画像に関するフレーム情報である。図6は、フレーム情報16を説明する図である。図6に示すように、フレーム情報16は、「element、motion、start、end」が対応付けられた情報である。
 「element」は、実施した技の種類を示す情報である。「motion」は、動作か否かを示す情報であり、技に該当する場合には「element」が設定され、組み合わせに該当する移行部分の場合には「combination」が設定され、組み合わせに該当しない移行部分の場合には「none」が設定される。「start、end」は、motionの開始フレームと終了フレームとを示す。図6の例では、「combination」に該当するフレーム727からフレーム741が組み合わせ有(ラベル「1」)の教師データとして利用されることを示し、「none」に該当するフレーム57からフレーム186が組み合わせ無(ラベル「0」)の教師データとして利用されることを示す。
 技認識用モデル17は、時系列の骨格情報から生成されるエッジデータに基づき、技が否かを認識する学習モデルであり、後述する技認識学習部30によって学習されるニューラルネットワークなどを用いたモデルである。
 移行部分評価用モデル18は、時系列の骨格情報から生成されるエッジデータに基づき、移行部分を評価する学習モデルであり、後述する評価用学習部40によって学習されるニューラルネットワークなどを用いたモデルである。この移行部分評価用モデル18は、「技と技の間に止まり、技と技の間に余分なステップ、技と技の間で足が台に触れる、技と技の間でバランスを失う、2つめの技の踏切の前に1つめの技で明らかに脚または腰が伸張する、余分な腕の振り」に該当しない移行期間を組み合わせと評価するように学習される。
 制御部20は、学習装置10全体を司る処理部であり、例えばプロセッサなどである。制御部20は、技認識学習部30と評価用学習部40を有し、技認識用モデル17や移行部分評価用モデル18の学習を実行する。なお、技認識学習部30と評価用学習部40は、プロセッサなどの電子回路の一例やプロセッサなどが有するプロセスの一例である。
 技認識学習部30は、前処理部31、学習データ生成部32、学習部33を有し、技認識用モデル17の学習を実行して、技認識用モデル17を生成する処理部である。
 前処理部31は、技認識用モデル17の学習を実行するために、18関節の骨格情報からエッジデータを算出する処理部である。例えば、前処理部31は、フレーム情報16を参照し、技に該当する「motion=element」の開始フレームと終了フレームを特定する。このとき、前処理部31は、当該「element」に対して管理者等により予め設定されている技名を取得する。続いて、前処理部31は、特定したフレーム間を含むように、所定数(例えば60)の切り出し箇所を乱数で決定し、決定した各フレームに対応する骨格データ15を取得する。なお、前処理部31は、フレーム間が60以上のフレームを有する場合は、当該フレーム間から60個のフレームを取得する。その後、前処理部31は、取得した各フレームに対応する骨格データ15からエッジデータを算出する。
 具体的には、前処理部31は、60フレームそれぞれの各骨格データ15から骨格情報を読み出す。そして、前処理部31は、各骨格情報と式(1)を用いて、18個の関節それぞれについて、接続された骨格(関節間)の向きを表すデータであるエッジデータを算出する。その後、前処理部31は、各関節に対応するエッジデータを学習データ生成部32に出力する。
Figure JPOXMLDOC01-appb-M000001
 このように、式(1)により、前処理部31は、18個の関節それぞれについて、60フレームの骨格情報から算出された各エッジデータを組み合わせた1つのエッジデータを生成する。なお、式(1)におけるx、y、zは座標を示し、iは関節の数を示し、ei,xはi番目の関節のx軸方向の大きさを示し、ei,yはi番目の関節のy軸方向の大きさを示し、ei,zはi番目の関節のz軸方向の大きさを示す。
 学習データ生成部32は、時系列の骨格情報を用いて生成されたエッジデータを用いて、技認識用モデル17の学習に用いる学習データを生成する処理部である。例えば、学習データ生成部32は、技に該当する区間(動作部分)に該当する各関節のエッジデータと当該技の名称を前処理部31から取得する。そして、学習データ生成部32は、各関節のエッジデータと技名とを対応付けた学習データを生成する。その後、学習データ生成部32は、学習データを記憶部12に格納し、学習部33に出力する。
 学習部33は、技認識用モデル17の学習を実行する処理部である。具体的には、学習部33は、学習データの各エッジデータを説明変数、学習データの技名を目的変数(ラベル)として、技認識用モデル17に用いられるニューラルネットワークを学習する。つまり、学習部33は、時系列の各関節のエッジデータの変化を特徴量として、技を認識する技認識用モデル17を学習する。
 例えば、学習部33は、所定の動作区間から取得された各関節のエッジデータを1つの入力データとして技認識用モデル17に入力し、予め想定される各技の一致度(尤度)を技認識用モデル17から取得する。そして、学習部33は、出力結果に含まれる各技の尤度のうち、正解情報であるラベルの技名の尤度が最も大きくなるように、出力結果とラベルとの誤差に基づく誤差逆伝搬法によってニューラルネットワークの各パラメータを学習する。
 このようにして、学習部33は、各学習データを用いて技認識用モデル17の学習を実行し、学習が完了すると、学習済みの技認識用モデル17を記憶部12に格納する。なお、学習を終了するタイミングは、所定数以上の学習データを用いた学習が完了した時点や復元誤差が閾値未満となった時点など、任意に設定することができる。
 図2に戻り、評価用学習部40は、区間決定部41、前処理部42、学習データ生成部43、学習部44を有し、移行部分評価用モデル18の学習を実行する処理部である。
 区間決定部41は、フレーム情報16から、移行部分評価用モデル18の学習データとして利用する区間を決定する処理部である。具体的には、区間決定部41は、組み合わせ有の学習データを生成する場合は、「motion=combination」に該当する区間を切り出し区間に決定し、組み合わせ無の学習データを生成する場合は、「motion=none」または「motion=element」に該当する区間を切り出し区間に決定する。そして、区間決定部41は、決定した各切り出し区間を前処理部42等に出力する。
 前処理部42は、移行部分評価用モデル18の学習を実行するために、18関節の骨格情報からエッジデータを算出する処理部である。具体的には、前処理部42は、区間決定部41により決定された区間のフレームから、所定数(例えば60)の切り出す箇所を乱数で決定し、決定したフレームに対応する骨格データ15を取得する。その後、前処理部42は、式(1)を用いて、各骨格データ15から18関節それぞれに対応するエッジデータを算出し、算出結果を学習データ生成部43に出力する。
 例えば、前処理部42は、フレーム情報16を参照し、切り出し区間に決定された「motion=combination」の開始フレーム727と終了フレーム741を含むフレーム間を特定する。続いて、前処理部42は、フレーム間が60フレーム未満であることから、切り出し区間として、開始フレーム727から終了フレーム741を含むようにフレーム704からフレーム763までを切り出し区間に決定する。そして、前処理部42は、フレーム704からフレーム763に該当する各骨格データ15を用いて、18関節ごとのエッジデータを算出する。
 学習データ生成部43は、時系列の骨格情報を用いて生成されたエッジデータを用いて、移行部分評価用モデル18の学習に用いる学習データを生成する処理部である。具体的には、学習データ生成部43は、18関節それぞれについて、前処理部42から入力された所定区間に該当するエッジデータ(切り出し前エッジデータ)と、エッジデータから技部分に該当するエッジデータを除外したデータ(切り出し後エッジデータ)とを生成する。そして、学習データ生成部43は、18関節ごとの切り出し前エッジデータと、18関節ごとの切り出し後エッジデータと、ラベル(正解情報)とを対応付けた学習データを生成する。
 図7は、学習データの生成を説明する図である。図7では、説明を簡略化するために、1関節を用いて説明する。図7に示すように、前処理部42によって、組み合わせ部分に該当する「motion=combination」の開始フレーム727から終了フレーム741を含むフレーム704からフレーム763までのエッジデータが算出される。すると、学習データ生成部43は、フレーム704からフレーム763までに対応するエッジデータを切り出し前エッジデータとする。また、学習データ生成部43は、フレーム704からフレーム763のうち技部分を除外し、移行部分のフレーム727からフレーム741を切り出した切り出し後エッジデータを生成する。そして、学習データ生成部43は、切り出し前エッジデータ、切り出し後エッジデータ、ラベル(1)を対応付けた学習データを生成する。
 ここで、学習データ生成部43は、「motion=combination」に該当する移行部分のフレームのエッジデータを用いて、組み合わせ有(ラベル=1)の学習データを生成し、「motion=none」または「motion=element」に該当する移行部分のフレームのエッジデータを用いて、組み合わせ無(ラベル=0)の学習データを生成する。
 図8は、学習データを説明する図である。図8に示すように、学習データ生成部43は、技部分(a)、技間の組み合わせ有(b)、技間の組み合わせ無(c)のそれぞれの区間について、説明変数となる入力データと目的変数となる出力データとを含む学習データを生成する。なお、図8では、説明を簡略化するために、1関節のみを図示するが、実際は18関節のエッジデータが対応付けられる。
 例えば、技部分(a)については、入力データとして技部分を含む切り出し前エッジデータ、出力データAとして入力データの技部分が除去された切り出し後エッジデータ、出力データBとして組み合わせ無(ラベル=0)を含む学習データが生成される。
 また、技間の組み合わせ有の部分(b)については、入力データとして技部分および組み合わせを含む切り出し前エッジデータ、出力データAとして入力データの技部分が除去された切り出し後エッジデータ、出力データBとして組み合わせ有(ラベル=1)を含む学習データが生成される。
 また、技間の組み合わせ無の部分(c)については、入力データとして技部分および組み合わせではない移行部分を含む切り出し前エッジデータ、出力データAとして入力データの技部分が除去された切り出し後エッジデータ、出力データBとして組み合わせ無(ラベル=0)を含む学習データが生成される。
 学習部44は、移行部分評価用モデル18の学習を実行する処理部である。具体的には、学習部44は、学習データの切り出し前エッジデータ(18関節分)を説明変数、学習データの切り出し後エッジデータ(18関節分)または組み合わせの有無の判定結果を目的変数として、移行部分評価用モデル18に用いられるニューラルネットワークを学習する。
 ここで、移行部分評価用モデル18には、移行部分を切り出すモデルAと、移行部分を評価するモデルBとが含まれ、各モデルはオートエンコーダを用いて構成される。つまり、学習部44は、時系列の各関節のエッジデータの変化を特徴量として、移行部分を抽出するモデルAと、移行部分の時系列の変化を特徴量として、移行部分を評価するモデルBとを含む、移行部分評価用モデル18を学習する。
 図9は、移行部分評価用モデル18の学習を説明する図である。図9に示すように、学習部44が、「技A、技間、技B」で構成される入力データ(エッジデータ)をモデルAに入力すると、モデルAは、技部分を除外した技間のエッジデータを出力する。そして、学習部44は、モデルAの出力と学習データに含まれる切り出し後エッジデータとの差分に基づいて、モデルAを学習する。
 また、学習部44が、モデルAの出力をモデルBに入力すると、モデルBは、モデルAへ入力された技間のエッジデータを復元する。このとき、学習部44は、モデルB(例えばエンコーダの出力)から組み合わせ有無の判定結果を取得し、取得した組み合わせ有無の判定結果と学習データに含まれる正解情報(ラベル)との差分に基づいて、モデルBの学習を実行する。
 上述した図9の流れを、図8の(b)に示す組み合わせ有の学習データを用いて具体的に説明する。学習部44は、技と技間と技を含む入力データ(切り出し前エッジデータ)をモデルAに入力し、モデルAにより移行部分が切り出された出力結果を取得する。そして、学習部44は、モデルAの出力結果と、学習データにおける出力データAとの誤差が最小化するように、誤差逆伝搬法などを用いてモデルAを学習する。
 その後、学習部44は、モデルAの出力結果をモデルBに入力し、組み合わせ有無の判定結果をモデルBから取得する。そして、学習部44は、モデルBから取得した組み合わせ有無の判定結果と、学習データにおける出力データBとの誤差が最小化するように、誤差逆伝搬法などを用いてモデルBを学習する。
 このようにして、学習部44は、各学習データを用いて、モデルAとモデルBを含む移行部分評価用モデル18の学習を実行し、学習が完了すると、学習済みの移行部分評価用モデル18を記憶部12に格納する。なお、学習を終了するタイミングは、所定数以上の学習データを用いた学習が完了した時点や復元誤差が閾値未満となった時点など、任意に設定することができる。
(認識装置50の構成)
 図10は、実施例1にかかる認識装置50の機能構成を示す機能ブロック図である。図10に示すように、認識装置50は、通信部51、記憶部52、制御部60を有する。
 通信部51は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどである。例えば、通信部51は、3Dレーザセンサ5により撮影された演技者1の距離画像を受信し、学習装置10から学習済みの各種モデルを取得し、認識結果を採点装置に送信する。
 記憶部52は、データや制御部60が実行するプログラムなどを記憶する記憶装置であり、例えばメモリやプロセッサなどである。この記憶部52は、距離画像53、技認識用モデル54、移行部分評価用モデル55、骨格データ56、エッジデータ57を記憶する。距離画像53は、3Dレーザセンサ5により撮像される演技者1の距離画像であり、例えば採点対象の演技者の演技を撮像した距離画像である。なお、距離画像53は、演技者1の演技中に随時撮像される。
 技認識用モデル54は、学習装置10から取得した学習済みの技認識用モデルである。この技認識用モデル54は、入力データとしてある区間に該当する18関節のエッジデータが入力されると、予め指定した各技に該当する確率(尤度)を出力する。
 移行部分評価用モデル55は、学習装置10から取得した学習済みの移行部分評価用モデルである。この移行部分評価用モデル55は、入力データとしてある区間に該当する18関節のエッジデータが入力されると、技間の組み合わせに該当する確率(尤度)を出力する。
 骨格データ56は、各距離画像を用いて生成される骨格に関する情報を含むデータである。具体的には、骨格データ56は、距離画像を用いて取得された、骨格定義14に定義される各関節の位置である。なお、骨格データ56は、図5に示した骨格データ15と同様の情報なので、詳細な説明は省略する。
 エッジデータ57は、骨格データ56の骨格情報を用いて算出された18関節の各エッジデータである。例えば、エッジデータ57は、接続された骨格(関節間)の向きを表すデータである。
 制御部60は、認識装置50全体を司る処理部であり、例えばプロセッサなどである。制御部60は、骨格情報生成部61、前処理部62、技認識部63、組み合わせ評価部64、出力部65を有し、技の認識や技間の組み合わせ判定を実行する。なお、骨格情報生成部61、前処理部62、技認識部63、組み合わせ評価部64、出力部65は、プロセッサなどの電子回路の一例やプロセッサなどが有するプロセスの一例である。
 骨格情報生成部61は、3Dレーザセンサ5により撮像される各距離画像から、18個の関節の位置を含む骨格情報を生成する処理部である。例えば、骨格情報生成部61は、距離画像に対して、背景差分やノイズ補正などを実行して3D点群データを生成する。また、骨格情報生成部61は、3D点群データから16個の関節位置を特定した低精度の骨格情報を生成する。そして、骨格情報生成部61は、低精度の骨格情報と、3D点群データとを用いて、骨格および点群のフィティングを実行し、高精度の骨格情報を生成する。その後、骨格情報生成部61は、距離画像に対応するフレームの番号と、距離画像と、骨格情報とを対応付けた骨格データ56を記憶部52に格納する。
 なお、低精度の骨格情報の生成には、距離画像や3D点群データから骨格情報を認識する学習済みのモデルを用いることもできる。また、学習装置10における骨格データ15における骨格情報も同様の手法により生成することができる。
 前処理部62は、各骨格情報からエッジデータを生成する処理部である。具体的には、前処理部62は、各モデルを用いた技認識処理または組み合わせ判定処理の前処理として、18関節の各エッジデータの生成を実行する。例えば、前処理部62は、学習装置10と同様、式(1)と各骨格データ56の骨格情報とを用いて、各関節のエッジデータ57を算出する。そして、前処理部62は、フレームと各関節のエッジデータ57とを対応付けて記憶部52に格納する。
 技認識部63は、時系列に取得した演技者1のエッジデータと技認識用モデル54とを用いて技認識を実行する処理部である。具体的には、技認識部63は、ある区間のフレームに対応する18関節のエッジデータ57を1つの入力データとして技認識用モデル54に入力し、技認識用モデル54の出力結果として各技の尤度を取得する。そして、技認識部63は、出力結果に含まれる尤度のうち、最も高い尤度に対応する技を技認識結果とする。このとき、各技に対応する尤度のいずれもが閾値未満の場合、該当する技無しと判定することもできる。
 例えば、技認識部63は、フレーム1からフレーム60を用いて生成された各エッジデータを技認識用モデル54に入力し、技認識用モデル54の出力結果に基づき、技か否かを判定する。続いて、技認識部63は、フレーム2からフレーム61を用いて生成された各エッジデータを技認識用モデル54に入力し、技認識用モデル54の出力結果に基づき、技か否かを判定する。さらに続いて、技認識部63は、フレーム3からフレーム63を用いて生成された各エッジデータを技認識用モデル54に入力し、技認識用モデル54の出力結果に基づき、技か否かを判定する。
 このようにして、技認識部63は、演技者1の各演技を撮像した距離画像に基づくエッジデータを用いて、演技者1の技認識を繰り返し実行し、認識結果を組み合わせ評価部64や出力部65に出力したり、記憶部52に格納したりする。
 組み合わせ評価部64は、時系列に取得した演技者1のエッジデータと移行部分評価用モデル55とを用いて、移行部分の評価を実行する処理部である。例えば、組み合わせ評価部64は、18関節の各エッジデータを1つの入力データとして移行部分評価用モデル55のモデルAに入力して、技の部分が除去された移行部分に該当するエッジデータを生成する。続いて、組み合わせ評価部64は、モデルAの出力結果である移行部分に該当するエッジデータをモデルBに入力し、組み合わせに該当する確率(尤度)を取得する。そして、組み合わせ評価部64は、尤度を組み合わせ判定結果(評価結果)として、出力部65に出力したり、記憶部52に格納したりする。
 なお、組み合わせ評価部64も、技認識部63と同様、フレームを1つずつずらして入力データを変更し、組み合わせの評価を繰り返す。また、組み合わせの有無の判定結果は、およそ0(組み合わせ無)から1(組み合わせ有)の尤度で出力される。このため、0.5を閾値として、組み合わせの有無を出力してもよく、0.5に近い値の場合(例えば0.4から0.6)は、評価不能とみなすこともできる。
 図10に戻り、出力部65は、技の認識結果や組み合わせの判定結果を出力する処理部である。例えば、出力部65は、技認識部63から取得した技の認識結果や組み合わせ評価部64から取得した組み合わせの評価結果を採点装置90に出力したり、ディスプレイなどの表示部に出力したりする。なお、出力部65は、技の認識結果とともに技の判定に利用されたフレーム番号や、組み合わせの評価結果とともに組み合わせの評価に利用されたフレーム番号をあわせて出力することもできる。
(採点装置90の構成)
 図11は、実施例1にかかる採点装置90の機能構成を示す機能ブロック図である。図11に示すように、採点装置90は、通信部91、記憶部92、制御部94を有する。通信部91は、認識装置50から技の認識結果、技間の組み合わせの評価結果、演技者の骨格情報(3次元の骨格位置情報)などを受信する。
 記憶部92は、データや制御部94が実行するプログラムなどを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。この記憶部92は、技情報93を記憶する。技情報93は、技の名前、難易度、得点、各関節の位置、関節の角度、採点ルールなどを対応付けた情報である。また、技情報93には、技間の組み合わせと得点とを対応付けた組み合わせ採点情報なども含まれる。
 制御部94は、採点装置90全体を司る処理部であり、例えばプロセッサなどである。この制御部94は、採点部95と出力制御部96とを有し、認識装置50に入力された情報にしたがって、演技者の採点などを行う。
 採点部95は、演技者の技の採点や演技者の演技の採点を実行する処理部である。具体的には、採点部95は、認識装置50から随時送信される技の認識結果や組み合わせの評価結果と、技情報93とを比較して、演技者1が演技した技や演技の採点を実行する。そして、採点部95は、採点結果を出力制御部96に出力する。
 出力制御部96は、採点部95の採点結果などをディスプレイ等に表示する処理部である。例えば、出力制御部96は、認識装置50から、演技画像、各3Dレーザセンサによる撮像された距離画像、認識装置50により生成された3次元の骨格情報、演技者1が演技中の各画像データ、採点結果などの各種情報を取得して、所定の画面に表示する。
 図12は、採点画像の一例を示す図である。図12に示すように、採点画像には、演技者1の映像、演技者1の演技中の3D画像データ、Dスコア、実際された技を示すSM(Symbol Mark)、実際された技の難易度を示すDV(Difficulty Value)、実施された技のグループを示すEG(Element Group)などが表示される。また、SMの各技の下に、組み合わせに該当する技間が表示される。
[処理の流れ]
 次に、上述した各装置による処理の流れを説明する。なお、技認識処理については、公知の学習モデルやルールベースにより処理を採用することもできるので、詳細な説明は省略する。
(移行部分評価用モデルの学習)
 図13は、移行部分評価用モデルの学習の流れを示すフローチャートである。図13に示すように、学習装置10の評価用学習部40は、フレーム情報16のうちどの区間を学習データとして切り出すかを決定する(S101)。
 続いて、評価用学習部40は、決定した区間から切り出し箇所を乱数で決定し(S102)、決定した箇所から骨格データを切り出す(S103)。そして、評価用学習部40は、各骨格データに対して前処理を実行して18関節分のエッジデータを算出する(S104)。
 その後、評価用学習部40は、前処理で得られた各エッジデータから、技部分(動作部分)を除外した移行部分(技間)の各エッジデータを生成し(S105)、学習データを生成する(S106)。そして、評価用学習部40は、学習データを用いて、移行部分評価用モデル18の学習を実行する(S107)。
(認識処理の流れ)
 図14は、認識処理の流れを示すフローチャートである。図14に示すように、認識装置50は、処理開始が指示されると(S201:Yes)、距離画像を取得し(S202)、骨格情報を生成する(S203)。
 続いて、認識装置50は、骨格情報から18関節分のエッジデータを生成し(S204)、各エッジデータを技認識用モデル54に入力して、技認識の結果を取得する(S205)。
 続いて、認識装置50は、取得済みのフレームから評価箇所を切り出し(S206)、切り出した箇所に対応する18関節分のエッジデータを移行部分評価用モデル18に入力して、移行部分を評価する(S207)。
 ここで、認識装置50は、出力結果に閾値以上の尤度が存在する場合(S208:Yes)、当該移行部分を組み合わせと判定し(S209)、出力結果に閾値以上の尤度が存在しない場合(S208:No)、当該移行部分を組み合わせではないと判定する(S210)。
 なお、ここでは、技認識の後に組み合わせ評価を実行する例を示したが、これに限定されるものではなく、逆の順番でもよく、別々のフローで実行することもできる。
[効果]
 上述したように、学習装置10は、時系列の骨格データからエッジデータを算出し、エッジデータから移行部分のデータを出力するモデルAを用意する。学習装置10モデルAから出力されたデータから、移行部分の評価結果を出力するモデルBを用意する。そして、学習装置10は、モデルAとモデルBを繋ぎ合わせた移行部分評価用モデル55に対して、エッジデータを入力して、移行部分のデータと評価結果を出力として学習する。その後、認識装置50は、移行部分評価用モデル55を用いて、エッジデータを入力として、組み合わせの有無を判定する。
 詳細には、認識装置50は、複数の動作を実行する被写体の関節の位置情報に基づく骨格情報を、時系列に取得する。認識装置50は、時系列の骨格情報に基づき、複数の動作に含まれる第一の動作と、第一の動作に続く第二の動作との間の移行期間を特定する。そして、認識装置50は、特定した移行期間に対応する骨格情報を入力として、移行期間を評価することができる。この結果、認識装置50は、動作と動作の間である移行部分を評価することができる。
 また、移行部分を評価するためのルールベースを生成することなく、深層学習を用いた自動認識を実現することができるので、人手により採点する場合に比べて、採点者などの負荷を軽減することもできる。
 また、移行部分を正確に評価することができるので、体操競技などにおける組み合わせ点(CV)やシリーズボーナス(SB)を正確に付与することができる。また、技の進化や採点ルールの変更等が発生した場合でも、技認識用モデル17や移行部分評価用モデル18の再学習を行うことで、これらに追従することができるので、自動採点システムの信頼性や汎用性を向上させることができる。
 ここで、組み合わせ判定の検証データを説明する。図15は、組み合わせ有と判定された検証例を示す図であり、図16は、組み合わせ無と判定された検証例を示す図である。図15と図16では、ある関節について、移行部分評価用モデルのモデルAへ入力した入力データと、移行部分評価用モデルのモデルAが出力する出力データとを表示した。また、各グラフの横軸はフレーム数であり、縦軸は座標を正規化した値である。なお、実際は、18関節について入力データと出力データとが存在するが、説明を分かりやすくするために、1関節を例示した。
 図15に示すように、x軸の変化が小さく、y軸とz軸が周期的に変化する入力データを移行部分評価用モデル55へ入力すると、フレーム30辺り、尤度が1.0近くになった。つまり、フレーム30辺りで組み合わせ有となる移行部分が存在することが分かる。一方、図16に示すように、x軸、y軸、z軸が非周期的に変化する入力データを移行部分評価用モデル55へ入力すると、フレーム20からフレーム40において尤度が1.0近くになった箇所が頻発した。つまり、フレーム20からフレーム40辺りで移行部分が存在するが組み合わせ無と判定される移行部分であることが分かる。この場合、例えば余分な腕の振りに該当する動作がされていると考えられる。
 次に、図17を用いて、一連の演技における組み合わせの判定結果を説明する。図17は、組み合わせ判定の検証例を説明する図である。図17の上図は、認識装置50による組み合わせの判定結果を示し、図17の下図は、審判による採点結果を示す。ここでは、両者を対比して説明する。図17の下図において、審判は、フレーム125からフレーム140、フレーム1168からフレーム1173、フレーム2367からフレーム2369の各間を組み合わせと認定している。これに対して、図17の上図に示した認識装置50による組み合わせの判定結果でも同様の区間で尤度が1.0付近になっている。したがって、認識装置50を用いて、技間の組み合わせを正確に判定できていることがわかる。
 さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。
[切り出し箇所の特定]
 実施例1では、学習を行う際に、フレームの開始位置を乱数により決定し切り出しを行う例を説明したが、乱数の確率分布を設定することで、特に動作部分と移行部分の境目を重点的に学習し、精度を上げることもできる。
 図18は、切り出し箇所の乱数の決定例を説明する図である。図18の(a)に示すように、動作部分を切り出す場合、切り出す際の確率分布を正規分布(例えば標準偏差σ=3)とする。同様の、図18の(b)に示すように、フレーム数が閾値未満である短い移行部分を切り出す場合、切り出す際の確率分布を正規分布とする。このようにすることで、一様分布で学習した場合に発生する「動作部分と移行部分の境目の学習も同じ重みで学習し、境界が混在する」ことを抑制でき、技間の中間部を重点的に学習することができる。
 また、図18の(c)に示すように、フレーム数が閾値以上である長い移行部分を切り出す場合、切り出す際の確率分布をベータ分布(例えばa=0.5、b=0.5)とする。このようにすることで、一様分布で学習した場合に発生する「動作に無関係な部分も同じ重みで学習してしまう」ことを抑制でき、動作部分と移行部分の境目付近をやや重めに学習することができる。
[認識処理の別例]
 例えば、実施例1では、移行部分評価用モデル55のモデルAを用いて、移行部分を抽出した後、移行部分評価用モデル55のモデルBを用いて、移行部分を評価する例を説明したが、これに限定されるものではない。例えば、移行部分が予め既知である場合には、移行部分評価用モデル55のモデルBのみを用いて、移行部分の評価を実行することもできる。
 図19は、移行部分の認識処理の別例を説明する図である。図19に示すように、認識装置50は、評価対象である移行部分が技Aと技Bの技間であることが既知である場合、当該移行部分のエッジデータを、移行部分評価用モデル55のモデルAではなくモデルBに入力する。そして、認識装置50は、移行部分評価用モデル55のモデルBから、組み合わせ有無の判定結果を取得して、入力した移行部分が組み合わせに該当するか単なる移行部分であるかを評価する。
 図20は、既知である移行部分の特定を説明する図である。図20に示すように、技認識用モデル54により、フレーム1からフレーム60が技Aと認識され、フレーム61からフレーム120まで技と認識されず、フレーム121からフレーム181が技Bと認識されたとする。この場合、組み合わせ評価部64は、フレーム61からフレーム120までを移行部分と特定することができ、移行部分のエッジデータを移行部分評価用モデル55のモデルBに直接入力して、移行部分が組み合わせに該当するか否かを評価する。この結果、移行部分の評価にかかる時間を短縮することができ、リアルタイム性の向上を図ることができる。
[適用例]
 上記実施例では、体操競技を例にして説明したが、これに限定されるものではなく、選手が一連の技を行って審判が採点する他の競技にも適用することができる。他の競技の一例としては、フィギュアスケート、新体操、チアリーディング、水泳の飛び込み、空手の型、モーグルのエアーなどがある。例えば、フィギュアスケートに適用した場合、1回目のジャンプ着地と2回目のジャンプ開始の移行時に余分な動作が入っていないかを評価することができる。また、スポーツに限らず、トラック、タクシー、電車などの運転手の姿勢検出やパイロットの姿勢検出などにも適用することができる。例えば、ヘルスケアに適用した場合、足が地面から離れてから、同じ足が再度地面に着地するまでに、余分な動作が入っていないかを評価することができる。
[骨格情報]
 また、上記実施例では、18個の各関節の位置を用いる学習や認識を行う例を説明したが、これに限定されるものではなく、1個以上の関節を指定して学習等を実行することもできる。また、上記実施例では、骨格情報の一例として各関節の位置を例示して説明したが、これに限定されるものではなく、各関節の角度、手足の向き、顔の向きなど、予め定義できる情報であれば、様々な情報を採用することができる。
[数値等]
 上記実施例で用いた数値などがあくまで一例であり、実施例を限定するものではなく、任意に設定変更することができる。また、フレームの数等も一例であり、任意に設定変更することができる。また、実施例1では、エッジデータを用いた例を説明したが、これに限定されるものではなく、例えば各関節の相対位置を示す相対座標データを用いることもできる。また、演技開始の先頭フレームや演技終了のフレームを含む区間の場合、他のフレーム数(例えば60)に合わせるためのデータパティングなども任意に実行することができる。また、モデルには、ニューラルネットワークに限らず、様々な機械学習や深層学習を用いることができる。
[システム]
 上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。また、各3Dレーザセンサは、各装置に内蔵されていてもよく、各装置の外部装置として通信等で接続されていてもよい。
 例えば、技認識と組み合わせ評価は、別々の装置で実装することもできる。また、学習装置10、認識装置50、採点装置90は、任意に組み合わせた装置で実現することもできる。なお、骨格情報生成部61は、取得部の一例であり、組み合わせ評価部64は、特定部および評価部の一例であり、出力部65は、出力部の一例である。
 さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[ハードウェア]
 次に、学習装置10、認識装置50、採点装置90などのコンピュータのハードウェア構成について説明する。なお、各装置は同様の構成を有するので、ここでは、コンピュータ100として説明し、具体例は認識装置50を例示する。
 図21は、ハードウェア構成例を説明する図である。図21に示すように、コンピュータ100は、通信装置100a、HDD(Hard Disk Drive)100b、メモリ100c、プロセッサ100dを有する。また、図21に示した各部は、バス等で相互に接続される。
 通信装置100aは、ネットワークインタフェースカードなどであり、他のサーバとの通信を行う。HDD100bは、図10等に示した機能を動作させるプログラムやDBを記憶する。
 プロセッサ100dは、図10に示した各処理部と同様の処理を実行するプログラムをHDD100b等から読み出してメモリ100cに展開することで、図10等で説明した各機能を実行するプロセスを動作させる。すなわち、このプロセスは、認識装置50が有する各処理部と同様の機能を実行する。具体的には、認識装置50を例にすると、プロセッサ100dは、骨格情報生成部61、前処理部62、技認識部63、組み合わせ評価部64、出力部65等と同様の機能を有するプログラムをHDD100b等から読み出す。そして、プロセッサ100dは、骨格情報生成部61、前処理部62、技認識部63、組み合わせ評価部64、出力部65等と同様の処理を実行するプロセスを実行する。
 このようにコンピュータ100は、プログラムを読み出して実行することで認識方法を実行する情報処理装置として動作する。また、コンピュータ100は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、コンピュータ100によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。
 10 学習装置
 11 通信部
 12 記憶部
 13 距離画像
 14 骨格定義
 15 骨格データ
 16 フレーム情報
 17 技認識用モデル
 18 移行部分評価用モデル
 20 制御部
 30 技認識学習部
 31 前処理部
 32 学習データ生成部
 33 学習部
 40 評価用学習部
 41 区間決定部
 42 前処理部
 43 学習データ生成部
 44 学習部
 50 認識装置
 51 通信部
 52 記憶部
 53 距離画像
 54 技認識用モデル
 55 移行部分評価用モデル
 56 骨格データ
 57 エッジデータ
 60 制御部
 61 骨格情報生成部
 62 前処理部
 63 技認識部
 64 組み合わせ評価部
 65 出力部

Claims (9)

  1.  コンピュータが、
     複数の動作を実行する被写体の関節の位置情報に基づく骨格情報を、時系列に取得し、
     前記時系列の骨格情報に基づき、前記複数の動作に含まれる第一の動作と、第一の動作に続く第二の動作との間の移行期間を特定し、
     前記骨格情報に基づき動作間の移行期間を評価するように学習された評価モデルに、特定した前記移行期間に対応する骨格情報を入力して、前記移行期間を評価し、
     前記移行期間の評価結果を出力する、
     処理を実行することを特徴とする評価方法。
  2.  前記特定する処理は、被写体の時系列の骨格情報に基づき動作間の移行期間を抽出するように学習された抽出モデルを用いて、前記第一の動作と前記第二の動作の移行期間を特定する、ことを特徴とする請求項1に記載の評価方法。
  3.  前記時系列の骨格情報を用いて、接続された骨格の向きを表すエッジデータを算出する処理を、前記コンピュータが実行し、
     前記特定する処理は、前記エッジデータを前記抽出モデルに入力して、前記抽出モデルの出力結果に基づき前記移行期間を特定し、
     前記評価する処理は、前記抽出モデルの出力結果を前記評価モデルに入力し、前記評価モデルの出力結果に基づき、前記移行期間を評価する、ことを特徴とする請求項2に記載の評価方法。
  4.  前記時系列の骨格情報を用いて、接続された骨格の向きを表すエッジデータを算出し、
     前記エッジデータに基づき動作を特定するように学習された特定モデルを用いて、前記第一の動作および前記第二の動作を含む前記複数の動作を検出する処理を、前記コンピュータが実行し、
     前記特定する処理は、前記時系列の骨格情報のうち、前記特定モデルにより特定された前記第一の動作と前記第二の動作との間の期間に該当する骨格情報を、前記移行期間に該当する骨格情報と特定することを特徴とする請求項1に記載の評価方法。
  5.  前記評価モデルは、
     特定された前記移行期間が閾値未満の期間である場合、正規分布に従う乱数を用いて、前記移行期間に該当する骨格情報から所定数の骨格情報を取得し、
     特定された前記移行期間が閾値以上の期間である場合、ベータ分布に従う乱数を用いて、前記移行期間に該当する骨格情報から所定数の骨格情報を取得し、
     取得された骨格情報を用いて、前記移行期間を評価するように生成されることを特徴とする請求項1に記載の評価方法。
  6.  前記評価する処理は、特定された前記移行期間が閾値未満の期間である場合、正規分布に従う乱数を用いて、前記移行期間に該当する骨格情報から所定数の骨格情報を取得し、特定された前記移行期間が閾値以上の期間である場合、ベータ分布に従う乱数を用いて、前記移行期間に該当する骨格情報から所定数の骨格情報を取得し、取得された骨格情報を前記評価モデルに入力して、前記移行期間を評価することを特徴とする請求項1に記載の評価方法。
  7.  前記取得する処理は、体操競技の演技を行う演技者の関節の位置情報に基づく骨格情報を時系列に取得し、
     前記特定する処理は、前記時系列の骨格情報に基づき、前記体操競技の演技と演技の間の移行期間を特定し、
     前記評価する処理は、前記評価モデルの出力結果に基づき、前記移行期間が、技と技の間に止まり、技と技の間に余分なステップ、技と技の間で足が台に触れる、技と技の間でバランスを失う、2つめの技の踏切の前に1つめの技で明らかに脚または腰が伸張する、余分な腕の振りのいずれの実施にも該当しない場合に、前記移行期間を技間の組み合わせであると評価する、ことを特徴とする請求項1に記載の評価方法。
  8.  コンピュータに、
     複数の動作を実行する被写体の関節の位置情報に基づく骨格情報を、時系列に取得し、
     前記時系列の骨格情報に基づき、前記複数の動作に含まれる第一の動作と、第一の動作に続く第二の動作との間の移行期間を特定し、
     前記骨格情報に基づき動作間の移行期間を評価するように学習された評価モデルに、特定した前記移行期間に対応する骨格情報を入力して、前記移行期間を評価し、
     前記移行期間の評価結果を出力する、
     処理を実行させることを特徴とする評価プログラム。
  9.  複数の動作を実行する被写体の関節の位置情報に基づく骨格情報を、時系列に取得する取得部と、
     前記時系列の骨格情報に基づき、前記複数の動作に含まれる第一の動作と、第一の動作に続く第二の動作との間の移行期間を特定する特定部と、
     前記骨格情報に基づき動作間の移行期間を評価するように学習された評価モデルに、特定した前記移行期間に対応する骨格情報を入力して、前記移行期間を評価する評価部と、
     前記移行期間の評価結果を出力する出力部と、
     を有することを特徴とする情報処理装置。
PCT/JP2019/038638 2019-09-30 2019-09-30 評価方法、評価プログラムおよび情報処理装置 WO2021064830A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021550781A JP7248137B2 (ja) 2019-09-30 2019-09-30 評価方法、評価プログラムおよび情報処理装置
PCT/JP2019/038638 WO2021064830A1 (ja) 2019-09-30 2019-09-30 評価方法、評価プログラムおよび情報処理装置
US17/683,151 US11995845B2 (en) 2019-09-30 2022-02-28 Evaluation method, storage medium, and information processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/038638 WO2021064830A1 (ja) 2019-09-30 2019-09-30 評価方法、評価プログラムおよび情報処理装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/683,151 Continuation US11995845B2 (en) 2019-09-30 2022-02-28 Evaluation method, storage medium, and information processing apparatus

Publications (1)

Publication Number Publication Date
WO2021064830A1 true WO2021064830A1 (ja) 2021-04-08

Family

ID=75337832

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/038638 WO2021064830A1 (ja) 2019-09-30 2019-09-30 評価方法、評価プログラムおよび情報処理装置

Country Status (3)

Country Link
US (1) US11995845B2 (ja)
JP (1) JP7248137B2 (ja)
WO (1) WO2021064830A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022244135A1 (ja) * 2021-05-19 2022-11-24 日本電信電話株式会社 学習装置、推定装置、学習モデルデータ生成方法、推定方法及びプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116098611B (zh) * 2022-12-07 2024-05-24 上海傅利叶智能科技有限公司 肢体运动康复的评估生成系统、方法及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018069981A1 (ja) * 2016-10-11 2018-04-19 富士通株式会社 運動認識装置、運動認識プログラムおよび運動認識方法
WO2019116495A1 (ja) * 2017-12-14 2019-06-20 富士通株式会社 技認識プログラム、技認識方法および技認識システム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8730245B2 (en) * 2008-12-01 2014-05-20 Naturalmotion Ltd. Defining an animation of a virtual object within a virtual world
US9067097B2 (en) * 2009-04-10 2015-06-30 Sovoz, Inc. Virtual locomotion controller apparatus and methods
US9358456B1 (en) * 2010-06-11 2016-06-07 Harmonix Music Systems, Inc. Dance competition game
DE102012111304A1 (de) * 2012-11-22 2014-05-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, Verfahren und Computerprogramm zur Rekonstruktion einer Bewegung eines Objekts
US20140145936A1 (en) * 2012-11-29 2014-05-29 Konica Minolta Laboratory U.S.A., Inc. Method and system for 3d gesture behavior recognition
US9322653B2 (en) * 2013-01-16 2016-04-26 Disney Enterprises, Inc. Video-based motion capture and adaptation
US10388053B1 (en) * 2015-03-27 2019-08-20 Electronic Arts Inc. System for seamless animation transition
US10262423B2 (en) * 2016-03-29 2019-04-16 Verily Life Sciences Llc Disease and fall risk assessment using depth mapping systems
US10628664B2 (en) * 2016-06-04 2020-04-21 KinTrans, Inc. Automatic body movement recognition and association system
JP2018068516A (ja) 2016-10-26 2018-05-10 国立大学法人名古屋大学 運動動作評価システム
JP6712584B2 (ja) 2017-11-30 2020-06-24 日本電信電話株式会社 運動パフォーマンス評価装置、学習装置、運動パフォーマンス評価方法、学習方法、運動パフォーマンス評価プログラム、学習プログラム
WO2020049692A2 (ja) * 2018-09-06 2020-03-12 株式会社ソニー・インタラクティブエンタテインメント 推定装置、学習装置、推定方法、学習方法及びプログラム
JPWO2021039857A1 (ja) * 2019-08-29 2021-03-04
US11887232B2 (en) * 2021-06-10 2024-01-30 Electronic Arts Inc. Enhanced system for generation of facial models and animation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018069981A1 (ja) * 2016-10-11 2018-04-19 富士通株式会社 運動認識装置、運動認識プログラムおよび運動認識方法
WO2019116495A1 (ja) * 2017-12-14 2019-06-20 富士通株式会社 技認識プログラム、技認識方法および技認識システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022244135A1 (ja) * 2021-05-19 2022-11-24 日本電信電話株式会社 学習装置、推定装置、学習モデルデータ生成方法、推定方法及びプログラム

Also Published As

Publication number Publication date
JPWO2021064830A1 (ja) 2021-04-08
US20220189042A1 (en) 2022-06-16
JP7248137B2 (ja) 2023-03-29
US11995845B2 (en) 2024-05-28

Similar Documents

Publication Publication Date Title
JP6733738B2 (ja) 運動認識装置、運動認識プログラムおよび運動認識方法
JP7367764B2 (ja) 骨格認識方法、骨格認識プログラムおよび情報処理装置
JP7235133B2 (ja) 運動認識方法、運動認識プログラムおよび情報処理装置
JP6082101B2 (ja) 身体動作採点装置、ダンス採点装置、カラオケ装置及びゲーム装置
US11995845B2 (en) Evaluation method, storage medium, and information processing apparatus
JP7014304B2 (ja) 認識方法、認識プログラム、認識装置および学習方法
JP6943294B2 (ja) 技認識プログラム、技認識方法および技認識システム
JP7164045B2 (ja) 骨格認識方法、骨格認識プログラムおよび骨格認識システム
US20220222975A1 (en) Motion recognition method, non-transitory computer-readable recording medium and information processing apparatus
JP2018142815A (ja) 3次元データ取得装置及び方法
US20170154441A1 (en) Orientation estimation method, and orientation estimation device
KR20230055352A (ko) 컨텐츠 제공 및 사용자 평가 방법, 그리고 컨텐츠 제공 및 사용자 평가 시스템
WO2021149250A1 (ja) 運動認識方法、運動認識プログラムおよび情報処理装置
Ojeda et al. Gesture-gross recognition of upper limbs to physical rehabilitation
US20210307652A1 (en) Systems and devices for measuring, capturing, and modifying partial and full body kinematics
CN116648190A (zh) 骨架估计装置、骨架估计方法及体操评分辅助系统
JP2022061784A (ja) 運動解析装置、運動解析方法、及び運動解析プログラム
CN118236061A (zh) 一种功能动作筛查智能指示系统
JP2021022153A (ja) データ処理装置、データ処理方法、およびプログラム
JP2024063331A (ja) 動作解析装置
CN115554685A (zh) 基于视觉的计分方法、电子设备、存储介质及程序产品
CN117065310A (zh) 动作评测方法、装置、异构ai芯片、设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19948179

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021550781

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19948179

Country of ref document: EP

Kind code of ref document: A1