WO2019207714A1 - 動作推定システム、動作推定方法および動作推定プログラム - Google Patents

動作推定システム、動作推定方法および動作推定プログラム Download PDF

Info

Publication number
WO2019207714A1
WO2019207714A1 PCT/JP2018/017005 JP2018017005W WO2019207714A1 WO 2019207714 A1 WO2019207714 A1 WO 2019207714A1 JP 2018017005 W JP2018017005 W JP 2018017005W WO 2019207714 A1 WO2019207714 A1 WO 2019207714A1
Authority
WO
WIPO (PCT)
Prior art keywords
person
action
unit
pose
posture
Prior art date
Application number
PCT/JP2018/017005
Other languages
English (en)
French (fr)
Inventor
裕 宇野
久保 雅洋
友嗣 大野
昌洋 林谷
園 駱
英二 湯本
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2020515390A priority Critical patent/JP7192860B2/ja
Priority to US17/050,594 priority patent/US11848091B2/en
Priority to PCT/JP2018/017005 priority patent/WO2019207714A1/ja
Publication of WO2019207714A1 publication Critical patent/WO2019207714A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/30ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to physical therapies or activities, e.g. physiotherapy, acupressure or exercising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/20ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/63ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for local operation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Definitions

  • the present invention relates to a motion estimation system, a motion estimation method, and a motion estimation program for estimating motions of a plurality of persons.
  • Information representing the movements measured in this way is used as learning data used for learning movements by, for example, educational scenes, robots and AI (Artificial Intelligence).
  • Patent Literature 1 describes a motion learning device that can learn by segmenting continuous motion.
  • the learning device described in Patent Document 1 acquires a model from a plurality of time-series data indicating continuous operations, thereby generating a document including discrete character strings indicated by the model, and is included in the generated document. Extract meaningful clauses from a string and save them.
  • Patent Document 2 describes a technique for recognizing work operations.
  • the analysis information dividing unit reads and splits the analysis information from the analysis information buffer according to the time stamp included in the trigger, and the analysis unit reads the divided analysis information and Analysis is performed using the selected motion model. Specifically, the analysis unit calculates a deviation indicating how much the operation indicated by the divided analysis information deviates from the selected operation model, and outputs it as an analysis result.
  • the movements of the experienced person can be quantified, and it is possible to realize an AI that reproduces the movements of the experienced person by learning based on the quantified data.
  • the operation for which quantification is desired is not only the operation of one user as described in Patent Document 1.
  • the same quantification is required also in a scene where the response is changed according to the reaction of the opponent.
  • Therapist skills often depend on individuals and are difficult to systematize. Therefore, it takes a lot of time to pass on technology to young therapists. If the operation of the therapist can be quantified, it is possible to realize an AI that assists technology transfer to young therapists based on the rehabilitation records of the experienced therapists.
  • the motion learning device described in Patent Document 1 creates time-series data in accordance with the motion presented by the user toward the three-dimensional motion capture camera, and thus is based on the measured motion of one person. It is premised on extracting a certain phrase. For this reason, even if the motion learning device described in Patent Document 1 is used, it is difficult to extract meaningful phrases from motions in which a plurality of persons influence each other.
  • an object of the present invention is to provide a motion estimation system, a motion estimation method, and a motion estimation program capable of estimating the motion of each person from a situation where the motions of a plurality of persons influence each other.
  • the motion estimation system of the present invention acquires, in a time series, the posture of one person and the pose information representing the posture of the other person specified simultaneously in a situation where the motion of one person affects the motion of another person.
  • a pose acquisition unit and an action estimation unit that divides the acquired time-series pose information of each person by unsupervised learning and estimates an action sequence that is a sequence of actions including two or more pose information. It is characterized by.
  • the pose acquisition unit obtains pose information representing the posture of one person and the posture of another person specified simultaneously in a situation where the motion of one person affects the motion of another person.
  • the time estimation is performed, and the action estimation unit divides the acquired time-series pose information of each person by unsupervised learning to estimate an action sequence that is a sequence of actions including two or more pose information.
  • the motion estimation program of the present invention stores, in a time series, pose information representing the posture of one person and the posture of another person specified simultaneously in a situation where the motion of one person affects the motion of another person.
  • Pose acquisition processing to be acquired, and action estimation processing to divide the acquired time-series pose information of each person by unsupervised learning and estimate an action sequence that is a sequence of operations including two or more pose information It is made to perform.
  • the motion of each person can be estimated from the situation where the motions of a plurality of persons influence each other.
  • FIG. 6 is an explanatory diagram illustrating an example of input / output data of a posture / position acquisition unit 20.
  • FIG. 4 is an explanatory diagram illustrating an example of input / output data of a calculation unit 30.
  • FIG. It is explanatory drawing which shows the example of the model which produces
  • the actions of a plurality of persons to be acquired are acquired and quantified.
  • a pose the time series information of each person's posture
  • actions hereinafter referred to as actions
  • actions the actions and actions that are subsequences of the time series of poses.
  • a sequence of symbols (hereinafter referred to as context) is estimated and assigned symbols. That is, an action represents a meaningful group consisting of two or more poses, and an action series represents a time series of actions.
  • rehabilitation a situation in which rehabilitation (hereinafter referred to as “rehabilitation”) is performed).
  • rehabilitation a situation in which rehabilitation (hereinafter referred to as “rehabilitation”) is performed).
  • This situation can be said to be a situation in which the therapist's movement affects the movement of the patient (the therapist and the patient's movement interact with each other).
  • an action represents one action during rehabilitation
  • an action series represents a series of rehabilitation actions.
  • the situation where the present invention is applied is not limited to the operation of the therapist and the patient.
  • a situation assuming the influence of the operation of the childcare worker on the operation of the child or a situation where the operations of the athletes influence each other may be used.
  • this situation is not necessarily limited to a situation where a plurality of persons are in contact with each other, and the present invention can be applied as long as it is a non-contact action that affects each other.
  • FIG. 1 is a block diagram showing a configuration example of an embodiment of the motion estimation system of the present invention.
  • the motion estimation system 100 of this embodiment includes a sensor 10, a posture / position acquisition unit 20, a calculation unit 30, a storage unit 40, an input / output unit 50, and an evaluation unit 60.
  • the storage unit 40 stores various information and parameters necessary for processing to be described later.
  • the storage unit 40 also stores various types of information detected by the sensor 10 and estimated operation results.
  • the contents stored in the storage unit 40 will be described later.
  • the storage unit 40 is realized by, for example, a magnetic disk.
  • Sensor 10 acquires a plurality of persons' operations in time series.
  • the sensor 10 may be realized by an image sensor and a depth sensor.
  • the sensor 10 may be configured to be included in an imaging device (not shown) such as a 3D sensor camera.
  • the sensor 10 may be implement
  • the sensor 10 may be configured to be included in a medium that can be attached to and detached from a human body.
  • each video acquired by each imaging apparatus may be associated with the position where the imaging apparatus is installed.
  • the posture / position acquisition unit 20 acquires information representing the pose of each person (hereinafter referred to as pose information) in time series from the motions of the plurality of persons acquired by the sensor 10. That is, the posture / position acquisition unit 20 acquires the poses of one person and the poses of another person specified simultaneously in time series.
  • pose information information representing the pose of each person (hereinafter referred to as pose information) in time series from the motions of the plurality of persons acquired by the sensor 10. That is, the posture / position acquisition unit 20 acquires the poses of one person and the poses of another person specified simultaneously in time series.
  • the posture / position acquisition unit 20 acquires each person's pose from the information acquired by the sensor 10.
  • the method by which the posture / position acquisition unit 20 acquires each person's pose is arbitrary.
  • the posture / position acquisition unit 20 may recognize poses of a plurality of people using, for example, a learning-based classifier using a random forest.
  • the posture / position acquisition unit 20 may acquire the pose of each person by annotating only one image and extrapolating the subsequent image in the time direction.
  • the pose acquired by the posture / position acquisition unit 20 is arbitrary as long as it is unified throughout the entire process.
  • the posture / position acquisition unit 20 acquires the coordinates of feature points of each person (for example, joints of each part of the body) in time series from the captured image. Also good.
  • the acquired coordinates may be represented by, for example, a vector indicating a pose at each time point. By connecting these coordinates, a skeleton in the shape of a person can be specified.
  • this pause information may be referred to as a symbol string.
  • the information acquired by the posture / position acquisition unit 20 from the video is not limited to the coordinates of the feature points.
  • the posture / position acquisition unit 20 may acquire, for example, a result of recognizing a person in the video, a state, a situation, or the like.
  • video is known widely, detailed description is abbreviate
  • the posture / position acquisition unit 20 may acquire the coordinates of each person in time series.
  • FIG. 2 is an explanatory diagram illustrating an example of input / output data of the posture / position acquisition unit 20. If capturing images with a camera including a sensor 10 which is realized by the depth sensor, the posture / position acquisition unit 20 acquires a color image I t and depth image D t in time sequence. It is assumed that the therapist and the patient are included in this image. At this time, the posture / position acquisition unit 20 outputs the pose p t p pause p t th and patient therapist in time series.
  • the calculation unit 30 divides the acquired time-series pose information of each person by unsupervised learning. Then, the calculation unit 30 estimates an action sequence including two or more pieces of pause information as an action sequence.
  • information representing the estimated action sequence may be referred to as an operation symbol string.
  • FIG. 3 is an explanatory diagram illustrating an example of input / output data of the calculation unit 30.
  • a pause sequence P it can be represented by a matrix containing two poses series.
  • the arithmetic unit 30 outputs an action series A obtained by dividing each pose.
  • a pause sequence p t th arithmetic unit 30 is therapist, to generate M series of actions A M th, a pause sequence p t p of the patient, the m-number of action sequences A m p Indicates that it has been generated.
  • each element is similarly processed using a so-called analogy of characters, words, and sentences (contexts) in natural language. Can be estimated. In other words, it is assumed that a set of actions is determined from a sequence of action symbol strings corresponding to actions.
  • the motion itself is obtained with almost complete information from the time series of poses acquired by the posture / position acquisition unit 20. If it is made to correspond to the processing of natural language, it can be said that the calculating part 30 performs the process which writes down and summarizes the time series of a pause as a "text".
  • the calculating part 30 estimates an action series not only from the pose information of one person but from the pose information of a plurality of persons.
  • the action sequence of a plurality of persons it is possible to quantify the situation in which the action of one person affects the actions of other persons.
  • the problem to be solved here results in the problem of estimating characters (action primitives), words (actions), sentences / contexts from a series of multi-dimensional poses (action series).
  • action series a series of multi-dimensional poses
  • the calculation unit 30 divides each pose sequence of a patient or therapist into action sequences using non-parametric Bayesian estimation based on a hierarchical N-gram.
  • the calculation unit 30 simultaneously divides the patient and therapist pose sequences into action sequences using non-parametric Bayesian estimation based on the multi-layer N-gram model. That is, the arithmetic unit 30 solves a Bayesian model that hierarchically divides a pause time series into an action series by non-parametric Bayes, similarly to a method of solving a Bayesian model that hierarchically divides words into words.
  • the action sequence is estimated.
  • the pause time series X ⁇ x 1 , x 2 ,..., X n ⁇ .
  • the pause time series X is a collection of pause time series of a plurality of persons generated separately. If the action sequence is Z and the interaction between each action is S, the simultaneous distribution p (X, Z, S) is a conditional probability density function p (X
  • X) is obtained by Bayes' theorem
  • the marginal likelihood p (X) is obtained by integrating and eliminating the simultaneous distribution p (X, Z, S) with Z and S. Respectively, it is expressed as the following formula 2 and formula 3.
  • the action sequence can be estimated by sampling from the posterior probability p (Z, S
  • the statistical model used by the calculation unit 30 is arbitrary. The superiority or inferiority of the estimated generation model can be compared, for example, by comparing between models using an information criterion.
  • the calculation unit 30 may estimate an action sequence from the divided actions based on the context representing the situation. For example, even in the same operation, the meaning of the operation differs depending on the situation. For example, even if it is the operation
  • the computing unit 30 of the present embodiment may estimate an action sequence in consideration of a context representing such a situation (that is, a connection between preceding and following operations).
  • FIG. 4 is an explanatory diagram illustrating an example of a model that generates a pause time series.
  • an intervention action sequence Z that is a rehabilitation action sequence is derived based on a rehabilitation methodology S representing an interaction between actions. Further, the intervention action series Z is represented as a set of pause time series Z.
  • the calculation unit 30 stores the estimated action sequence in the storage unit 40.
  • the method by which the calculation unit 30 holds the action sequence is arbitrary.
  • the calculation unit 30 may store the estimated action sequence in the storage unit 40 as a symbol string.
  • the calculating part 30 may match
  • the calculation unit 30 may store the information identifying the therapist and the patient who has performed the rehabilitation and the outcome of the rehabilitation in the storage unit 40 in association with the action.
  • the calculation unit 30 stores a document that includes sentences and images including descriptions related to rehabilitation, and medical record information that includes information such as a patient's disease state, test value, and doctor's diagnosis in association with an action. 40 may be stored.
  • rehabilitation actions and outcomes are collected on a large scale and stored in a database, information on rehabilitation stored in the storage unit 40 can also be referred to as a rehabilitation corpus.
  • rehabilitation corpus by analyzing the rehabilitation corpus, it is possible to systematize rehabilitation technology based on data, and to generate AI that mimics the technology of an excellent therapist. For example, by extracting information stored in the storage unit 40 for a specific intervention (rehabilitation intervention) and comparing the distribution of outcomes for each intervention, it is possible to grasp rehabilitation interventions that are easier to obtain outcomes. Become. Moreover, you may consider the combination with a patient's disease state with respect to these distributions.
  • a learning unit that deeply learns a function f that outputs a rehabilitation intervention that is appropriate (for example, the expected value of the outcome gain is the maximum) using background information such as a patient's pathology, age, sex, and brain image as input. (Not shown) may be included in the motion estimation system 100.
  • the rehabilitation corpus includes information indicating tacit knowledge and judgment ability of an excellent therapist. Therefore, by learning the therapist AI using the rehabilitation corpus stored in the storage unit 40, it becomes possible to grasp the suggestion of the excellent therapist (for example, discrimination points, intervention points, treatment plans).
  • the input / output unit 50 outputs information corresponding to the estimated action sequence. Further, the input / output unit 50 may accept labeling from the user for each action included in the estimated action sequence.
  • Each action estimated in the present embodiment is not given an explicit label (that is, specific contents of the action). Therefore, by labeling each action as intended by the user, the contents of each action can be managed in a manner that the user can easily recognize.
  • the input / output unit 50 outputs the estimated action sequence in association with the photographed video. May be. At that time, the input / output unit 50 may output action sequences acquired from the same person at different times in parallel. Furthermore, at that time, the input / output unit 50 may control the output of the video in units of estimated actions.
  • FIG. 5 is an explanatory diagram illustrating an example of processing for outputting a video corresponding to an estimated action sequence.
  • the sensor 10 has acquired the video I illustrated in FIG.
  • the patient action sequences A p1 to A p3 are estimated by the arithmetic unit 30 and the therapist action sequences A th1 to A th3 are estimated.
  • the input / output unit 50 may output the operations of the patient and the therapist according to the time of the cut pose information.
  • the input / output unit 50 may output the estimated action sequence of the same person in parallel. Specifically, the input / output unit 50 may output, in parallel, action sequences of the same person among the same action sequences.
  • By outputting video in parallel in this way it becomes possible to grasp changes in behavior with the passage of time at a time. For example, in the case of rehabilitation, by outputting the same therapist and the rehabilitation status of the patient in parallel, it becomes possible to grasp the degree of recovery of the patient at a glance.
  • the evaluation unit 60 evaluates the action of the person from the action series stored in the storage unit 40. Specifically, when the posture / position acquisition unit 20 newly acquires the pose information of each person in time series, the evaluation unit 60 includes the acquired time series pose information and the action series stored in the storage unit 40. The action of each person is evaluated by comparing with the actions included in.
  • the evaluation unit 60 may evaluate a person's movement by a method in which the evaluation is higher as the similarity between the matrix indicating the time-series pause information and the matrix indicating the action stored in the storage unit 40 is higher, for example. Good. At that time, for example, the evaluation unit 60 may calculate that the similarity is higher as the difference between the elements corresponding to normalization of each matrix is smaller. Note that the evaluation method and the similarity calculation method shown here are examples, and any method can be used as long as it is a method for evaluating the closeness between the action sequence stored in the storage unit 40 and the action of the person. Is possible. By performing such an evaluation, it is possible to increase the effect of learning a model operation.
  • the posture / position acquisition unit 20, the calculation unit 30, the input / output unit 50, and the evaluation unit 60 are realized by a CPU of a computer that operates according to a program (motion estimation program).
  • the program is stored in the storage unit 40 of the motion estimation system, and the CPU reads the program and operates as the posture / position acquisition unit 20, the calculation unit 30, the input / output unit 50, and the evaluation unit 60 according to the program. Also good.
  • each of the posture / position acquisition unit 20, the calculation unit 30, the input / output unit 50, and the evaluation unit 60 may be realized by dedicated hardware.
  • FIG. 6 is a flowchart showing an operation example of the motion estimation system 100 of the present embodiment.
  • the sensor 10 simultaneously acquires the actions of a plurality of persons in a situation where the action of one person affects the actions of other persons (step S11).
  • the posture / position acquisition unit 20 acquires the posture of one person and the pose information of another person in time series (step S12).
  • the calculation unit 30 divides the acquired time series pose information of each person by unsupervised learning to estimate an action series (step S13).
  • the computing unit 30 stores the estimated action sequence in the storage unit 40 (step S14).
  • the posture / position acquisition unit 20 acquires pose information representing the posture of one person and the posture of another person in time series, and the calculation unit 30 acquires each acquired person.
  • the action sequence is estimated by dividing the time series pose information by unsupervised learning. Therefore, the motion of each person can be estimated from the situation where the motions of a plurality of people influence each other.
  • the posture / position acquisition unit 20 acquires the pose information of a plurality of persons at the same time, it is possible to estimate the movements of the persons related to each other with high accuracy.
  • the posture / position acquisition unit 20 and the calculation unit 30 discretize an action sequence and assign an optimal symbol (symbol), thereby writing down an action sequence (for example, rehabilitation) as a symbol string.
  • the rehabilitation symbol string is obtained by adding discrete symbols to an operation time series in which rehabilitation practice is quantified.
  • the arithmetic unit 30 records a rehabilitation symbol string together with information on rehabilitation outcomes and electronic medical records in the storage unit 40, thereby creating a rehabilitation database (symptoms, rehabilitation performed, rehabilitation results, etc.). It is also possible to do.
  • FIG. 7 is a block diagram showing an outline of the motion estimation system according to the present invention.
  • the motion estimation system 80 eg, motion estimation system 100
  • the motion estimation system 80 is simultaneously identified in a situation where the motion of one person (eg, a therapist) affects the motion of another person (eg, a patient).
  • a pose acquisition unit 81 for example, posture / position acquisition unit 20
  • An action estimation unit 82 for example, the calculation unit 30
  • estimates an action sequence that is a sequence of operations including two or more pieces of pause information by dividing by no learning.
  • the action estimation unit 82 may estimate an action sequence from the divided actions based on a context (for example, a grammar model) representing a situation.
  • a context for example, a grammar model
  • the pose acquisition unit 81 may acquire the therapist's posture and the patient's pose information in time series during rehabilitation. Then, the action estimation unit 82 estimates the action sequence by dividing the acquired therapist and patient pose information, and based on the rehabilitation methodology representing the interaction between the actions from the estimated action sequence, the action of the rehabilitation An intervention action sequence that is a sequence may be derived.
  • the motion estimation system 80 may include an output unit (for example, the input / output unit 50) that outputs information according to the estimated action sequence. Then, the pose acquisition unit 81 acquires pose information in time series from video images of one person and another person, and the output unit outputs the estimated action sequence in association with the video images. May be. With such a configuration, it becomes possible to navigate the action (action) while referring to the video.
  • an output unit for example, the input / output unit 50
  • the output unit may control the output of the video in units of actions. According to such a configuration, it is possible to confirm the sequential operation in units of actions.
  • the motion estimation system 80 may include a storage unit (for example, the storage unit 40) that stores the estimated action sequence. Then, the action estimation unit 82 may store information for identifying one person and another person in the storage unit in association with the estimated action sequence. According to such a configuration, the storage unit that stores the action sequence can be used as a so-called rehabilitation corpus.
  • the motion estimation system 80 may include an evaluation unit (for example, the evaluation unit 60) that evaluates a person's motion from the action sequence stored in the storage unit.
  • the pose acquisition unit 81 newly acquires the pose information of each person in time series, and the evaluation unit includes the acquired time series pose information and the actions included in the action series stored in the storage unit. May be compared to evaluate the movement of each person. With such a configuration, it is possible to increase the effect of learning a model operation.
  • the motion estimation system 80 may include an input unit (for example, the input / output unit 50) that receives labeling from the user for each action included in the estimated action sequence.
  • an input unit for example, the input / output unit 50
  • the contents of each action can be managed in a manner that is easy for the user to recognize.
  • the present invention is preferably applied to a motion estimation system that estimates motions of a plurality of people.
  • the present invention is preferably applied when data of a rehabilitation intervention for improving the efficiency of convalescent rehabilitation is used.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Physical Education & Sports Medicine (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Human Computer Interaction (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Business, Economics & Management (AREA)

Abstract

動作推定システム80は、ポーズ取得部81と、アクション推定部82とを備えている。ポーズ取得部81は、一の人物の動作が他の人物の動作に影響を及ぼす状況において同時に特定される、その一の人物の姿勢および他の人物の姿勢を表すポーズ情報を時系列に取得する。アクション推定部82は、取得された各人物の時系列のポーズ情報を教師なし学習により分割して、二以上のポーズ情報を含む動作の系列であるアクション系列を推定する。

Description

動作推定システム、動作推定方法および動作推定プログラム
 本発明は、複数人の動作を推定する動作推定システム、動作推定方法および動作推定プログラムに関する。
 コンピュータビジョンの技術の発展に伴い、非接触で動作を計測することが可能になっている。このように計測された動作を表す情報は、例えば、教育の場面、ロボットやAI(Artificial Intelligence )などが動作を学習するために用いる学習データとして利用される。
 一方、個々の動作ごとに逐次計測を行って記憶することは非常に手間のかかる作業である。このように動作ごとに計測して記録する煩雑さを解消するため、計測された連続動作を分節化する方法も知られている。
 例えば、特許文献1には、連続動作を分節化して学習できる動作学習装置が記載されている。特許文献1に記載された学習装置は、連続する動作を示す複数の時系列データからモデルを獲得することによって、モデルが示す離散的な文字列を含む文書を生成し、生成した文書に含まれる文字列から意味のある文節を抽出して保存する。
 また、特許文献2には、作業動作を認識する技術が記載されている。特許文献2に記載されたシステムでは、解析用情報分割部が、トリガに含まれるタイムスタンプに従い、解析用情報バッファから解析用情報を分割して読み込み、解析部が、分割された解析用情報と選択された動作モデルを用いて解析を行う。具体的には、解析部が、分割された解析用情報によって示される動作が選択された動作モデルからどの程度逸脱しているかを表す逸脱度を算出し、それを解析結果として出力する。
特開2009-276886号公報 特開2017-276886号公報
 計測された動作を逐次蓄積することで、経験者の動作を定量化できるため、定量化されたデータに基づいて学習することで経験者の動作を再現するAIを実現することが可能になる。
 しかし、定量化が所望される動作は、特許文献1に記載されているような、1人のユーザの動作だけではない。例えば、相手の反応に応じて対応を変化させるような場面にも、同様の定量化が求められている。
 例えば、上述する場面の一例として、セラピストの動作が挙げられる。高齢化に伴い、脳卒中患者の数も増加していることから、脳卒中に伴う運動麻痺の患者のリハビリテーションの重要性が高まっているが、セラピストの数が患者の増加に追い付いていないという現実がある。
 セラピストのスキルは、個人に依存するものが多く、体系化も難しい。そのため、若手セラピストへの技術継承は多くの時間が必要になる。セラピストの動作を定量化できれば、ベテランセラピストのリハビリ記録をもとにした、若手セラピストへの技術移転を助けるようなAIを実現することも可能であると考えられる。
 特許文献1に記載された動作学習装置を用いることで、セラピストが患者に対して行う施術をセラピストの動作として定量化することは可能である。しかし、セラピストの動作は、患者の反応に応じて変化するものであり、セラピストの動作のみを定量化したとしても、意味のある定量化が行われたとは言い難い。
 すなわち、特許文献1に記載された動作学習装置は、ユーザが3次元モーションキャプチャカメラに向かって提示した動作に応じて時系列データを作成することから、測定された1人の動作に基づいて意味のある文節を抽出することを前提としている。そのため、特許文献1に記載された動作学習装置を用いたとしても、複数の人物が相互に影響を及ぼしあう動作から意味のある文節を抽出することは困難である。
 なお、特許文献2に記載されたシステムでは、トリガ生成テーブルに基づいて生成したトリガに基づいて単純に分割した動作時系列データを溜めているにすぎない。そのため、想定される各動作に対して予めトリガの条件を設定しておく必要があり、設定された条件以外の動作を分割することも困難である。
 そこで、本発明は、複数の人物の動作が相互に影響を及ぼしあう状況から各人物の動作を推定できる動作推定システム、動作推定方法および動作推定プログラムを提供することを目的とする。
 本発明の動作推定システムは、一の人物の動作が他の人物の動作に影響を及ぼす状況において同時に特定される一の人物の姿勢および他の人物の姿勢を表すポーズ情報を時系列に取得するポーズ取得部と、取得された各人物の時系列のポーズ情報を教師なし学習により分割して、二以上のポーズ情報を含む動作の系列であるアクション系列を推定するアクション推定部とを備えたことを特徴とする。
 本発明の動作推定方法は、ポーズ取得部が、一の人物の動作が他の人物の動作に影響を及ぼす状況において同時に特定される一の人物の姿勢および他の人物の姿勢を表すポーズ情報を時系列に取得し、アクション推定部が、取得された各人物の時系列のポーズ情報を教師なし学習により分割して、二以上のポーズ情報を含む動作の系列であるアクション系列を推定することを特徴とする。
 本発明の動作推定プログラムは、コンピュータに、一の人物の動作が他の人物の動作に影響を及ぼす状況において同時に特定される一の人物の姿勢および他の人物の姿勢を表すポーズ情報を時系列に取得するポーズ取得処理、および、取得された各人物の時系列のポーズ情報を教師なし学習により分割して、二以上のポーズ情報を含む動作の系列であるアクション系列を推定するアクション推定処理を実行させることを特徴とする。
 本発明によれば、複数の人物の動作が相互に影響を及ぼしあう状況から各人物の動作を推定できる。
本発明の動作推定システムの一実施形態の構成例を示すブロック図である。 姿勢/位置取得部20の入出力データの例を示す説明図である。 演算部30の入出力データの例を示す説明図である。 ポーズ時系列を生成するモデルの例を示す説明図である。 推定されたアクション系列に対応させて映像を出力する処理の例を示す説明図である。 動作推定システムの動作例を示すフローチャートである。 本発明による動作推定システムの概要を示すブロック図である。
 本発明では、対象とする複数の人物の動作を取得して定量化する。具体的には、本発明では、各人物の姿勢(以下、ポーズと記す。)の時系列情報のみを用いて、ポーズの時系列の部分列である動作(以下、アクションと記す。)およびアクションの系列(以下、文脈と記す。)を推定してシンボルを割り当てる。すなわち、アクションは、二以上のポーズからなる意味のある纏まりを表わし、アクション系列は、アクションの時系列の纏まりを表わす。
 その際、本発明では、一の人物の動作が他の人物の動作に影響を及ぼす状況(すなわち、複数の人物の動作が相互に影響を及ぼしあう状況)を想定する。これにより、複数の人物を撮影した映像から、相互に影響を及ぼす動作を文書化する。なお、ここでの文書化とは、具体的な文書として明文化する処理に限定されず、推定されたアクションおよび文脈をデータベース化する処理も含まれる。
 また、以下では、具体的な状況を明確にするため、セラピストが患者に対して施術を行う状況(リハビリテーション(以下、リハビリと記す。)を行う状況)を例に説明する。この状況は、セラピストの動作が患者の動作に影響を与える(セラピストと患者の動作が相互に影響を及ぼしあう)状況であると言える。本具体例の場合、アクションはリハビリ中の一つの行為を表わし、アクション系列は、一連のリハビリ行為を表わす。
 ただし、本発明が適用される状況は、セラピストと患者との動作に限定されない。他にも、例えば、保育士の動作が子供の動作に与える影響を想定した状況や、スポーツ選手同士の動作が互いに影響し合う状況などであってもよい。また、この状況は、必ずしも複数の人物が接触する動作を行う状況に限定されず、非接触の動作であっても互いに影響し合う状況であれば、本発明を適用可能である。
 以下、本発明の実施形態を図面を参照して説明する。
 図1は、本発明の動作推定システムの一実施形態の構成例を示すブロック図である。本実施形態の動作推定システム100は、センサ10と、姿勢/位置取得部20と、演算部30と、記憶部40と、入出力部50と、評価部60とを備えている。
 記憶部40は、後述する処理に必要な各種情報やパラメータを記憶する。また、記憶部40は、センサ10によって検出された各種情報や、推定された動作結果も記憶する。記憶部40が記憶する内容については後述される。記憶部40は、例えば、磁気ディスク等により実現される。
 センサ10は、複数の人物の動作を時系列に取得する。例えば、人物の動作を映像として取得する場合、センサ10は、イメージセンサおよび深度センサによって実現されていてもよい。この場合、センサ10は、3Dセンサカメラなどの撮像装置(図示せず)に含まれる構成であってもよい。また、例えば、人物の体の各部の位置を座標として取得する場合、センサ10は、例えば、ウェアラブルセンサによって実現されていてもよい。この場合、センサ10は、人物の体に着脱可能な媒体に含まれる構成であってもよい。
 なお、複数の人物の動作を取得することから、センサ10は、非接触計測で動作をデータ化できることが好ましい。また、複数の人物の動作を映像として取得する場合、一方向からの映像だけでは一の人物の存在により他の人物が隠れてしまう可能性があるため、複数の撮像装置で複数の方向から映像を取得できることが好ましい。この場合、各撮像装置が取得したそれぞれの映像は、撮像装置を設置する位置等に応じて対応付けられればよい。
 姿勢/位置取得部20は、センサ10によって取得された複数の人物の動作から、各人物のポーズを表す情報(以下、ポーズ情報と記す。)を時系列に取得する。すなわち、姿勢/位置取得部20は、同時に特定される一の人物のポーズおよび他の人物のポーズを時系列に取得する
 具体的には、姿勢/位置取得部20は、センサ10によって取得された情報から、各人物のポーズをそれぞれ取得する。姿勢/位置取得部20が各人物のポーズをそれぞれ取得する方法は任意である。姿勢/位置取得部20は、例えば、ランダムフォレストを用いた学習ベースの識別器を用いて、複数人のポーズを認識してもよい。
 例えば、一の人物がセラピストであり、他の人物が患者であるとする。この場合、一の人物と他の人物とは、画像から一見して明らかであると言える。このような場合、姿勢/位置取得部20は、一枚の画像にだけアノテーションを行い、その後の画像について時間方向に外挿することで、各人物のポーズを取得してもよい。
 姿勢/位置取得部20が取得するポーズは、全体の処理を通して統一されていれば、その内容は任意である。例えば、センサ10によって映像が撮影されている場合、姿勢/位置取得部20は、撮影された映像から時系列に各人物の特徴点(例えば、体の各部の関節など)の座標を取得してもよい。取得された座標は、例えば、各時点のポーズを示すベクトルで表されていてもよい。これらの座標を繋ぐことで、人物の形のスケルトンを特定できる。また、このポーズ情報のことを記号列と記すこともある。
 なお、姿勢/位置取得部20が映像から取得する情報は、特徴点の座標に限定されない。姿勢/位置取得部20は、例えば、映像中の人物を認識した結果や、状態、状況などを取得してもよい。なお、映像から人物の状態や状況などを取得する方法は広く知られているため、ここでは詳細な説明を省略する。
 また、例えば、センサ10によって人物の体の各部の位置の座標が取得されている場合、姿勢/位置取得部20は、人物ごとの座標を時系列に取得してもよい。
 図2は、姿勢/位置取得部20の入出力データの例を示す説明図である。深度センサで実現されるセンサ10を含むカメラで画像を撮影した場合、姿勢/位置取得部20は、カラー画像Iおよび深度画像Dを時系列に取得する。この画像にセラピストおよび患者が含まれているとする。このとき、姿勢/位置取得部20は、セラピストのポーズp thと患者のポーズp とを時系列に出力する。
 演算部30は、取得された各人物の時系列のポーズ情報を教師なし学習により分割する。そして、演算部30は、二以上のポーズ情報を含む動作の系列をアクション系列として推定する。以下の説明では、この推定するアクション系列を表す情報を動作記号列と記すこともある。
 図3は、演算部30の入出力データの例を示す説明図である。ポーズとしてセラピストのポーズp thと患者のポーズp が取得された場合、ポーズ系列Pを、2つのポーズ系列を含む行列で表すことができる。ポーズ系列Pが入力されると、演算部30は、それぞれのポーズを分割したアクション系列Aを出力する。図3に示す例では、演算部30がセラピストのポーズ系列p thから、M個のアクション系列A thを生成し、患者のポーズ系列p から、m個のアクション系列A を生成したことを示す。
 なお、上述するように、各アクションは、一以上のポーズ情報を含む。そのため、例えば、セラピストのアクション系列A thは、A th=[p *-1 p *  *+1]と表わすことができる。
 本発明では、人物の動作から取得されるポーズ情報、アクション、および、アクションの集合体に関して、いわゆる自然言語における文字、単語、および、文章(文脈)のアナロジーを用いて、同様の方法で各要素を推定できると想定する。すなわち、アクションの集合体は、アクションに対応する動作記号列の並びから決定されると想定する。
 本実施形態では、姿勢/位置取得部20が取得するポーズの時系列より、動作自体がほぼ完全な情報で得られているとする。自然言語の処理に対応させると、演算部30は、ポーズの時系列を「文章」として書き下し、要約する処理を行うと言える。
 さらに、本実施形態では、演算部30は、1人の人物のポーズ情報だけでなく、複数の人物のポーズ情報からアクション系列を推定する。このように、複数人物のアクション系列を推定することで、一の人物の動作が他の人物の動作に影響を及ぼす状況を定量化できる。
 ここで解くべき問題は、多次元のポーズの系列(動作の系列)から、文字(アクションプリミティブ)、単語(アクション)、文章・文脈を推定するという問題に帰着する。上述するように、本実施形態では、自然言語とのアナロジーで動作を捉えようとしており、言語において書かれた文章の集まりから、教師なしで形態素・単語・文章の纏まりを推定する問題と基本的に同様の構造を有する。
 例えば、ある人物が車を運転し、交差点で左折する状況を考える。「左折する」という文脈には、「ブレーキを踏んで減速し」、「方向指示器を転倒させ」、「左のミラーを確認し」、「左側方向を目視し」、「ハンドルを左に回し」、「その後加速し」、「ハンドルを戻す」、などのような一連のアクションの系列が含まれると理解できる。このような状況において、車の姿勢や速度と、ドライバーの操作などの多次元時系列を適切な粒度で分節化(分割)して、アクションの系列を推定し、そのアクションに適当な文字を割り当てることで、元の時系列を低次元化して、文字列に変換し、要約することが可能になる。
 具体例として、演算部30は、患者またはセラピスト単体のポーズ系列それぞれを階層Nグラムに基づき、ノンパラメトリックベイズ推定を用いてアクション系列に分割する。または、演算部30は、患者とセラピストのポーズ系列を同時に、多重階層Nグラムモデルに基づき、ノンパラメトリックベイズ推定を用いてアクション系列に分割する。すなわち、演算部30は、単語と単語の分割を階層的に行うベイズモデルを解く方法と同様に、ポーズ時系列からアクション系列への分割を階層的に行うベイズモデルをノンパラメットリックベイズで解くことにより、アクション系列を推定する。
 ここで、ポーズ時系列X={x,x,…,x}とする。このポーズ時系列Xは、別々に生成された複数の人物のポーズ時系列を纏めたものである。また、アクション系列をZとし、各アクション間の相互作用をSとすると、同時分布p(X,Z,S)は、パラメータZによって定まるXの条件付き確率密度関数p(X|Z)、および、パラメータSによって定まるZの条件付き確率密度関数p(Z|S)を用いて、以下に例示する式1のように表される。
 p(X,Z,S)=p(X|Z)p(Z|S)p(S)  (式1)
 このとき、事後確率p(Z, S|X)はベイズの定理により、また、周辺尤度p(X)は、同時分布p(X,Z,S)をZ,Sで積分消去して、それぞれ、以下に例示する式2および式3のように表される。
 p(Z,S|X)=p(X,Z,S)/p(X)  (式2)
 p(X)=∫p(X,Z,S)dZdS   (式3)
 演算部30は、ポーズ時系列Xが与えられた場合の事後確率p(Z, S|X)を最大化するアクション系列Z={Z},Sを推定する。具体的には、マルコフ連鎖モンテカルロ法(または、それに類する方法)で事後確率p(Z, S|X)からのサンプリングを行うことでアクション系列を推定できる。なお、演算部30が用いる統計モデルは任意である。推定された生成モデルの優劣は、例えば、情報量基準を用いてモデル間の比較を行うことで、比較可能である。
 さらに、演算部30は、状況を表す文脈に基づいて、分割された動作からアクション系列を推定してもよい。例えば、同じ動作であっても、状況に応じてその動作の意味する内容は異なる。例えば、リハビリにおいて同じ下肢を上げる動作であっても、それが下肢のリハビリを行う動作か、下肢の位置を固定したうえで他の部位のリハビリを行う動作かは、状況によって異なる。本実施形態の演算部30は、そのような状況を表す文脈(すなわち、前後の動作のつながり)を考慮してアクション系列を推定してもよい。
 具体的には、上述するリハビリの例の場合、統計モデルによって生成されるポーズ時系列を、実際に観測して記録する過程を表す観測モデルや、リハビリアプローチ(文脈・シチュエーション)に基づいて生成される文法モデルなども含めて、さらに階層化することも可能である。図4は、ポーズ時系列を生成するモデルの例を示す説明図である。図4に例示するように、各アクション間の相互作用を表すリハビリ方法論Sに基づいて、リハビリのアクション系列である介入行動系列Zが導出される。また、介入行動系列Zは、ポーズ時系列Zの集合として表される。
 演算部30は、推定したアクション系列を記憶部40に記憶する。演算部30がアクション系列を保持する方法は任意である。上述するように、演算部30は、推定したアクション系列を記号列として記憶部40に記憶してもよい。また、演算部30は、推定したアクション系列とともに、そのアクションが行われた日時や背景情報などを対応付けて記憶部40に記憶してもよい。
 例えば、上述するリハビリの例の場合、演算部30は、撮影されたリハビリを実施したセラピストおよび患者を識別する情報や、リハビリによるアウトカムをアクションに対応付けて記憶部40に記憶してもよい。他にも、演算部30は、リハビリに関連した記述を含む文章や画像を表す文献や、患者の病態や検査値、医師の診断などの情報を含むカルテ情報を、アクションと対応付けて記憶部40に記憶してもよい。このように、リハビリのアクションやアウトカムが大規模に集められてデータベース化されることから、記憶部40に記憶されたリハビリに関する情報のことを、リハビリコーパスと言うこともできる。
 また、リハビリで行ったアクションとその結果(アクトカム)とを蓄積することにより、リハビリのより適切な実践方法を把握することも可能になる。例えば、1回のリハビリの前後での患者動作(例えば、歩行課題)の計測を行い、データ化を行うことで、リハビリの効果を推定することも可能になる。
 また、リハビリコーパスを分析することで、データに基づいたリハビリ技術を体系化でき、優秀なセラピストの技術を模倣したAIを生成することも可能になる。例えば、特定の介入(リハビリ介入)について、記憶部40に記憶された情報を抽出し、介入ごとのアウトカムの分布を比較することで、アウトカムがより得られやすいリハビリ介入を把握することが可能になる。また、これらの分布に対して患者の病態との組み合わせを考慮してもよい。
 また、これらの分析には様々な統計モデルを用いることが可能である。例えば、患者の病態や年齢、性別、脳画像などの背景情報を入力として、適切な(例えば、アウトカムのゲインの期待値が最大)になるリハビリ介入を出力する関数fを深層学習する学習部(図示せず)を動作推定システム100が含んでいてもよい。
 すなわち、リハビリコーパスは、優秀セラピストの暗黙知や判断能力を示す情報を含んでいると言える。そのため、記憶部40に記憶されたリハビリコーパスを利用してセラピストAIを学習することで、優秀セラピストの示唆(例えば、鑑別ポイントや介入ポイント、治療計画)を把握することが可能になる。
 入出力部50は、推定されたアクション系列に応じた情報を出力する。また、入出力部50は、推定されたアクション系列に含まれる各アクションに対するユーザからのラベル付けを受け付けてもよい。本実施形態で推定された各アクションには、明示的なラベル(すなわち、アクションの具体的内容)は付与されていない。そこで、各アクションに対してユーザが意図したラベル付けを行うことで、各アクションの内容をユーザが認識しやすい態様で管理できる。
 また、姿勢/位置取得部20が、各人物が撮影された映像から時系列にポーズ情報を取得した場合、入出力部50は、推定されたアクション系列を撮影された映像に対応付けて出力してもよい。また、その際、入出力部50は、異なる時間に同一人物から取得されたアクション系列を並列に出力してもよい。さらに、その際、入出力部50は、推定されたアクションの単位で映像の出力を制御してもよい。
 図5は、推定されたアクション系列に対応させて映像を出力する処理の例を示す説明図である。例えば、センサ10が図5に例示する映像Iを取得していたとする。ここで、演算部30により患者のアクション系列Ap1~Ap3が推定され、セラピストのアクション系列Ath1~Ath3が推定されたとする。この場合、入出力部50は、切り取られたポーズ情報の時間に合わせて、患者およびセラピストの動作をそれぞれ出力するようにしてもよい。このように映像を出力することで、映像を参照しながらアクションをナビゲートすることが可能になる。
 また、入出力部50は、推定された同一人物のアクション系列を並列に出力してもよい。具体的には、入出力部50は、同一のアクション系列のうち、同一人物同士のアクション系列を、それぞれ並列に出力してもよい。このように並列して映像を出力することで、時間の経過に伴う行動の変化を一度に把握することが可能になる。例えば、リハビリの例の場合、同一のセラピストおよび患者のリハビリの状況を並列に出力することで、患者の回復度合いを一見して把握することが可能になる。
 評価部60は、記憶部40に記憶されたアクション系列から人物の動作を評価する。具体的には、姿勢/位置取得部20が各人物のポーズ情報を時系列に新たに取得すると、評価部60は、取得された時系列のポーズ情報と、記憶部40に記憶されたアクション系列に含まれるアクションとを比較して、各人物の動作を評価する。
 評価部60は、例えば、時系列のポーズ情報を示す行列と、記憶部40に記憶されたアクションを示す行列との類似度が高いほど評価を高くする方法によって、人物の動作を評価してもよい。その際、評価部60は、例えば、各行列を正規化した場合に対応する各要素の差分が小さいほど類似度が高いと算出してもよい。なお、ここで示す評価方法や類似度の算出方法は一例であり、記憶部40に記憶されたアクション系列と人物の動作との近さを評価する方法であれば、任意の方法を用いることが可能である。このような評価を行うことで、模範とする動作を学習する効果を上げることが可能になる。
 姿勢/位置取得部20と、演算部30と、入出力部50と、評価部60とは、プログラム(動作推定プログラム)に従って動作するコンピュータのCPUによって実現される。例えば、プログラムは、動作推定システムの記憶部40に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、姿勢/位置取得部20、演算部30、入出力部50および評価部60として動作してもよい。また、姿勢/位置取得部20と、演算部30と、入出力部50と、評価部60とは、それぞれが専用のハードウェアで実現されていてもよい。
 次に、本実施形態の動作推定システム100の動作を説明する。図6は、本実施形態の動作推定システム100の動作例を示すフローチャートである。まず、センサ10が、一の人物の動作が他の人物の動作に影響を及ぼす状況において、複数の人物の動作を同時に取得する(ステップS11)。姿勢/位置取得部20は、一の人物の姿勢および他の人物のポーズ情報を時系列に取得する(ステップS12)。
 演算部30は、取得された各人物の時系列のポーズ情報を教師なし学習により分割してアクション系列を推定する(ステップS13)。演算部30は、推定したアクション系列を記憶部40に記憶する(ステップS14)。
 以上のように、本実施形態では、姿勢/位置取得部20が、一の人物の姿勢および他の人物の姿勢を表すポーズ情報を時系列に取得し、演算部30が、取得された各人物の時系列のポーズ情報を教師なし学習により分割してアクション系列を推定する。よって、複数の人物の動作が相互に影響を及ぼしあう状況から各人物の動作を推定できる。
 例えば、1人の動作をそれぞれ単独で取得して組み合わせたとしても、総合に影響する動作の推定精度を上げることは困難である。一方、本実施形態では、姿勢/位置取得部20が複数の人物のポーズ情報を同時に取得するため、相互に関連する人物の動作を高精度に推定できる。
 また、例えば、特許文献2に記載された方法では、動作時系列を離散化せずに、ある種の距離を算出して動作の逸脱度や相関を判断する。一方、本実施形態では、姿勢/位置取得部20および演算部30が動作の系列を離散化し、最適なシンボル(記号)を割り当てることで、アクション系列(例えば、リハビリ)を記号列として書き下す。例えば、リハビリの記号列は、リハビリの実践を定量化した動作時系列に、離散化したシンボルを付与したものである。このようにすることで、単純に動作時系列データを溜める場合と異なり、上述する索引を用いることで記号推論を行うことも可能になる。さらに、演算部30が、リハビリ記号列と、リハビリのアウトカムや電子カルテの情報とをあわせて記憶部40に記録することで、リハビリに関するデータベース(症状、行ったリハビリ、リハビリの成果など)を作成することも可能になる。
 次に、本発明の概要を説明する。図7は、本発明による動作推定システムの概要を示すブロック図である。本発明による動作推定システム80(例えば、動作推定システム100)は、一の人物(例えば、セラピスト)の動作が他の人物(例えば、患者)の動作に影響を及ぼす状況において同時に特定される、その一の人物の姿勢および他の人物の姿勢を表すポーズ情報を時系列に取得するポーズ取得部81(例えば、姿勢/位置取得部20)と、取得された各人物の時系列のポーズ情報を教師なし学習により分割して、二以上のポーズ情報を含む動作の系列であるアクション系列を推定するアクション推定部82(例えば、演算部30)とを備えている。
 そのような構成により、複数の人物の動作が相互に影響を及ぼしあう状況から各人物の動作を推定できる。
 また、アクション推定部82は、状況を表す文脈(例えば、文法モデル)に基づいて、分割された動作からアクション系列を推定してもよい。
 具体的には、ポーズ取得部81は、リハビリテーションにおいてセラピストの姿勢および患者のポーズ情報を時系列に取得してもよい。そして、アクション推定部82は、取得されたセラピストおよび患者のポーズ情報を分割してアクション系列を推定し、推定されたアクション系列から各アクション間の相互作用を表すリハビリ方法論に基づいて、リハビリテーションのアクション系列である介入行動系列を導出してもよい。
 また、動作推定システム80は、推定されたアクション系列に応じた情報を出力する出力部(例えば、入出力部50)を備えていてもよい。そして、ポーズ取得部81は、一の人物および他の人物が撮影された映像から時系列にポーズ情報を取得し、出力部は、推定されたアクション系列を撮影された映像に対応付けて出力してもよい。このような構成により、映像を参照しながら動作(アクション)をナビゲートすることが可能になる。
 その際、出力部は、アクションの単位で映像の出力を制御してもよい。そのような構成によれば、アクションの単位で逐次動作を確認することが可能になる。
 また、動作推定システム80は、推定されたアクション系列を記憶する記憶部(例えば、記憶部40)を備えていてもよい。そして、アクション推定部82は、推定されたアクション系列に一の人物および他の人物を識別する情報を対応付けて記憶部に記憶してもよい。このような構成によれば、アクション系列を記憶する記憶部を、いわゆるリハビリコーパスとして利用することが可能になる。
 また、動作推定システム80は、記憶部に記憶されたアクション系列から人物の動作を評価する評価部(例えば、評価部60)を備えていてもよい。このとき、ポーズ取得部81は、各人物のポーズ情報を時系列に新たに取得し、評価部は、取得された時系列のポーズ情報と、記憶部に記憶されたアクション系列に含まれるアクションとを比較して、各人物の動作を評価してもよい。そのような構成により、模範とする動作を学習する効果を上げることが可能になる。
 また、動作推定システム80は、推定されたアクション系列に含まれる各アクションに対するユーザからのラベル付けを受け付ける入力部(例えば、入出力部50)を備えていてもよい。そのような構成により、各アクションの内容をユーザが認識しやすい態様で管理できる。
 本発明は、複数人の動作を推定する動作推定システムに好適に適用される。例えば、本発明は、回復期リハビリテーションを効率化するためのリハビリ介入をデータ化する際に、好適に適用される。
 10 センサ
 20 姿勢/位置取得部
 30 演算部
 40 記憶部
 50 入出力部
 60 評価部

Claims (10)

  1.  一の人物の動作が他の人物の動作に影響を及ぼす状況において同時に特定される当該一の人物の姿勢および当該他の人物の姿勢を表すポーズ情報を時系列に取得するポーズ取得部と、
     取得された各人物の時系列のポーズ情報を教師なし学習により分割して、二以上の前記ポーズ情報を含む動作の系列であるアクション系列を推定するアクション推定部とを備えた
     ことを特徴とする動作推定システム。
  2.  アクション推定部は、状況を表す文脈に基づいて、分割された動作からアクション系列を推定する
     請求項1記載の動作推定システム。
  3.  ポーズ取得部は、リハビリテーションにおいてセラピストの姿勢および患者のポーズ情報を時系列に取得し、
     アクション推定部は、取得されたセラピストおよび患者のポーズ情報を分割してアクション系列を推定し、推定されたアクション系列から各アクション間の相互作用を表すリハビリ方法論に基づいて、リハビリテーションのアクション系列である介入行動系列を導出する
     請求項2記載の動作推定システム。
  4.  推定されたアクション系列に応じた情報を出力する出力部を備え、
     ポーズ取得部は、一の人物および他の人物が撮影された映像から時系列にポーズ情報を取得し、
     前記出力部は、推定されたアクション系列を撮影された映像に対応付けて出力する
     請求項1から請求項3のうちのいずれか1項に記載の動作推定システム。
  5.  出力部は、アクションの単位で映像の出力を制御する
     請求項4記載の動作推定システム。
  6.  推定されたアクション系列を記憶する記憶部を備え、
     アクション推定部は、推定されたアクション系列に一の人物および他の人物を識別する情報を対応付けて前記記憶部に記憶する
     請求項1から請求項5のうちのいずれか1項に記載の動作推定システム。
  7.  記憶部に記憶されたアクション系列から人物の動作を評価する評価部を備え、
     ポーズ取得部は、各人物のポーズ情報を時系列に新たに取得し、
     前記評価部は、取得された時系列のポーズ情報と、前記記憶部に記憶されたアクション系列に含まれるアクションとを比較して、各人物の動作を評価する
     請求項6記載の動作推定システム。
  8.  推定されたアクション系列に含まれる各アクションに対するユーザからのラベル付けを受け付ける入力部を備えた
     請求項1から請求項7のうちのいずれか1項に記載の動作推定システム。
  9.  ポーズ取得部が、一の人物の動作が他の人物の動作に影響を及ぼす状況において同時に特定される当該一の人物の姿勢および当該他の人物の姿勢を表すポーズ情報を時系列に取得し、
     アクション推定部が、取得された各人物の時系列のポーズ情報を教師なし学習により分割して、二以上の前記ポーズ情報を含む動作の系列であるアクション系列を推定する
     ことを特徴とする動作推定方法。
  10.  コンピュータに、
     一の人物の動作が他の人物の動作に影響を及ぼす状況において同時に特定される当該一の人物の姿勢および当該他の人物の姿勢を表すポーズ情報を時系列に取得するポーズ取得処理、および、
     取得された各人物の時系列のポーズ情報を教師なし学習により分割して、二以上の前記ポーズ情報を含む動作の系列であるアクション系列を推定するアクション推定処理
     を実行させるための動作推定プログラム。
PCT/JP2018/017005 2018-04-26 2018-04-26 動作推定システム、動作推定方法および動作推定プログラム WO2019207714A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020515390A JP7192860B2 (ja) 2018-04-26 2018-04-26 動作推定システム、動作推定方法および動作推定プログラム
US17/050,594 US11848091B2 (en) 2018-04-26 2018-04-26 Motion estimation system, motion estimation method, and motion estimation program
PCT/JP2018/017005 WO2019207714A1 (ja) 2018-04-26 2018-04-26 動作推定システム、動作推定方法および動作推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/017005 WO2019207714A1 (ja) 2018-04-26 2018-04-26 動作推定システム、動作推定方法および動作推定プログラム

Publications (1)

Publication Number Publication Date
WO2019207714A1 true WO2019207714A1 (ja) 2019-10-31

Family

ID=68295215

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/017005 WO2019207714A1 (ja) 2018-04-26 2018-04-26 動作推定システム、動作推定方法および動作推定プログラム

Country Status (3)

Country Link
US (1) US11848091B2 (ja)
JP (1) JP7192860B2 (ja)
WO (1) WO2019207714A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111685773A (zh) * 2020-06-04 2020-09-22 北京荟健科技有限公司 孕妇运动监控方法、装置、计算机设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116098611B (zh) * 2022-12-07 2024-05-24 上海傅利叶智能科技有限公司 肢体运动康复的评估生成系统、方法及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015191471A (ja) * 2014-03-28 2015-11-02 Kddi株式会社 感情情報推定装置、方法及びプログラム
JP2016080671A (ja) * 2014-10-20 2016-05-16 純一 水澤 人間の動きを測定するロボット計測器
JP2016208516A (ja) * 2015-04-23 2016-12-08 アディダス アーゲー 人物の活動の映像内のフレームをイベントに関連付けるための方法およびデバイス

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5252393B2 (ja) 2008-05-13 2013-07-31 独立行政法人情報通信研究機構 動作学習装置
US9058663B2 (en) * 2012-04-11 2015-06-16 Disney Enterprises, Inc. Modeling human-human interactions for monocular 3D pose estimation
JP2015207179A (ja) 2014-04-22 2015-11-19 国立研究開発法人産業技術総合研究所 行動理解システムおよびプログラム
JP6330651B2 (ja) 2014-12-19 2018-05-30 株式会社デンソー 異常検出装置
JP6849312B2 (ja) 2016-03-02 2021-03-24 株式会社日立製作所 作業動作認識システム
JP6650305B2 (ja) 2016-03-17 2020-02-19 国立研究開発法人産業技術総合研究所 行動分析システムおよびプログラム
EP3454744B1 (en) * 2016-04-13 2024-03-06 Strong Arm Technologies, Inc. Systems for motion tracking, assessment, and monitoring
US20180005129A1 (en) * 2016-06-29 2018-01-04 Stephanie Moyerman Predictive classification in action sports

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015191471A (ja) * 2014-03-28 2015-11-02 Kddi株式会社 感情情報推定装置、方法及びプログラム
JP2016080671A (ja) * 2014-10-20 2016-05-16 純一 水澤 人間の動きを測定するロボット計測器
JP2016208516A (ja) * 2015-04-23 2016-12-08 アディダス アーゲー 人物の活動の映像内のフレームをイベントに関連付けるための方法およびデバイス

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111685773A (zh) * 2020-06-04 2020-09-22 北京荟健科技有限公司 孕妇运动监控方法、装置、计算机设备及存储介质
CN111685773B (zh) * 2020-06-04 2024-04-09 北京荟健科技有限公司 孕妇运动监控方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
US11848091B2 (en) 2023-12-19
US20210241464A1 (en) 2021-08-05
JP7192860B2 (ja) 2022-12-20
JPWO2019207714A1 (ja) 2021-04-22

Similar Documents

Publication Publication Date Title
US11281896B2 (en) Physical activity quantification and monitoring
Lin et al. Movement primitive segmentation for human motion modeling: A framework for analysis
Cohen et al. Facial expression recognition from video sequences
Lin et al. Online segmentation of human motion for automated rehabilitation exercise analysis
Faria et al. Extracting data from human manipulation of objects towards improving autonomous robotic grasping
Pereira et al. Convolutional neural networks applied for Parkinson’s disease identification
Khan et al. Beyond activity recognition: skill assessment from accelerometer data
US11759126B2 (en) Scoring metric for physical activity performance and tracking
Avola et al. Deep temporal analysis for non-acted body affect recognition
CN112614571B (zh) 神经网络模型的训练方法、装置、图像分类方法和介质
Samadani et al. Discriminative functional analysis of human movements
Ribet et al. Survey on style in 3d human body motion: Taxonomy, data, recognition and its applications
WO2019207714A1 (ja) 動作推定システム、動作推定方法および動作推定プログラム
Menegozzo et al. Surgical gesture recognition with time delay neural network based on kinematic data
Kasparova et al. Inferring student engagement in collaborative problem solving from visual cues
CN117391092B (zh) 一种基于对比学习的电子病历多模态医疗语义对齐方法
Alhersh et al. Learning human activity from visual data using deep learning
Switonski et al. Dynamic time warping in gait classification of motion capture data
Pineau et al. Automatic detection and classification of unsafe events during power wheelchair use
Lin Temporal segmentation of human motion for rehabilitation
WO2021039641A1 (ja) 運動言語化装置、運動言語化方法、プログラム及び運動記録装置
CN112884076B (zh) 一种基于条件式生成对抗网络的传感器数据生成模型及方法
Marco-Giménez et al. Affective and Behavioral Assessment for Adaptive Intelligent Tutoring Systems.
CN118016326B (zh) 基于互联网的患者护理智能随访系统及方法
Hornung et al. Early integration for movement modeling in latent spaces

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18915899

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020515390

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18915899

Country of ref document: EP

Kind code of ref document: A1