WO2022162782A1 - 行動区間推定モデル構築装置、行動区間推定モデル構築方法及び行動区間推定モデル構築プログラム - Google Patents

行動区間推定モデル構築装置、行動区間推定モデル構築方法及び行動区間推定モデル構築プログラム Download PDF

Info

Publication number
WO2022162782A1
WO2022162782A1 PCT/JP2021/002817 JP2021002817W WO2022162782A1 WO 2022162782 A1 WO2022162782 A1 WO 2022162782A1 JP 2021002817 W JP2021002817 W JP 2021002817W WO 2022162782 A1 WO2022162782 A1 WO 2022162782A1
Authority
WO
WIPO (PCT)
Prior art keywords
action
time
supervised
hidden
data
Prior art date
Application number
PCT/JP2021/002817
Other languages
English (en)
French (fr)
Inventor
純也 藤本
收文 中山
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to JP2022577874A priority Critical patent/JPWO2022162782A1/ja
Priority to EP21922806.1A priority patent/EP4287078A4/en
Priority to PCT/JP2021/002817 priority patent/WO2022162782A1/ja
Publication of WO2022162782A1 publication Critical patent/WO2022162782A1/ja
Priority to US18/341,583 priority patent/US20230343142A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • G06V10/85Markov-related models; Markov random fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Definitions

  • the present disclosure relates to an action section estimation model construction device, an action section estimation model construction method, and an action section estimation model construction program.
  • the cost of creating teacher information for supervised data when learning a model that estimates the time interval of actions is high.
  • One aspect of the present disclosure is to efficiently build an action segment estimation model.
  • observation probabilities for each type of action of a plurality of first hidden Markov models are learned by unsupervised learning.
  • the hidden semi-Markov models include a plurality of second hidden Markov models each including a plurality of first hidden Markov models whose state is the type of human motion, and each of the plurality of second hidden Markov models combines a plurality of motions.
  • Let the behavior determined by The learned observation probability is fixed, the input first supervised data is padded to obtain second supervised data, and the transition probability of the action of the first hidden Markov model is supervised learning using the second supervised data.
  • learn in A hidden semi-Markov model which is a model for estimating action intervals using learned observation probabilities and transition probabilities, is constructed.
  • Each data generated by performing at least one of oversampling in the time direction and oversampling in the feature space on the first supervised data is padded by adding supervised information of the first supervised data.
  • an action interval estimation model can be efficiently constructed.
  • FIG. 4 is a conceptual diagram illustrating the state of the first hidden Markov model of the embodiment;
  • FIG. 4 is a conceptual diagram explaining padding of supervised data;
  • FIG. 4 is a conceptual diagram explaining padding of supervised data;
  • FIG. 4 is a conceptual diagram explaining padding of supervised data;
  • FIG. 4 is a conceptual diagram explaining padding of supervised data;
  • FIG. 4 is a conceptual diagram explaining padding of supervised data;
  • FIG. 4 is a conceptual diagram explaining padding of supervised data;
  • FIG. 4 is a conceptual diagram explaining padding of supervised data;
  • It is a block diagram which illustrates the hardware constitutions of this embodiment.
  • FIG. 9 is a flowchart illustrating the flow of action section estimation model construction processing
  • 7 is a flowchart illustrating the flow of feature vector extraction processing
  • 10 is a flowchart illustrating the flow of supervised data padding processing
  • It is a flow chart which illustrates a flow of action section presumption processing.
  • It is a conceptual diagram explaining the action of related technology. It is a conceptual diagram which illustrates the hierarchical hidden Markov model of related technology. It is a conceptual diagram which illustrates the outline
  • FIG. 4 is a conceptual diagram illustrating fluctuations in observation data;
  • HSMM hidden semi-Markov model
  • HMM Hidden Markov model
  • the HSMM of this embodiment includes a plurality of first HMMs whose states are each of human motions, and a second HMM whose state is a behavior determined by combining a plurality of motions.
  • m1, m2, and m3 are examples of actions
  • a1, a2, and a3 are examples of actions.
  • a behavior is a combination of multiple motions
  • a motion is a combination of multiple postures.
  • the HSMM estimates an optimal action time interval (hereinafter referred to as an action interval).
  • an action interval an optimal action time interval
  • HMM parameters include observation probability and transition probability.
  • O1, . . . , O8 are examples of observation probabilities, and transition probabilities are probabilities corresponding to arrows connecting states. Observation probability is the probability of observing a certain feature in each state, and transition probability is the probability of transitioning from one state to another. If the order of transitions is fixed, transition probabilities are unnecessary. Note that the number of actions and the number of actions, that is, the numbers of the first HMM and the number of the second HMM are examples, and are not limited to the numbers illustrated in FIG.
  • FIG. 2 is an example of a functional block diagram of the action section estimation model construction device 10 of this embodiment.
  • the action section estimation model construction device 10 has an observation probability learning unit 11 , a transition probability learning unit 12 and a construction unit 13 .
  • the observation probability learning unit 11 learns the observation probability of HSMM, which is an example of an action segment estimation model, using unsupervised data, as described below.
  • This embodiment targets limited actions for achieving a certain work goal.
  • Such actions are, for example, actions in routine work performed in a factory line, and have the following properties.
  • Property 1 The difference in each action that constitutes a task is the difference in the combination of a plurality of limited actions.
  • Property 2 Multiple postures observed when performing the same work are similar.
  • all actions are composed of actions included in one action group.
  • the action group includes, for example, three actions m11, m12, and m13.
  • the action m11 may be "raise the arm”
  • the action m12 may be “lower the arm”
  • the action m13 may be "stretch the arm forward”.
  • the number of actions included in the action group is not limited to the example in FIG. Also, the number of actions included in each action is not limited to the example in FIG.
  • the observation probability of each action corresponding to the dashed arrow does not depend on the action, so it can be learned with unsupervised data of action intervals. Learning is performed using, for example, machine learning, neural networks, deep learning, and the like.
  • the model used for unsupervised learning of observation probability may be a Gaussian mixture distribution (hereinafter referred to as GMM (Gaussian Mixture Model)).
  • GMM Gaussian Mixture Model
  • each observation is generated by a Gaussian distribution over which one of the actions is stochastically selected. This is a different assumption from supervised learning, which does not use temporal dependencies of observations.
  • Each Gaussian parameter of the learned GMM is assigned to a Gaussian distribution that is the probability distribution of the observed probability in each action.
  • the transition probability learning unit 12 learns the transition probability of the motion of the first HMM using learning data having teacher information (hereinafter referred to as supervised data), as described below.
  • the teacher information is information that gives the correct answer for the time interval in which each action occurs with respect to the posture time-series data. Learning is performed using, for example, maximum likelihood estimation or EM algorithm (Expectation-Maximization algorithm) (other methods such as machine learning, neural network, and deep learning may be used).
  • the observation probability learned by the observation probability learning unit 11 is fixed, and the transition probability is learned from existing supervised data.
  • the data of the existing supervised data which is an example of the first supervised data
  • the data is padded by oversampling.
  • oversampling is performed in the time direction, and then oversampling is performed on the feature space.
  • Temporal oversampling takes into account the temporal stretch associated with, for example, the length of time different people take to perform an action. Details are as follows. (1) As exemplified in FIG. 5, for each time of an observation series of human motions, generate a random number representing the strength of the feature at that time. The vertical line at each time in FIG. 5 represents the strength of elongation generated by random numbers corresponding to the original parameters. (2) Attenuate the strength of the elongation at each time and propagate it to the time before and after that time. The strength of elongation is attenuated to 0 at a predetermined number of times apart. In the example of FIG.
  • the strength of the original elongation is maximum, so the original feature value at time 1 is selected, and at time 2, the strength of elongation propagated from time 1 is selected. is the largest, we select the feature value at time 1.
  • the strength of elongation propagated from time 1 is the maximum, so the feature value of time 1 is selected.
  • a feature value at time 4 is selected.
  • the supervised data is padded by commonly applying the supervised information TI of the seed data SD to each padded data.
  • the padded supervised data which is an example of the second supervised data, is used to learn the transition probabilities of the multiple actions of the first HMM by supervised learning.
  • noise is generated and added to the feature values at each time.
  • noise generated from a multivariate Gaussian distribution whose covariance is a constant multiple of the covariance of the group of samples of the specified motion may be added.
  • the center distance d from the specified motion sample group to the motion sample group with the closest center distance is calculated, and the isotropic Gaussian distribution ( The noise generated from the covariance matrix is diagonal) may be added.
  • noise related to the velocity of each body part of the person performing the motion is added to the motion feature value of each body part.
  • the diagonal component which is the variance component, of the covariance matrix of the Gaussian distribution is changed for each body part of the person performing the action.
  • the standard deviation ⁇ i ′ (variance ⁇ i ′ 2 ) of the feature value which is the posture component of the feature vector of the body part i (i is a natural number)
  • ⁇ i ′ is the angular velocity ⁇ i of the body part i
  • the standard deviation as the base ⁇ i (variance ⁇ i 2 ) and a constant coefficient k are used to calculate the equation (1).
  • ⁇ i ′ ⁇ i +k ⁇ i (1)
  • ⁇ i and k are constants that are predetermined experimentally and do not change from body part to body part.
  • noise that is, attitude variation
  • the horizontal axis in FIG. 7 represents feature value 1, which is the posture component of body part 1
  • the vertical axis represents feature value 2, which is the posture component of body part 2.
  • ellipses represent contour lines of probability distributions (Gaussian distributions) in which samples represented by points on the feature space of motions m21, m22, and m23 are observed. The closer to the center of the ellipse, the higher the probability.
  • worker A uses about 3 hours for movement 2
  • worker B uses about 4 hours for movement 2
  • the worker C uses the operation 2 for about one hour.
  • the change in posture of the second arm is small in proportion to the speed, and therefore the variation in feature values is also small.
  • Both oversampling in the time direction and oversampling in the feature direction may be performed, or only one of them may be performed. If only oversampling in the feature direction is performed, noise related to the velocity of each body part of the person performing the motion is added to the feature values at each time for each body part at that time.
  • the building unit 13 uses the observation probabilities learned by the observation probability learning unit 11 and the state transition probabilities learned by the transition probability learning unit 12 to build an HSMM as illustrated in FIG. O1, O2, . corresponds to the state transition probability learned in . d1, d2, and d3 represent the duration of each action, and the probability distribution of the duration is determined from the action duration of the teacher information.
  • the duration probability distribution may be a uniform distribution over a range.
  • the behavior section estimation model construction device 10 of this embodiment has the following features. 1. Observation probabilities of actions common to all actions of the first HMM are learned by unsupervised learning. 2. The transition probabilities between actions of the first HMM are learned by supervised learning using supervised data padded from the supervised seed data.
  • the action section estimation model construction device 10 includes a CPU (Central Processing Unit) 51, a primary storage device 52, a secondary storage device 53, and an external interface 54, as shown in FIG.
  • the CPU 51 is an example of a processor that is hardware.
  • the CPU 51 , primary storage device 52 , secondary storage device 53 and external interface 54 are interconnected via a bus 59 .
  • the CPU 51 may be a single processor or multiple processors.
  • a GPU Graphics Processing Unit
  • the primary storage device 52 is, for example, a volatile memory such as RAM (Random Access Memory).
  • the secondary storage device 53 is, for example, a non-volatile memory such as an HDD (Hard Disk Drive) or an SSD (Solid State Drive).
  • the secondary storage device 53 includes a program storage area 53A and a data storage area 53B.
  • the program storage area 53A stores, for example, programs such as an action section estimation model construction program.
  • the data storage area 53B stores, for example, supervised data, unsupervised data, learned observation probabilities, transition probabilities, and the like.
  • the CPU 51 reads out the action section estimation model construction program from the program storage area 53A and develops it in the primary storage device 52 .
  • the CPU 51 operates as the observation probability learning unit 11, the transition probability learning unit 12, and the construction unit 13 of FIG. 2 by loading and executing the action interval estimation model construction program.
  • programs such as the action section estimation model construction program may be stored in an external server and deployed to the primary storage device 52 via a network.
  • the program such as the action interval estimation model generation program may be stored in a non-temporary recording medium such as a DVD (Digital Versatile Disc) and expanded in the primary storage device 52 via a recording medium reader.
  • An external device is connected to the external interface 54 , and the external interface 54 controls transmission and reception of various information between the external device and the CPU 51 .
  • 10 shows an example in which a display 55A and an external storage device 55B are connected to the external interface 54.
  • the external storage device 55B stores, for example, supervised data, unsupervised data, constructed HSMM, and the like.
  • the display 55A visually displays the constructed HSMM model, for example.
  • the action interval estimation model construction device 10 may be, for example, a personal computer, a server, or a computer on the cloud.
  • FIG. 11 illustrates the flow of action section estimation model construction processing.
  • the CPU 51 extracts a feature vector representing a motion, which is a chain of human postures, from learning data, as will be described later.
  • the CPU 51 classifies the feature vectors extracted at step 101 by clustering (GMM parameter estimation) into element motions, and learns the observation probability of each motion by unsupervised learning.
  • GMM parameter estimation clustering
  • the CPU 51 adds supervised data generated by oversampling the supervised seed data with supervised supervised data, thereby padding the supervised supervised data.
  • the CPU 51 distributes the feature vectors of the supervised data for each time interval of each action given by the supervised information.
  • step 105 the CPU 51 uses the series of feature vectors in the time interval distributed in step 104 as observed data and the supervised data padded in step 103 to learn the transition probability of the motion of the first HMM by supervised learning. do.
  • the CPU 51 sets a uniform distribution within a predetermined range for the duration of each action given by the teacher information as the probability distribution of the duration of each action.
  • the CPU 51 uses the observation probabilities learned in step 102 and the transition probabilities learned in step 105 to construct the HSMM.
  • an HSMM is constructed in which the behavior of the second HMM transitions in the order of each behavior given by the teacher information after continuation for a certain period of time.
  • the constructed HSMM may be stored, for example, in the data storage area 53B.
  • FIG. 12 illustrates details of the feature vector extraction process in step 101 of FIG.
  • the CPU 51 detects a person from the data used for learning and tracks the person to obtain posture information of the person.
  • the CPU 51 acquires time-series data of posture information to be analyzed from the time-series data of posture information.
  • Posture information to be analyzed is selected from the size of a bounding box surrounding a person, time, and the like.
  • the CPU 51 acquires time-series data of exercise information for each part of the body from the time-series data of posture information acquired at step 152.
  • the time series of motion information may be, for example, the degree of bending of each part, the speed of bending, and the like.
  • Each part may be, for example, an elbow, a knee, or the like.
  • the CPU 51 averages the motion information of step 153 within the window in the time direction at regular time intervals using a sliding time window to calculate a feature vector.
  • FIG. 13 illustrates the flow of supervised data padding processing in step 103 of FIG.
  • the CPU 51 generates a random number representing the strength of the feature at each time point of the observation data (observation time series of human motion).
  • the CPU 51 propagates the value of the elongation strength generated at each time to the time before and after the time while attenuating it.
  • the CPU 51 determines the feature value of the observation data at the time corresponding to the maximum strength of elongation among the strength of elongation at that time and the strength of elongation propagated from other times. , is selected as the characteristic value of the time.
  • the CPU 51 calculates a Gaussian distribution covariance matrix based on the angular velocity values of each body part.
  • the CPU 51 adds noise generated by the Gaussian distribution of the covariance matrix calculated at step 254 to each feature value selected at step 253. Inflate the supervised data by repeatedly inflating the supervised data.
  • steps 254 and 255 may be repeated. In this case, noise is added to the original feature values at each time. Alternatively, only the processing of steps 251 to 253 may be repeated.
  • FIG. 14 illustrates the flow of activity segment estimation processing using the HSMM constructed in this embodiment.
  • the action interval estimation model construction device 10 of FIG. 10 may function as an action interval estimation device by storing the constructed HSMM in the data storage area 53B.
  • the CPU 51 extracts feature vectors from sensor data generated by detecting a person's posture with a sensor.
  • a sensor is a device that detects a person's posture, and may be, for example, a camera, an infrared sensor, a motion capture device, or the like. Since step 201 in FIG. 14 is the same as step 101 in FIG. 11, detailed description is omitted.
  • the CPU 51 uses the series of feature vectors extracted at step 201 as observation data, compares it with the HSMM constructed in the action section estimation model construction process, and estimates the duration of each action state.
  • the CPU 51 estimates the time interval of each action from the duration of each action state estimated at step 202 .
  • a specific action in a video is a combination of elemental actions, and is a more complicated upper action.
  • Basic action recognition is posture recognition for each frame
  • elemental action recognition is temporal and spatial recognition, It is to recognize simple actions over a certain length of time.
  • High-level behavior recognition is recognition of complex behavior over a certain length of time.
  • the action interval estimation model construction processing and the constructed action interval estimation model of this embodiment can be applied to estimate the action interval.
  • HSMM may be used in which actions included in actions are not particularly limited.
  • actions for example, as illustrated in FIG. 15, it is assumed that the following operations exist. (1) Raise arm, (2) Lower arm, (3) Extend arm forward, (4) Bring hands closer together in front of body, (5) Move forward, (6) Move sideways, (7) squat, (8) stand
  • Action a31 (1) Raise your arms ⁇ (3) Stretch your arms forward ⁇ (1) Raise your arms ⁇ (4) Bring your hands closer together in front of your body ⁇ (7) Squat down.
  • an upper hierarchical HMM includes a plurality of lower hierarchical HMMs as states.
  • Actions a51, a52, and a53 are examples of lower-level HMMs.
  • Each of the lower-level HMMs includes an action as a state, m51, m52, m53, m61, m62, m63, m71, and m72 are examples of actions.
  • FIG. 17 illustrates the observation probability p11 of action a51, the transition probability p21, the observation probability p12 of action a52, the transition probability p22, the observation probability p13 of action a53, and the transition probability p23.
  • the number of parameters is large and the degree of freedom of the parameters is high, so a large amount of supervised data is used for parameter learning. It takes time and effort to create teacher information for supervised data.
  • the observation probability p1 common to each of the first HMMs corresponding to the behavior of the HSMM is learned by unsupervised learning using unsupervised data LDN.
  • the transition probabilities p21D, p22D, and p23D of each motion of the first HMM are learned by supervised learning using supervised data.
  • the supervised data is padded and used for supervised learning. Therefore, in the present embodiment, even when there is little existing supervised data, an action segment estimation model can be efficiently constructed.
  • hidden semi-Markov models observation probabilities for each type of action of a plurality of first hidden Markov models are learned by unsupervised learning.
  • the hidden semi-Markov models include a plurality of second hidden Markov models each including a plurality of first hidden Markov models whose state is the type of human motion, and each of the plurality of second hidden Markov models combines a plurality of motions.
  • Let the behavior determined by The learned observation probability is fixed, the input first supervised data is padded to obtain second supervised data, and the transition probability of the action of the first hidden Markov model is supervised learning using the second supervised data.
  • learn in A hidden semi-Markov model which is a model for estimating action intervals using learned observation probabilities and transition probabilities, is constructed.
  • Each data generated by performing at least one of oversampling in the time direction and oversampling in the feature space on the first supervised data is padded by adding supervised information of the first supervised data.
  • an action segment estimation model can be efficiently constructed. That is, for example, for a plurality of actions such as routine work in a factory, dance choreography, and martial arts, the time interval of each action is determined under the condition that the order of occurrence is restricted. can be estimated accurately.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

隠れセミマルコフモデルにおいて、複数の第1隠れマルコフモデルの動作の種類ごとの観測確率を教師なし学習で学習する。隠れセミマルコフモデルは、各々が人の動作の種類を状態とする複数の第1隠れマルコフモデルを含む第2隠れマルコフモデルを複数含み、複数の第2隠れマルコフモデルの各々は複数の動作を組み合わせて定まる行動を状態とする。学習した観測確率を固定し、入力された第1教師ありデータを水増しすることで第2教師ありデータとし、第1隠れマルコフモデルの動作の遷移確率を第2教師ありデータを使用した教師あり学習で学習する。学習した観測確率及び遷移確率を使用して行動の区間を推定するモデルである隠れセミマルコフモデルを構築する。第1教師ありデータに、時間方向のオーバーサンプリング及び特徴空間上のオーバーサンプリングの少なくとも一方を行うことで生成したデータに教師情報を付加することで水増しをする。

Description

行動区間推定モデル構築装置、行動区間推定モデル構築方法及び行動区間推定モデル構築プログラム
 本開示は、行動区間推定モデル構築装置、行動区間推定モデル構築方法及び行動区間推定モデル構築プログラムに関する。
 ディープラーニング技術の発展により通常のRGBカメラで撮影した人の映像から姿勢を高精度に認識できるようになり、この認識情報を利用して人の行動を推定する様々な研究開発が行われている。当該状況下において、人の映像から検出した姿勢の時系列データから指定した行動が発生した時間区間を推定する取り組みが行われている。
山本龍一、酒向慎司、北村正、「隠れセミマルコフモデルと線形動的システムを組み合わせた音楽音響信号と楽譜の実時間アライメント手法」、研究報告音楽情報科学(MUS)、2012年 Shun-ZhengYu、「Hidden semi-Markov models」、Artificial Intelligence、Volume 174、Issue 2、2010年2月、215~243頁 若林啓、三浦孝夫、「階層型隠れマルコフモデルの高速パラメータ推定」、電子情報通信学会論文誌、2011年 "映像から人の様々な行動を認識するAI技術「行動分析技術 Actlyzer」を開発"、[online]、2019年11月25日、富士通株式会社、[2020年1月19日検索]、インターネット(URL:https://pr.fujitsu.com/jp/news/2019/11/25.html)
 行動の時間区間を推定するモデルを学習させる際の教師ありデータの教師情報を作成するコストが高い。
 本開示は、1つの側面として、行動区間推定モデルを効率的に構築することを目的とする。
 1つの実施形態では、隠れセミマルコフモデルにおいて、複数の第1隠れマルコフモデルの動作の種類ごとの観測確率を教師なし学習で学習する。隠れセミマルコフモデルは、各々が人の動作の種類を状態とする複数の第1隠れマルコフモデルを含む第2隠れマルコフモデルを複数含み、複数の第2隠れマルコフモデルの各々は複数の動作を組み合わせて定まる行動を状態とする。学習した観測確率を固定し、入力された第1教師ありデータを水増しすることで第2教師ありデータとし、第1隠れマルコフモデルの動作の遷移確率を第2教師ありデータを使用した教師あり学習で学習する。学習した観測確率及び遷移確率を使用して行動の区間を推定するモデルである隠れセミマルコフモデルを構築する。第1教師ありデータに、時間方向のオーバーサンプリング及び特徴空間上のオーバーサンプリングの少なくとも一方を行うことで生成したデータの各々に第1教師ありデータの教師情報を付加することで水増しする。
 本開示は、1つの側面として、行動区間推定モデルを効率的に構築することができる。
本実施形態の隠れセミマルコフモデルを例示する概念図である。 本実施形態の機能構成を例示するブロック図である。 本実施形態の第1隠れマルコフモデルの状態を例示する概念図である。 教師ありデータの水増しを説明する概念図である。 教師ありデータの水増しを説明する概念図である。 教師ありデータの水増しを説明する概念図である。 教師ありデータの水増しを説明する概念図である。 教師ありデータの水増しを説明する概念図である。 教師ありデータの水増しを説明する概念図である。 本実施形態のハードウェア構成を例示するブロック図である。 行動区間推定モデル構築処理の流れを例示するフローチャートである。 特徴ベクトル抽出処理の流れを例示するフローチャートである。 教師ありデータ水増し処理の流れを例示するフローチャートである。 行動区間推定処理の流れを例示するフローチャートである。 関連技術の行動を説明する概念図である。 関連技術の階層型隠れマルコフモデルを例示する概念図である。 関連技術の概要を例示する概念図である。 本実施形態の概要を例示する概念図である。 観測データの揺らぎを例示する概念図である。
 本実施形態では、人の行動が発生した時間区間を推定する行動区間推定モデルの一例として、図1に例示するような隠れセミマルコフモデル(以下、HSMM(Hidden semi-Markov model)という。)を構築する。HSMMは、隠れマルコフモデル(以下、HMM(Hidden Markov model)という。)のパラメータに加え、状態ごとの継続時間の確率分布をパラメータとしてもつ。
 本実施形態のHSMMは、人の動作の各々を状態とする複数の第1HMMと、各々が複数の動作を組み合わせて定まる行動を状態とする第2HMMと、を含む。m1、m2、m3は動作の一例であり、a1、a2、a3は行動の一例である。行動は、複数の動作の組合せであり、動作は、複数の姿勢の組合せである。
 パラメータを設定することで構築されたHSMMに人の姿勢を検知することで生成された時系列センサデータが与えられると、HSMMは最適な行動の時間区間(以下、行動区間という。)を推定する。d1、d2、d3は行動区間の一例である。
 HMMのパラメータには、観測確率及び遷移確率が存在する。O1、…、O8は観測確率の一例であり、遷移確率は状態をつなぐ矢印に対応する確率である。観測確率とは、各状態において、ある特徴が観測される確率であり、遷移確率とは、ある状態から別の状態に遷移する確率である。遷移の順番が定まっている場合は、遷移確率は不要である。なお、動作の数、行動の数、即ち、第1HMM、第2HMMの数の数は例示であり、図1に例示される数に限定されない。
 図2は、本実施形態の行動区間推定モデル構築装置10の機能ブロック図の一例である。行動区間推定モデル構築装置10は、観測確率学習部11、遷移確率学習部12、構築部13を有する。観測確率学習部11は、以下に説明するように、教師なしデータで行動区間推定モデルの一例であるHSMMの観測確率を学習する。
 本実施形態では、ある作業目標を達成するための限定された行動を対象とする。このような行動は、例えば、工場のラインで行われる定型作業での行動であり、以下の性質を有する。
 性質1:作業を構成する各行動の違いは、限定された複数の動作の組合せの違いである。
 性質2:同じ作業を行う際に観測される複数の姿勢は類似している。
 本実施形態では、性質1に基づいて、全ての行動が1つの動作群に含まれる動作で構成される。図3に例示するように、動作群には、例えば、3つの動作m11、m12、m13が含まれている。
 例えば、動作m11は「腕を上げる」、動作m12は「腕を降ろす」、動作m13は「腕を前に伸ばす」であってよい。動作群に含まれる動作の数は図3の例に限定されない。また、各行動に含まれる動作の数も図3の例に限定されない。
 図3のHMMにおいて、破線矢印に対応する各動作の観測確率は行動には依存しないため、行動区間の教師なしデータで学習することができる。学習は、例えば、機械学習、ニューラルネットワーク、ディープラーニングなどを使用して行う。
 詳細には、観測確率の教師なし学習に使用するモデルは混合ガウス分布(以下、GMM(Gaussian Mixture Model)という。)であってよい。各観測は動作のうちの1つの動作が確率的に選択され、その動作についてのガウス分布により生成されると仮定する。これは、観測の時系列的な依存関係を使用しない教師あり学習とは異なる仮定である。学習したGMMの各ガウス分布のパラメータを各動作における観測確率の確率分布であるガウス分布に割り当てる。
 遷移確率学習部12は、以下に説明するように、教師情報をもつ学習データ(以下、教師ありデータという。)で、第1HMMの動作の遷移確率を学習する。教師情報は、姿勢の時系列データに対して各行動が発生している時間区間の正解を与える情報である。学習は、例えば、最尤推定やEMアルゴリズム(Expectation-Maximization algorithm)などを使用して行う(その他の機械学習、ニューラルネットワーク、ディープラーニングなどの方式を使用してもよい)。
 教師ありデータの生成には、時間及び労力がかかる。したがって、本実施形態では、観測確率学習部11で学習した観測確率を固定し、既存の教師ありデータから遷移確率を学習する。
 詳細には、図4に例示するように、第1教師ありデータの一例である既存の教師ありデータのデータを種データSDとし、オーバーサンプリングすることでデータを水増しする。本実施形態では、例えば、時間方向にオーバーサンプリングを行い、その後、特徴空間上でオーバーサンプリングを行う。
 時間方向のオーバーサンプリングについて説明する。時間方向のオーバーサンプリングでは、例えば、人によって異なる動作にかかる時間の長さに関連する時間的な伸び縮みを考慮する。詳細には、以下の通りである。
(1)図5に例示するように、人の動作の観測系列の各時刻について、当該時刻の特徴の伸びの強さを表す乱数を生成する。図5の各時刻の縦線は、オリジナルパラメータに相当する乱数で生成した伸びの強さを表す。
(2)各時刻の伸びの強さを減衰させながら当該時刻の前後の時刻に伝播させる。伸びの強さは、所定の数離れた時刻で0になるように減衰される。図5の例では、破線で表すように、3時刻離れた時刻で0になるように減衰されている。減衰は、直線的な減衰でなくてもよい。
(3)各時刻のオリジナルの伸びの強さ、前後の時刻から伝播されたパラメータに相当する伝播された伸びの強さの内、最大の強さに対応する時刻の特徴値を、当該時刻の特徴値として選択する。図5の例では、時刻1では、オリジナルの伸びの強さが最大であるため、オリジナルの特徴値である時刻1の特徴値を選択し、時刻2では、時刻1から伝播された伸びの強さが最大であるため、時刻1の特徴値を選択する。時刻3では、時刻1から伝播された伸びの強さが最大であるため、時刻1の特徴値を選択し、時刻4では、オリジナルの伸びの強さが最大であるため、オリジナルの特徴値である時刻4の特徴値を選択する。
 特徴空間上でのオーバーサンプリングについて説明する。上記性質2によれば、同じ作業の姿勢は類似しているため、ノイズを付加することで、図6に例示するように実際の観測ごとのばらつきに類似したばらつきをもつデータを生成することができる。
 種データSDの教師情報TIを、水増ししたデータの各々に共通に適用することで教師ありデータを水増しする。第2教師ありデータの一例である水増しした教師ありデータを使用して、第1HMMの複数の動作の遷移確率を教師あり学習で学習する。
 オーバーサンプリングでは、各時刻の特徴値にノイズを生成して付加する。例えば、特定した動作のサンプル群の共分散の定数倍の共分散の多変量ガウス分布から生成したノイズを付加してもよい。また、特定した動作のサンプル群から最も中心距離が近い動作のサンプル群までの中心距離dを算出し、特徴空間の各軸方向の標準偏差がdの定数倍となる等方性のガウス分布(共分散行列が対角行列である)から生成したノイズを付加してもよい。
 本実施形態では、動作を行う人の身体部位ごとの速度に関連するノイズを身体部位ごとの動作の特徴値に付加する。例えば、ガウス分布の共分散行列のうち分散成分である対角成分を、動作を行う人の身体部位ごとに変更する。詳細には、身体部位i(iは自然数)の特徴ベクトルの姿勢成分である特徴値の標準偏差σ’(分散σ)を、身体部位iの角速度ω、ベースとなる標準偏差の値σ(分散σ )、定数係数kを用いて式(1)で算出する。
  σ’=σ+kω …(1)
 σ及びkは、実験的に事前に決定される定数であり、身体部位ごとには変更しない。式(1)の第2項に示されるように、角速度の大きさに比例してノイズ、即ち、姿勢のばらつきを大きくする。例えば、図7の横軸は、身体部位1の姿勢成分である特徴値1を表し、縦軸は、身体部位2の姿勢成分である特徴値2を表す。
 図7では、特徴空間を2次元で表現しているが、次元数は2より多くてもよい。図7において、楕円は動作m21、m22、m23の特徴空間上の点で表されるサンプルが観測される確率分布(ガウス分布)の等高線を表す。楕円の中心に近いほど、確率が高い。
 身体部位1の動きの角速度成分と身体部位2の動きの角速度成分が略同様である場合、図7の左に示されるように、縦軸方向及び横軸方向の双方に、略同様の大きさのノイズを付加する。一方、身体部位1の動きの角速度成分が身体部位2の動きの角速度成分より大きい場合、図7の右に示されるように、縦軸方向に比較して横軸方向に大きいノイズを付加する。
 時間方向のオーバーサンプリングによれば、時間方向の変化に対応することができる。即ち、同じ作業を行っている場合でも、速く動いたり、遅く動いたりすることで、ある動作(動き特徴)が短く観測されたり、長く観測されたりする。速い動きでは、ある動作が観測されない場合もある。
 図8の左に例示するように、例えば、作業者Aは、動作2に略3時刻使用しているが、図8の右上に例示するように、作業者Bは動作2に略4時刻使用し、図8の右下に例示するように、作業者Cは動作2に略1時刻使用している。時間方向のオーバーサンプリングを行うことで、このように、時間的な伸び縮みのあるサンプルを水増しすることができる。
 特徴空間上でのオーバーサンプリングによれば、姿勢を表す特徴値のばらつきに対応することができる。例えば、図9の左に例示するように、第1の腕の移動速度が大きく、第2の腕の移動速度が小さい場合、図9の右に例示するように、第1の腕の姿勢変化も速度に比例して大きく、したがって、特徴値のばらつきも大きい。
 一方、第2の腕の姿勢変化は速度に比例して小さく、したがって、特徴値のばらつきも小さい。特徴空間上でのオーバーサンプリングを行うことで、このように、身体部位によって特徴値のばらつきが異なるサンプルを水増しすることができる。
 時間方向のオーバーサンプリング及び特徴方向のオーバーサンプリングは両方行われてもよいし、何れか一方だけが行われてもよい。特徴方向のオーバーサンプリングだけが行われる場合、各時刻の身体部位ごとの当該時刻の特徴値に動作を行う人の身体部位ごとの速度に関連するノイズが付加される。
 構築部13は、観測確率学習部11で学習した観測確率、及び遷移確率学習部12で学習した状態遷移確率を使用して、図1に例示するようなHSMMを構築する。O1、O2、…、O8は、観測確率学習部11で学習した観測確率を表し、行動a1、a2、a3の各々に含まれる動作m1、m2、及びm3間の矢印は、遷移確率学習部12で学習した状態遷移確率に対応する。d1、d2、d3は、各行動の継続時間を表し、継続時間の確率分布は、教師情報の行動の継続時間から決定される。例えば、継続時間の確率分布は、一定範囲の一様分布であってよい。構築したHSMMに、センサで人の姿勢を検知して生成したセンサデータを適用して、各行動の時間区間である行動区間を推定する。推定についての詳細は、後述する。
 本実施形態の行動区間推定モデル構築装置10は、以下の特徴を有する。
1.第1HMMの全行動で共通な動作の観測確率は教師なし学習で学習する。
2.第1HMMの動作間の遷移確率は、教師あり種データから水増しした教師ありデータを使用して、教師あり学習で学習する。
 行動区間推定モデル構築装置10は、一例として、図10に示すように、CPU(Central Processing Unit)51、一次記憶装置52、二次記憶装置53、及び、外部インターフェイス54を含む。CPU51は、ハードウェアであるプロセッサの一例である。CPU51、一次記憶装置52、二次記憶装置53、及び、外部インターフェイス54は、バス59を介して相互に接続されている。CPU51は、単一のプロセッサであってもよいし、複数のプロセッサであってもよい。また、CPU51に代えて、例えば、GPU(Graphics Processing Unit)が使用されてもよい。
 一次記憶装置52は、例えば、RAM(Random Access Memory)などの揮発性のメモリである。二次記憶装置53は、例えば、HDD(Hard Disk Drive)、又はSSD(Solid State Drive)などの不揮発性のメモリである。
 二次記憶装置53は、プログラム格納領域53A及びデータ格納領域53Bを含む。プログラム格納領域53Aは、一例として、行動区間推定モデル構築プログラムなどのプログラムを記憶している。データ格納領域53Bは、一例として、教師ありデータ、教師なしデータ、学習した観測確率、及び遷移確率などを記憶する。
 CPU51は、プログラム格納領域53Aから行動区間推定モデル構築プログラムを読み出して一次記憶装置52に展開する。CPU51は、行動区間推定モデル構築プログラムをロードして実行することで、図2の観測確率学習部11、遷移確率学習部12、及び、構築部13として動作する。
 なお、行動区間推定モデル構築プログラムなどのプログラムは、外部サーバに記憶され、ネットワークを介して、一次記憶装置52に展開されてもよい。また、行動区間推定モデル生成プログラムなどのプログラムは、DVD(Digital Versatile Disc)などの非一時的記録媒体に記憶され、記録媒体読込装置を介して、一次記憶装置52に展開されてもよい。
 外部インターフェイス54には外部装置が接続され、外部インターフェイス54は、外部装置とCPU51との間の各種情報の送受信を司る。図10では、外部インターフェイス54に、ディスプレイ55A及び外部記憶装置55Bが接続されている例を示している。外部記憶装置55Bには、例えば、教師ありデータ、教師なしデータ、及び、構築したHSMMなどを記憶する。ディスプレイ55Aは、例えば、構築したHSMMモデルを視認可能に表示する。
 行動区間推定モデル構築装置10は、例えば、パーソナルコンピュータ、サーバ、及び、クラウド上のコンピュータなどであってよい。
 図11に、行動区間推定モデル構築処理の流れを例示する。CPU51は、ステップ101で、後述するように、学習データから人の姿勢の連鎖である運動を表す特徴ベクトルを抽出する。CPU51は、ステップ102で、ステップ101で抽出した特徴ベクトルのクラスタリング(GMMのパラメータ推定)により、要素となる動作に分類し、各動作の観測確率を教師なし学習で学習する。
 CPU51は、ステップ103で、後述するように、教師あり種データをオーバーサンプリングして生成したデータに教師あり種データの教師情報を付与することで、教師ありデータを水増しする。CPU51は、ステップ104で、教師ありデータについて、教師情報で与えられた各行動の時間区間ごとに特徴ベクトルを振り分ける。
 CPU51は、ステップ105で、ステップ104で振り分けた時間区間内の特徴ベクトルの系列を観測データとして、ステップ103で水増しした教師ありデータを使用し、第1HMMの動作の遷移確率を教師あり学習で学習する。
 CPU51は、ステップ106で、各行動の継続時間の確率分布として、教師情報で与えられた各行動の継続時間に対して所定の範囲の一様分布を設定する。CPU51は、ステップ102で学習した観測確率及びステップ105で学習した遷移確率を使用して、HSMMを構築する。ステップ106の設定で一定時間継続後に教師情報で与えられた各行動の順番に第2HMMの行動が遷移するHSMMを構築する。構築したHSMMは、例えば、データ格納領域53Bに格納されてもよい。
 図12は、図11のステップ101の特徴ベクトル抽出処理の詳細を例示する。CPU51は、ステップ151で、学習に使用するデータから人を検出し、追跡することで、人の姿勢情報を取得する。CPU51は、ステップ152で、ステップ151で取得した姿勢情報が複数人の姿勢情報を含む場合、姿勢情報の時系列データから分析対象とする姿勢情報の時系列データを取得する。分析対象とする姿勢情報は、人を囲むバウンディングボックスの大きさ、及び時間などから選択する。
 CPU51は、ステップ153で、ステップ152で取得した姿勢情報の時系列データから身体の各部位についての運動情報の時系列データを取得する。運動情報の時系列とは、例えば、各部位の曲げの程度、曲げの速度などであってよい。各部位とは、例えば、肘、膝などであってよい。
 CPU51は、ステップ154で、スライディングタイムウィンドウにより一定の時間間隔ごとにウィンドウ内のステップ153の運動情報を時間方向で平均化して特徴ベクトルを算出する。
 図13に、図11のステップ103の教師ありデータ水増し処理の流れを例示する。CPU51は、ステップ251で、観測データ(人の動作の観測時系列)の時刻の各々で、当該時刻の特徴の伸びの強さを表す乱数を生成する。CPU51は、ステップ252で、時刻の各々で生成した伸びの強さの値を減衰させながら当該時刻の前後の時間に伝播させる。
 CPU51は、ステップ253で、当該時刻の伸びの強さ、及び、他の時刻から伝播された伸びの強さの値の内、最大の伸びの強さに該当する時刻の観測データの特徴値を、当該時刻の特徴値として選択する。CPU51は、ステップ254で、ガウス分布の共分散行列を、身体部位の各々の角速度の値に基づいて算出する。
 CPU51は、ステップ255で、ステップ253で選択した特徴値の各々に、ステップ254で算出した共分散行列のガウス分布で生成したノイズを付加する。教師ありデータの水増しを繰り返すことで、教師ありデータを水増しする。
 ステップ254及びステップ255の処理だけを繰り返し行ってもよい。この場合、各時刻のオリジナルの特徴値にノイズを付加する。また、ステップ251~ステップ253の処理だけを繰り返し行ってもよい。
 図14に、本実施形態で構築したHSMMを使用した行動区間推定処理の流れを例示する。図10の行動区間推定モデル構築装置10は、構築したHSMMをデータ格納領域53Bに格納することで行動区間推定装置として機能してもよい。
 CPU51は、ステップ201で、センサで人の姿勢を検知することにより生成されたセンサデータから特徴ベクトルを抽出する。センサは、人の姿勢を検知するデバイスであり、例えば、カメラ、赤外線センサ、モーションキャプチャデバイスなどであってよい。図14のステップ201は、図11のステップ101と同様であるため、詳細な説明は省略する。
 CPU51は、ステップ202で、ステップ201で抽出した特徴ベクトルの系列を観測データとして、行動区間推定モデル構築処理で構築したHSMMと照合して各行動状態の継続時間を推定する。CPU51は、ステップ203で、ステップ202で推定した各行動状態の継続時間から各行動の時間区間を推定する。
 例えば、映像を入力として、映像における特定の行動を認識するような技術では、基本動作認識、要素行動認識、及び上位行動認識を行う。映像における特定の行動とは、要素行動の組合せで、さらに複雑な上位行動であり、基本動作認識とは、フレームごとの姿勢認識であり、要素行動認識とは、時間的空間的認識を行い、ある程度の時間長における単純行動を認識することである。上位行動認識とは、ある程度の時間長における複雑行動の認識である。当該技術において、本実施形態の行動区間推定モデル構築処理及び構築した行動区間推定モデルを適用し、行動区間を推定することができる。
 関連技術では、行動に含まれる動作が特に限定されないHSMMが使用され得る。当該関連技術では、図15に例示するように、例えば、以下の動作が存在すると仮定する。
(1)腕を上げる、(2)腕を降ろす、(3)腕を前に伸ばす、(4)両手を身体の前で近づける、(5)前に移動する、(6)横に移動する、(7)しゃがむ、(8)立つ
 行動の例は、例えば、以下の通りである。
行動a31:(1)腕を上げる→(3)腕を前に伸ばす→(1)腕を上げる→(4)両手を身体の前で近づける→(7)しゃがむ、
行動a32:(7)しゃがむ→(4)両手を身体の前で近づける→(8)立つ→(5)前に移動する→(3)腕を前に伸ばす、など
 上記のように、一般的な行動の動作、即ち、推定する行動が制限されない複数の動作をHMMが含む場合、動作の観測確率を1つの単純な確率分布で表すことは困難である。この問題に対処するために、階層型隠れマルコフモデルを使用する技術が存在する。階層型隠れマルコフモデルは、図16に例示するように、上位階層HMMが複数の下位階層HMMを状態として含む。行動a51、a52、及びa53は、下位階層HMMの例である。下位階層HMMの各々は、動作を状態として含み、m51、m52、m53、m61、m62、m63、m71、及びm72は、動作の例である。
 階層型HMMでは、図17に例示するように、教師情報TILをもつ学習データLDを使用して、各行動の動作の観測確率及び遷移確率を教師あり学習で学習する。図17では、行動a51の観測確率p11、遷移確率p21、行動a52の観測確率p12、遷移確率p22、行動a53の観測確率p13、遷移確率p23を例示する。しかしながら、階層型HMMでは、パラメータの数が多く、パラメータの自由度が高いため、パラメータの学習のために教師ありデータを多数使用する。教師ありデータの教師情報を作成するには、時間及び労力を要する。
 一方、本開示では、図18に例示するように、HSMMの行動に対応する第1HMMの各々で共通の観測確率p1は教師なしデータLDNを使用して教師なし学習で学習する。学習した観測確率p1を固定して、第1HMMの各々の動作の遷移確率p21D、p22D、p23Dを教師ありデータを使用して教師あり学習で学習する。本開示では、既存の教師ありデータLDDをオーバーサンプリングし生成したデータに、教師ありデータLDDの教師情報TILを付加することで、教師ありデータを水増しして教師あり学習に使用する。したがって、本実施形態では、既存の教師ありデータが少ない場合でも、行動区間推定モデルを効率的に構築することができる。
 図19の左に例示するように、例えば、時刻t1で動作m31、時刻t2で動作m31、時刻t3で動作m33、時刻t4で動作m32が高確率な動作の並びとなる場合の観測データの揺らぎについて例示する。図19の右上に例示するように、動作の動きが変化し、時刻t2の観測が動作m32の近くに変化した場合、時刻t1で動作m31、時刻t2で動作m32、時刻t3で動作m33、時刻t4で動作m32が高確率な動作の並びとなる。
 図19の右下に例示するように、動作の速度が上がると、図19の左の時刻t3のサンプルが観測されず、時刻t1で動作m31、時刻t2で動作m31、時刻t3で動作m32が高確率な動作の並びとなる。このような揺らぎに対し、どのような揺らぎが生じ得るかを事前に学習して遷移確率としてモデルに反映することができる。
 しかしながら、教師ありデータが少ない場合、多様な揺らぎを直接学習することができず、観測データの揺らぎへの対応が弱い。本実施形態では、時間方向のオーバーサンプリング及び特徴空間上でのオーバーサンプリングを行うことで、観測データの揺らぎに対応することができる適切な教師ありデータを水増しすることができる。
 本実施形態では、これにより、既存の教師ありデータが少ない場合であっても、観測データの揺らぎを想定した動作の並び方のモデル化が可能となる。したがって、観測データに揺らぎがある場合であっても高精度に時間区間を推定することができる。
 本実施形態では、隠れセミマルコフモデルにおいて、複数の第1隠れマルコフモデルの動作の種類ごとの観測確率を教師なし学習で学習する。隠れセミマルコフモデルは、各々が人の動作の種類を状態とする複数の第1隠れマルコフモデルを含む第2隠れマルコフモデルを複数含み、複数の第2隠れマルコフモデルの各々は複数の動作を組み合わせて定まる行動を状態とする。学習した観測確率を固定し、入力された第1教師ありデータを水増しすることで第2教師ありデータとし、第1隠れマルコフモデルの動作の遷移確率を第2教師ありデータを使用した教師あり学習で学習する。学習した観測確率及び遷移確率を使用して行動の区間を推定するモデルである隠れセミマルコフモデルを構築する。第1教師ありデータに、時間方向のオーバーサンプリング及び特徴空間上のオーバーサンプリングの少なくとも一方を行うことで生成したデータの各々に第1教師ありデータの教師情報を付加することで水増しする。
 本開示によれば、行動区間推定モデルを効率的に構築することができる。即ち、例えば、工場での定型作業、ダンスの振り付け、武道の型などのように決まった順序で動作を行う複数の行動について、発生する順序に制約があるという条件の下で各行動の時間区間を正確に推定することができる。
10 行動区間推定モデル構築装置
11 観測確率学習部
12 遷移確率学習部
13 構築部
51 CPU
52 一次記憶装置
53 二次記憶装置

Claims (15)

  1.  各々が人の動作の種類を状態とする複数の第1隠れマルコフモデルを含む第2隠れマルコフモデルを複数含む隠れセミマルコフモデルであって、複数の第2隠れマルコフモデルの各々が複数の前記動作を組み合わせて定まる行動を状態とする隠れセミマルコフモデルにおいて、前記複数の第1隠れマルコフモデルの前記動作の種類ごとの観測確率を教師なし学習で学習する観測確率学習部と、
     前記観測確率学習部にて学習した前記観測確率を固定し、入力された第1教師ありデータを水増しすることで第2教師ありデータとし、前記第1隠れマルコフモデルの前記動作の遷移確率を前記第2教師ありデータを使用した教師あり学習で学習する遷移確率学習部と、
     前記観測確率学習部で学習した前記観測確率及び前記遷移確率学習部で学習した前記遷移確率を使用して前記行動の区間を推定するモデルである前記隠れセミマルコフモデルを構築する構築部と、
     を含み、
     前記遷移確率学習部は、前記第1教師ありデータに、時間方向のオーバーサンプリング及び特徴空間上のオーバーサンプリングの少なくとも一方を行うことで生成したデータの各々に前記第1教師ありデータの教師情報を付加することで水増しする、
     行動区間推定モデル構築装置。
  2.  前記時間方向のオーバーサンプリングは、各時刻でランダムに設定されたオリジナルパラメータを減衰させながら前後の時刻に伝播し、
     各時刻において、前記オリジナルパラメータ、前後の時刻から伝播されたパラメータの内、最大のパラメータの時刻に対応する前記動作の特徴値を前記各時刻の特徴値として選択する、
     請求項1に記載の行動区間推定モデル構築装置。
  3.  前記オリジナルパラメータは、所定数離れた時刻で0となるように減衰される、
     請求項2に記載の行動区間推定モデル構築装置。
  4.  前記特徴空間上のオーバーサンプリングは、前記第1教師ありデータに、動作を行う人の身体部位ごとの速度に関連するノイズを前記身体部位ごとの前記動作の特徴値に付加する、
     請求項1~請求項3の何れか1項に記載の行動区間推定モデル構築装置。
  5.  前記身体部位ごとの速度に関連するノイズの大きさは、前記身体部位ごとの角速度の各々が大きいほど大きい、
     請求項4に記載の行動区間推定モデル構築装置。
  6.  各々が人の動作の種類を状態とする複数の第1隠れマルコフモデルを含む第2隠れマルコフモデルを複数含む隠れセミマルコフモデルであって、複数の第2隠れマルコフモデルの各々が複数の前記動作を組み合わせて定まる行動を状態とする隠れセミマルコフモデルにおいて、前記複数の第1隠れマルコフモデルの前記動作の種類ごとの観測確率を教師なし学習で学習し、
     学習した前記観測確率を固定し、入力された第1教師ありデータを水増しすることで第2教師ありデータとし、前記第1隠れマルコフモデルの前記動作の遷移確率を前記第2教師ありデータを使用した教師あり学習で学習し、
     学習した前記観測確率及び前記遷移確率を使用して前記行動の区間を推定するモデルである前記隠れセミマルコフモデルを構築する、
     行動区間推定モデル構築方法であって、
     前記第1教師ありデータに、時間方向のオーバーサンプリング及び特徴空間上のオーバーサンプリングの少なくとも一方を行うことで生成したデータの各々に前記第1教師ありデータの教師情報を付加することで水増しする、
     行動区間推定モデル構築方法。
  7.  前記時間方向のオーバーサンプリングは、各時刻でランダムに設定されたオリジナルパラメータを減衰させながら前後の時刻に伝播し、
     各時刻において、前記オリジナルパラメータ、前後の時刻から伝播されたパラメータの内、最大のパラメータの時刻に対応する前記動作の特徴値を前記各時刻の特徴値として選択する、
     請求項6に記載の行動区間推定モデル構築方法。
  8.  前記オリジナルパラメータは、所定数離れた時刻で0となるように減衰される、
     請求項7に記載の行動区間推定モデル構築方法。
  9.  前記特徴空間上のオーバーサンプリングは、前記第1教師ありデータに、動作を行う人の身体部位ごとの速度に関連するノイズを前記身体部位ごとの前記動作の特徴値に付加する、
     請求項6~請求項8の何れか1項に記載の行動区間推定モデル構築方法。
  10.  前記身体部位ごとの速度に関連するノイズの大きさは、前記身体部位ごとの角速度の各々が大きいほど大きい、
     請求項9に記載の行動区間推定モデル構築方法。
  11.  各々が人の動作の種類を状態とする複数の第1隠れマルコフモデルを含む第2隠れマルコフモデルを複数含む隠れセミマルコフモデルであって、複数の第2隠れマルコフモデルの各々が複数の前記動作を組み合わせて定まる行動を状態とする隠れセミマルコフモデルにおいて、前記複数の第1隠れマルコフモデルの前記動作の種類ごとの観測確率を教師なし学習で学習し、
     学習した前記観測確率を固定し、入力された第1教師ありデータを水増しすることで第2教師ありデータとし、前記第1隠れマルコフモデルの前記動作の遷移確率を前記第2教師ありデータを使用した教師あり学習で学習し、
     学習した前記観測確率及び前記遷移確率を使用して前記行動の区間を推定するモデルである前記隠れセミマルコフモデルを構築する、
     処理であって、
     前記第1教師ありデータに、時間方向のオーバーサンプリング及び特徴空間上のオーバーサンプリングの少なくとも一方を行うことで生成したデータの各々に前記第1教師ありデータの教師情報を付加することで水増しする、
     処理をコンピュータに実行させる行動区間推定モデル構築プログラム。
  12.  前記時間方向のオーバーサンプリングは、各時刻でランダムに設定されたオリジナルパラメータを減衰させながら前後の時刻に伝播し、
     各時刻において、前記オリジナルパラメータ、前後の時刻から伝播されたパラメータの内、最大のパラメータの時刻に対応する前記動作の特徴値を前記各時刻の特徴値として選択する、
     請求項11に記載の行動区間推定モデル構築プログラム。
  13.  前記オリジナルパラメータは、所定数離れた時刻で0となるように減衰される、
     請求項12に記載の行動区間推定モデル構築プログラム。
  14.  前記特徴空間上のオーバーサンプリングは、前記第1教師ありデータに、動作を行う人の身体部位ごとの速度に関連するノイズを前記身体部位ごとの前記動作の特徴値に付加する、
     請求項11~請求項13の何れか1項に記載の行動区間推定モデル構築プログラム。
  15.  前記身体部位ごとの速度に関連するノイズの大きさは、前記身体部位ごとの角速度の各々が大きいほど大きい、
     請求項14に記載の行動区間推定モデル構築プログラム。
PCT/JP2021/002817 2021-01-27 2021-01-27 行動区間推定モデル構築装置、行動区間推定モデル構築方法及び行動区間推定モデル構築プログラム WO2022162782A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2022577874A JPWO2022162782A1 (ja) 2021-01-27 2021-01-27
EP21922806.1A EP4287078A4 (en) 2021-01-27 2021-01-27 DEVICE FOR BUILDING A MODEL FOR ESTIMATING THE ACTION INTERVAL, METHOD FOR BUILDING A MODEL FOR ESTIMATING THE ACTION INTERVAL AND PROGRAM FOR BUILDING A MODEL FOR ESTIMATING THE ACTION INTERVAL
PCT/JP2021/002817 WO2022162782A1 (ja) 2021-01-27 2021-01-27 行動区間推定モデル構築装置、行動区間推定モデル構築方法及び行動区間推定モデル構築プログラム
US18/341,583 US20230343142A1 (en) 2021-01-27 2023-06-26 Action segment estimation model building device, method, and non-transitory recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/002817 WO2022162782A1 (ja) 2021-01-27 2021-01-27 行動区間推定モデル構築装置、行動区間推定モデル構築方法及び行動区間推定モデル構築プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/341,583 Continuation US20230343142A1 (en) 2021-01-27 2023-06-26 Action segment estimation model building device, method, and non-transitory recording medium

Publications (1)

Publication Number Publication Date
WO2022162782A1 true WO2022162782A1 (ja) 2022-08-04

Family

ID=82653119

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/002817 WO2022162782A1 (ja) 2021-01-27 2021-01-27 行動区間推定モデル構築装置、行動区間推定モデル構築方法及び行動区間推定モデル構築プログラム

Country Status (4)

Country Link
US (1) US20230343142A1 (ja)
EP (1) EP4287078A4 (ja)
JP (1) JPWO2022162782A1 (ja)
WO (1) WO2022162782A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020050111A1 (ja) * 2018-09-03 2020-03-12 国立大学法人東京大学 動作認識方法及び装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020050111A1 (ja) * 2018-09-03 2020-03-12 国立大学法人東京大学 動作認識方法及び装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
"Fujitsu Develops New ''Actlyzer'' AI Technology for Video-Based Behavioral Analysis", FUJITSU LIMITED, 25 November 2019 (2019-11-25)
KEI WAKABAYASHITAKAO MILTRA: "Efficient Parameter Estimation for Hierarchical Hidden Markov Models", INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, 2011
RYUICHI YAMAMOTOSHINJI SAKOTADASHI KITAMURA: "Real-time Music Audio Signal to Score Alignment Using a Hybrid Hidden Semi-Markov Model and Linear Dynamical System", PROCEEDINGS OF THE INTERNATIONAL SOCIETY FOR MUSIC INFORMATION RETRIEVAL (MUS, 2012
See also references of EP4287078A4
SHUN-ZHENG YU: "Hidden Semi-Markov Models", ARTIFICIAL INTELLIGENCE, vol. 174, no. 2, February 2010 (2010-02-01), pages 215 - 243
SUGINOHARA KAZUYA −, KEN’ICHI MOROOKA, TOKUO TSUJI, RYO KURAZUME: "Indoor Human Behavior Estimation by combining Hierarchical Hidden Markov Model and Laser Sensing System", THE JAPAN SOCIETY OF MECHANICAL ENGINEER. MAY 17−19,2015, KYOTO,JAPAN, 1 May 2015 (2015-05-01), Kyoto,Japan, pages 1 - 4, XP055960228, Retrieved from the Internet <URL:https://www.jstage.jst.go.jp/article/jsmermd/2015/0/2015__1A1-W04_1/_pdf/-char/ja> [retrieved on 20220913] *

Also Published As

Publication number Publication date
US20230343142A1 (en) 2023-10-26
EP4287078A4 (en) 2024-03-20
EP4287078A1 (en) 2023-12-06
JPWO2022162782A1 (ja) 2022-08-04

Similar Documents

Publication Publication Date Title
US20220138581A1 (en) Learning coach for machine learning system
US11048978B2 (en) Meta-learning for multi-task learning for neural networks
JP4201012B2 (ja) データ処理装置、データ処理方法、およびプログラム
KR102239714B1 (ko) 신경망 학습 방법 및 장치, 데이터 처리 장치
US7783585B2 (en) Data processing device, data processing method, and program
US11574164B2 (en) Neural network cooperation
US20210012766A1 (en) Voice conversation analysis method and apparatus using artificial intelligence
JP7472658B2 (ja) 行動区間推定モデル構築装置、行動区間推定モデル構築方法及び行動区間推定モデル構築プログラム
JP2019537132A (ja) アクション選択ニューラルネットワークをトレーニングすること
KR20190111278A (ko) 인공지능 모델을 이용하여 사용자 음성을 변조하기 위한 전자 장치 및 이의 제어 방법
US11776269B2 (en) Action classification in video clips using attention-based neural networks
JP5520886B2 (ja) 行動モデル学習装置、方法、及びプログラム
CN115376518A (zh) 一种实时噪声大数据的声纹识别方法、系统、设备和介质
US11195116B2 (en) Dynamic boltzmann machine for predicting general distributions of time series datasets
WO2019138897A1 (ja) 学習装置および方法、並びにプログラム
WO2022162782A1 (ja) 行動区間推定モデル構築装置、行動区間推定モデル構築方法及び行動区間推定モデル構築プログラム
WO2022162780A1 (ja) 部分行動区間推定モデル構築装置、部分行動区間推定モデル構築方法及び部分行動区間推定モデル構築プログラム
WO2022162781A1 (ja) 行動系列判定装置、行動系列判定方法、及び行動系列判定プログラム
KR20230141828A (ko) 적응형 그래디언트 클리핑을 사용하는 신경 네트워크들
JP2007280057A (ja) データ処理装置、データ処理方法、およびプログラム
JP2007280007A (ja) データ処理装置、データ処理方法、およびプログラム
US11410042B2 (en) Dynamic Boltzmann machine for estimating time-varying second moment
KR20230113012A (ko) 동영상 딥페이크 탐지를 위한 페이크 비디오 검증 방법 및 이를 수행하는 전자 장치
JP2007280009A (ja) データ処理装置、データ処理方法、およびプログラム
CN116402922A (zh) 数字人的动作控制方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21922806

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022577874

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2021922806

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021922806

Country of ref document: EP

Effective date: 20230828