WO2019198696A1 - 行動推定装置 - Google Patents

行動推定装置 Download PDF

Info

Publication number
WO2019198696A1
WO2019198696A1 PCT/JP2019/015402 JP2019015402W WO2019198696A1 WO 2019198696 A1 WO2019198696 A1 WO 2019198696A1 JP 2019015402 W JP2019015402 W JP 2019015402W WO 2019198696 A1 WO2019198696 A1 WO 2019198696A1
Authority
WO
WIPO (PCT)
Prior art keywords
joints
objects
target
time
joint
Prior art date
Application number
PCT/JP2019/015402
Other languages
English (en)
French (fr)
Inventor
木村 大介
Original Assignee
株式会社アジラ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2018076045A external-priority patent/JP6525179B1/ja
Priority claimed from JP2018076046A external-priority patent/JP6525180B1/ja
Application filed by 株式会社アジラ filed Critical 株式会社アジラ
Priority to US17/045,536 priority Critical patent/US11482046B2/en
Publication of WO2019198696A1 publication Critical patent/WO2019198696A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/34Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Definitions

  • the present invention relates to an action estimation apparatus for estimating an action of an object shown in a plurality of time-series images.
  • Patent Document 1 discloses only a general method for detecting a posture, and more accurate posture detection and action recognition are desired.
  • an object of the present invention is to provide a behavior estimation device capable of estimating a behavior of a target reflected in a plurality of time-series images with high accuracy.
  • the present invention relates to an estimation-side acquisition unit that acquires a plurality of time-series images in which one or a plurality of targets are reflected, a discriminator that stores a reference for identifying a plurality of joints of the target, and identifies the plurality of joints
  • An estimation side detection unit that detects a plurality of joints reflected in each time series image
  • an estimation side measurement unit that measures the coordinates and depths of the plurality of joints reflected in each time series image, Based on the displacements in the plurality of time-series images of the coordinates and depths of the measured joints, an identification unit for identifying a joint group belonging to one target from the plurality of joints, and the whole joint group
  • an estimation unit that estimates the behavior of the one target based on displacements in the plurality of time-series images of the coordinates and depth of the image.
  • the target behavior is estimated based on the displacement in a plurality of time-series images of the coordinates and depth of the joint group as a whole, so that it is realized simply by following the time-series displacement of each joint individually.
  • This makes it possible to realize highly accurate behavior estimation that cannot be performed.
  • the load on the CPU can be greatly reduced.
  • it is simpler and less expensive because it is not necessary to attach a sensor to the target side or to provide an expensive and special sensor on the side of the behavior estimation device, just by preparing a behavior estimation device, a learning device, and a photographing means. It is possible to perform behavior estimation.
  • since a lot of training data can be generated from the same image by making full use of the annotation technology, it is possible to perform behavior estimation with lower cost and higher accuracy.
  • the coordinates and depth displacement of the joint group as a whole include the coordinates of the center of gravity and depth displacement of the joint group.
  • the image processing apparatus further includes a prediction unit that predicts the behavior of the one target following the plurality of time-series images based on the coordinates and depth displacement of the joint group as a whole.
  • the discriminator further stores a reference related to the basic posture of the object, and the discriminating unit estimates the number of objects shown in each time-series image based on the reference related to the basic posture, and the estimation It is preferable to specify the number of objects shown in each time-series image based on the number of detected objects and the number of detected types of the plurality of joints.
  • the discriminator further stores a reference relating to a range of motion of a plurality of joints of the target and a distance between the joints, and the discriminating unit is a target whose number is estimated when specifying the number of the target.
  • the discriminating unit is a target whose number is estimated when specifying the number of the target.
  • the sub-object is selected from the classified main objects in consideration of the criteria regarding the range of motion of the plurality of joints and the distance between each joint.
  • the classification is performed to classify the main target in descending order of the number of detected joints by the specified number among the objects whose number has been estimated.
  • the discriminator further stores a reference regarding the range of motion of a plurality of joints of the target, and the discriminating unit determines the estimated number of targets as the main target when specifying the number of the targets.
  • a program installed in a computer in which a reference for identifying a plurality of target joints is stored, and a plurality of time-series images showing one or a plurality of targets Obtaining a plurality of joints shown in each time-series image based on a criterion for identifying the plurality of joints; and coordinates and depths of the plurality of joints shown in each time-series image
  • the coordinates and depth displacement of the joint group as a whole include the coordinates and depth of the center of gravity of the joint group.
  • the method further includes a step of predicting the behavior of the one target following the plurality of time-series images based on the coordinate and depth displacement of the joint group as a whole.
  • the computer further stores a reference related to the basic posture of the object, and in the identifying step, the number of objects reflected in each time-series image is estimated based on the reference related to the basic posture, and the estimation It is preferable to specify the number of objects shown in each time-series image based on the number of detected objects and the number of detected types of the plurality of joints.
  • the computer further stores a reference regarding a range of motion of a plurality of joints of the target and a distance between the joints, and in the identifying step, the target for which the number is estimated in specifying the number of the target Are classified into a main object and other sub-objects, and the sub-object is selected from the classified main objects in consideration of the criteria regarding the range of motion of the plurality of joints and the distance between each joint.
  • the classification is performed to classify the main target in descending order of the number of detected joints by the specified number among the objects whose number has been estimated.
  • the computer further stores a reference regarding a range of motion of a plurality of joints of the target, and in the identifying step, in specifying the number of the target, the estimated number of the target is the main target, Other sub-objects, and in consideration of the criteria for the range of motion of the plurality of joints, the sub-object is connected to one of the classified main objects, and in the classification, It is preferable to classify the thing corresponding to the reference
  • the behavior estimation apparatus of the present invention it is possible to accurately estimate the behavior of an object reflected in a plurality of time-series images.
  • the behavior estimation apparatus 1 estimates the behavior of one or a plurality of objects Z shown in a plurality of time-series images Y (each frame constituting a moving image) photographed by the photographing means X. (In this embodiment, for easy understanding, the object Z is simply displayed using only the skeleton). In estimating the behavior, the information learned by the learning device 2 (see FIG. 2) is referred to.
  • the learning device 2 includes a learning-side discriminator 21, a learning-side acquisition unit 22, a learning-side detection unit 23, a correct behavior acquisition unit 24, a learning-side meter side unit 25, The learning unit 26 and the second learning unit 27 are provided.
  • the learning-side discriminator 21 is for identifying a plurality of joints A (in this embodiment, neck, right elbow, left elbow, waist, right knee, left knee) of the target Z. References such as a shape, direction, and size for identifying each are stored. Further, the learning side discriminator 21 includes various variations (“walking”, “upright”, etc.) of the target Z, “basic posture”, “range of motion of each joint A”, and “joint A” in one target Z. Also stored is a criterion for the “distance between”.
  • the learning side acquisition unit 22 acquires a video whose correct behavior is known, that is, a plurality of time-series images Y.
  • the plurality of time-series images Y are input by the user of the behavior estimation apparatus 1.
  • the learning side detection unit 23 detects a plurality of joints A shown in each time series image Y. Specifically, a part corresponding to the reference indicated by the learning-side discriminator 21 is detected by an inference model modeled using CNN (Convolution Natural Network). Each detected joint A (A1-A17 in FIG. 1) is displayed in a selectable manner on a display unit (not shown).
  • CNN Convolution Natural Network
  • the correct action acquisition unit 24 acquires the correct action corresponding to the target Z shown in the plurality of time-series images Y for each joint A detected by the learning side detection unit 23. This correct behavior is input by the user of the behavior estimation device 1. Specifically, when the user inputs a plurality of time-series images Y when the target Z falls in the learning-side acquisition unit 22, the correct action acquisition unit 24 displays each joint A on the display unit. Select and enter the correct action “falling”.
  • correct behavior is input to each target Z.
  • the correct behavior is input to each joint A.
  • the correct action “walking” is input to each of them.
  • the correct action “falling” is input after the joint A7-A11 is specified.
  • the correct action “squatting” is input after the joints A12-A17 are specified.
  • the object Z3 not only is crouching but also the balance is lost, and therefore, the correct action “break balance” is further input to each joint A12-A17.
  • the learning side meter side unit 25 measures the coordinates and depths of the joints A detected by the learning side detection unit 23. This measurement is performed on each time-series image Y.
  • the coordinates and depth of the joint A1 in the time-series image Y at time t1 can be expressed as (XA1 (t1), YA1 (t1), ZA1 (t1)).
  • the depth is not necessarily represented by coordinates, and may be represented by relative depths in a plurality of time-series images Y.
  • the depth may be measured by a known method, but the correct action acquisition unit 24 may input the depth of each joint A and use the input depth as it is.
  • the “depth measurement by the learning side meter side” of the present invention includes a case where the input depth is used as described above. In this case, the first learning unit 26 described later learns, for example, “If this joint has a size, angle, etc., it is a distance of OOm”.
  • the first learning unit 26 learns the displacement in the plurality of time-series images Y of the coordinates and depths of the plurality of joints A belonging to each target Z as a whole. Specifically, after identifying a plurality of joints A belonging to each target Z specified by the correct behavior acquisition unit 24 as a joint group B (see FIG. 3), a plurality of coordinates and depths as the whole joint group B are identified. The displacement in the time series image Y is learned.
  • the coordinates of the center point and the depth of all the detected coordinates of the joint A, and the coordinates of the center of gravity and the displacement of the depth closely related to the movement of the body are included. Can be considered. Further, both of these may be used, or in addition to these, the coordinates and depth displacement of each joint A may be taken into consideration to increase the accuracy. Note that the coordinates and depth of the center of gravity can be calculated in consideration of the coordinates and depth of each joint A and the weight of each joint A (including muscle, fat, and the like). In this case, the weight of each joint A may be stored in the learning side discriminator 21 or the like.
  • the second learning unit 27 uses the correct behavior obtained by the correct behavior acquisition unit 24 to input the displacement in the plurality of time-series images Y of the coordinates and depth of the joint group B as a whole learned by the first learning unit 26. Learning by associating with. For example, in the case of the correct action “falling forward”, the displacement of the coordinates of the joint group B as a whole is “goes downward by the first distance”, and the displacement of the depth of the joint group B as a whole is “first” You will learn to "go forward by a distance of 2".
  • the estimation side discriminator 11 is for identifying a plurality of joints A (elbows, shoulders, hips, knees, etc.) of the target Z, and for each joint A, the shape, direction, size, etc. for identifying each joint A Is stored.
  • the learning side discriminator 21 includes “basic posture”, “range of motion of each joint A” of various variations of the target Z (“walking”, “upright”, etc.), and each joint A in one target Z. There is also a standard for the distance between ". In the present embodiment, the same learning side discriminator 21 is used.
  • the estimation side acquisition unit 12 is connected to the imaging unit X, and acquires videos captured by the imaging unit X, that is, a plurality of time-series images Y.
  • a plurality of time-series images Y are acquired in real time, but may be acquired later depending on the purpose of use of the behavior estimation apparatus 1.
  • the estimation side detection unit 13 detects a plurality of joints A shown in each time series image Y. Specifically, a part corresponding to a criterion for identifying the joint A stored in the estimation side discriminator 11 is detected by an inference model modeled using CNN (Convolution Neural Network). When the estimation side detection unit 13 detects the joint A, it can be considered that one or more objects Z are reflected in the time-series image Y.
  • CNN Convolution Neural Network
  • the estimation side meter side unit 14 measures the coordinates and depths of the joints A detected by the estimation side detection unit 13. This measurement is performed on each time-series image Y.
  • the coordinates and depth of the joint A1 in the time-series image Y at time t1 can be expressed as (XA1 (t1), YA1 (t1), ZA1 (t1)).
  • the depth is not necessarily represented by coordinates, and may be represented by relative depths in a plurality of time-series images Y.
  • the depth may be measured by a known method.
  • depth learning is performed by the first learning unit 26
  • the depth is specified with reference to the first learning unit 26. Also good.
  • “depth measurement by the estimation side meter side unit” includes the case where the depth learned by the first learning unit 26 is used as described above.
  • the identification unit 15 refers to the first learning unit 26, and based on the displacements in the plurality of time-series images Y of the coordinates and depths of each joint A measured by the estimation side meter side unit 14, From among them, the joint group B belonging to each object Z is identified. 1 and 3, the joint A1-A6 is the joint group B1 belonging to the target Z1, the joint A7-A11 is the joint group B2 belonging to the target Z2, and the joint A12-A17 is the joint group B3 belonging to the target Z3. It will be identified that there is.
  • the number of the target Z is specified.
  • the number of objects Z is estimated on the basis of the criteria related to the “basic posture” stored in the estimation side discriminator 11, and then, for each type of the plurality of joints A Based on the number, (2) the number of the target Z is specified.
  • the estimation side detection unit 13 detects the joints A1-A17. Of these, the joints A1-A6 and A7-11 are included in the “basic posture”. It is determined that the joint A is present, and it is estimated that two objects Z exist. Further, regarding the joint A12-14, it is determined that it is a part of the “basic posture”, and it is estimated that one target Z exists.
  • the subject Z1 ′ includes six joints A (“head”, “right elbow”, “left elbow”, “waist”, “right knee”, “left knee”). Includes five joints A (“head”, “right elbow”, “left elbow”, “waist”, “left knee”), and the subject Z3 ′ includes three joints A (“head”, “right”).
  • joint group B In the identification of a plurality of joint groups A (joint group B) belonging to each target Z, (A) the classification of the target Z ′ into “main target” and “sub target” and (B) “main target” of “sub target” To "".
  • the target Z1'-Z6 ' is classified into “main target” and "sub target”.
  • “sub-objects” Z4 ′ (“waist”), Z5 (“right knee”) ′, and Z6 ′ (“left knee”) are connected to the “main object” Z3 ′ when “joining” Since there is no unnatural place in “the range of motion of A” and “the distance between each joint A”, it is determined that the “main target” Z3 ′ can be connected, and these are connected to each other, and a plurality of joints belonging to each target Z1-Z3 A (joint group B) will be determined.
  • the data of the “right knee” is hidden behind the target Z3, but the identification unit 15 is stored in the estimation side classifier 11.
  • the criteria regarding “basic posture”, “range of motion of each joint A”, and “distance between each joint A” there is a “right knee” at a position estimated from the positions of the other joints A7-A11. Coordinates are given as objects, and when “left knee” is detected in the time series images Y before and after, it is handled as a continuous motion. Further, the above connection does not exclude the case where there is one classified “main target”.
  • the estimation unit 16 refers to the second learning unit 27, and based on the displacements in the plurality of time-series images Y of the coordinates and depths of the joint group B identified by the identification unit 15 as a whole, The behavior of the target Z is estimated. Specifically, referring to the second learning unit 27, one or a plurality of action options (“falling”, “walking”, “running”, “throwing”, etc.) with high probability are selected. The action will be selected. That is, the behavior estimation apparatus 1 inputs the coordinates and depth of each target Z as a whole joint group B to a time-series inference model using LSTM (Long Short Term Memory), and performs behaviors such as “walking” and “standing”. An identification label will be output.
  • LSTM Long Short Term Memory
  • the behavior of the target Z can be estimated to some extent by the time series displacement of each joint A, it is possible to estimate the behavior with high accuracy only by following the time series displacement of each joint A individually. difficult. Therefore, in the present embodiment, the behavior of the target Z is estimated by estimating the behavior of the target Z based on the displacement in the plurality of time-series images Y of the coordinates and depths of the joint group B belonging to one target Z as a whole. Estimates are realized.
  • the estimation side detection unit 13 detects a plurality of joints A shown in each time series image Y (S2).
  • the coordinates and depths of the plurality of joints A detected in S2 are measured by the estimation side meter side unit 14 (S3). This measurement is performed on each time-series image Y.
  • the joint group B belonging to each target Z is identified from the plurality of joints A by the identification unit 15 based on the displacements in the plurality of time-series images Y of the coordinates and depths of the joints A measured in S3. (S4).
  • the number of objects Z is specified based on the number of each type of joint A (S42).
  • the target Z1'-Z6 ' is classified into "main target” and "sub target” (S43).
  • the top three targets Z1 ′, Z2 ′, and Z3 ′ having a large number of joints A are included as “main targets”, and the other targets Z4 ′, Z5 ′, and Z6 ′ are defined as “sub targets”. Classify.
  • the estimation unit 16 estimates the behavior of the target Z based on the displacement in the plurality of time-series images Y of the coordinates and depth of the joint group B identified in S ⁇ b> 4 as a whole ( S5).
  • the behavior estimation apparatus 1 having such a configuration, for example, always captures a room where a cared person is present in a care facility, and estimates that the cared person (target Z) has fallen based on the captured image. In such a case, it can be used for such purposes as notifying a caregiver to that effect.
  • the learning side detection unit 23 detects a plurality of joints A shown in each time series image Y (S22).
  • the correct behavior acquisition unit 24 acquires the correct behavior for each joint A detected by the learning-side detection unit 23 (S23)
  • the learning-side meter side unit 25 detects the plurality of correct behaviors.
  • the coordinates and depth of the joint A are measured (S24). This measurement is performed on each time-series image Y.
  • the first learning unit 26 learns displacements in the plurality of time-series images Y of the coordinates and depths of the plurality of joints A belonging to each target Z as a whole (S25).
  • the correct behavior acquisition unit 24 converts the displacements in the plurality of time-series images Y of the coordinates and depths of the joint group B as a whole learned by the first learning unit 26 by the second learning unit 27. Learning is performed in association with the input correct behavior (S26).
  • the behavior of the target Z is determined based on the displacement in the plurality of time-series images Y of the coordinates and depths of the plurality of joints A (joint group B) as a whole. presume.
  • the behavior of the target Z is estimated based on the displacement in the plurality of time-series images Y of the coordinates and depths of the joint group B as a whole. It becomes possible to realize high-precision behavior estimation that cannot be realized by itself. Further, since it is not necessary to consider all the displacements of each joint A, it is possible to greatly reduce the load on the CPU. Moreover, it is not necessary to install a sensor on the target Z side or to provide an expensive and special sensor on the side of the behavior estimation device 1 simply by preparing the behavior estimation device 1, the learning device 2, and the photographing means X. Thus, it is possible to perform behavior estimation more easily and inexpensively. In addition, since a lot of training data can be generated from the same image by making full use of the annotation technology, it is possible to perform behavior estimation with lower cost and higher accuracy.
  • the displacement of the coordinates and depth of the joint group B as a whole includes the coordinates of the center of gravity of the joint group B and the displacement of the depth.
  • the number of targets Z reflected in each time-series image Y is estimated based on the criterion related to “basic posture”, and the estimated number of targets Z is detected. Based on the number of each type of joint A, the number of objects Z shown in the time-series image Y is specified.
  • the number of objects Z ′ whose number is estimated is classified into “main objects” and other “sub objects”.
  • the sub-object is connected to one of the classified main objects in consideration of the criteria regarding “range of motion of the plurality of joints A” and “distance between each joint A”, and the detected joint A
  • the specified number is classified into “main target” in descending order.
  • the displacement in the plurality of time-series images Y of the coordinates and depths of the plurality of joints A (joint group B) as a whole is learned in association with the correct action.
  • the coordinates and depth displacement of the joint group B as a whole are the coordinates of the center of gravity of the joint group B and the depth displacement.
  • the behavior estimation device 1 According to such a configuration, it is possible to provide the behavior estimation device 1 with information for realizing behavior estimation with higher accuracy.
  • the displacement in the plurality of time-series images Y of the coordinates and the depth of the joint group B is considered. You may consider it.
  • the depth is represented by the coordinates of Z (t), but the depth is not necessarily represented by coordinates, and may be represented by relative depths in a plurality of time-series images Y.
  • the behavior of the target Z in the plurality of time series images Y is estimated, but the behavior that will occur after the plurality of time series images Y may be predicted.
  • the learning device 2 learns the motion of the body of the target Z to fall
  • the behavior estimation device 1 has a plurality of time-series images Y in the first half of the motion to fall, Can be predicted to fall. Therefore, when the target Z is equipped with a fall prevention mechanism, it is possible to instantly instruct the fall prevention mechanism to perform an action for preventing the fall.
  • the specified number (three) is classified into “main targets” in descending order of the number of detected joints A.
  • a method of classifying the object Z ′ including the joint A determined to be a part of the “basic posture” as the “main object” is also conceivable.
  • the present invention can also be applied to a program corresponding to processing performed by the behavior estimation device 1 and the learning device 2 and a recording medium storing the program.
  • a recording medium the program is installed in a computer or the like.
  • the recording medium storing the program may be a non-transitory recording medium.
  • a non-transitory recording medium a CD-ROM or the like is conceivable, but is not limited thereto.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Image Analysis (AREA)

Abstract

【課題】 複数の時系列画像に映った対象の行動を高精度に推定することが可能な行動推定装置を提供する。 【解決手段】 行動推定装置1において、推定側検出部13は、推定側識別器11に記憶された複数の関節Aを識別するための基準に基づき、各時系列画像Yに映った複数の関節Aを検出する。推定側計側部14は、各時系列画像Yに映った複数の関節Aの座標及び深度を計測する。識別部15は、計測された各関節Aの座標及び深度の複数の時系列画像Yにおける変位に基づき、複数の関節Aの中から、一の対象に属する関節群Bを識別する。推定部16は、関節群Bの全体としての座標及び深度の複数の時系列画像Yにおける変位に基づき、一の対象Zの行動を推定する。

Description

行動推定装置
 本発明は、複数の時系列画像に映った対象の行動を推定するための行動推定装置に関する。
 従来より、時系列データに映った人間の関節等から姿勢を検知し、当該姿勢の変化に応じて行動を認識する装置が知られている。(例えば、特許文献1参照)。
特開2017-228100号公報
 しかしながら、上記特許文献1では、姿勢を検知する方法として一般的なものしか開示されておらず、より精度の高い姿勢検知、及び、行動認識が望まれている。
 そこで、本発明は、複数の時系列画像に映った対象の行動を高精度に推定することが可能な行動推定装置を提供することを目的としている。
 本発明は、一又は複数の対象が映った複数の時系列画像を取得する推定側取得部と、対象の複数の関節を識別するための基準を記憶した識別器と、前記複数の関節を識別するための基準に基づき、各時系列画像に映った複数の関節を検出する推定側検出部と、各時系列画像に映った前記複数の関節の座標及び深度を計測する推定側計測部と、前記計測された各関節の座標及び深度の前記複数の時系列画像における変位に基づき、前記複数の関節の中から、一の対象に属する関節群を識別する識別部と、前記関節群の全体としての座標及び深度の前記複数の時系列画像における変位に基づき、前記一の対象の行動を推定する推定部と、を備えたことを特徴とする行動推定装置を提供している。
 このような構成によれば、関節群の全体としての座標及び深度の複数の時系列画像における変位に基づき対象の行動を推定するので、各関節の時系列な変位を個別に追うだけでは実現することができない高精度な行動推定を実現することが可能となる。また、各関節の変位の全てを考慮する必要がないので、CPUへの負荷を大幅に軽減させることが可能となる。また、行動推定装置、学習装置、及び、撮影手段を準備するだけで、対象側にセンサを装着させる必要や、行動推定装置側に高価で特殊なセンサを備える必要がないので、より簡易かつ安価に行動推定を行うことが可能となる。また、アノテーション技術を駆使して、同一の画像から多くのトレーニングデータを生成することができるので、より安価かつ高精度の行動推定を行うことが可能となる。
 また、前記関節群の全体としての座標及び深度の変位は、前記関節群の重心の座標及び深度の変位を含むことが好ましい。
 このような構成によれば、体の動きと密接に関連した重心の座標及び深度の変位を用いることで、正確に行動を推定することが可能となる。
 また、前記関節群の全体としての座標及び深度の変位に基づき、前記複数の時系列画像に続く前記一の対象の行動を予測する予測部を更に備えたことが好ましい
 このような構成によれば、対象が転倒防止機構を装着しているような場合には、転倒防止機構に転倒防止のための作動を瞬時に指示することが可能となる。
 また、前記識別器は、対象の基本姿勢に関する基準を更に記憶しており、前記識別部は、前記基本姿勢に関する基準に基づき、各時系列画像に映った対象の数の推定を行い、前記推定された対象の数と、前記検出された複数の関節の種類ごとの個数と、に基づき、各時系列画像に映った対象の数の特定を行うことが好ましい。
 このような構成によれば、時系列画像に映った対象の数を正確に特定することが可能となる。
 また、前記識別器は、対象の複数の関節の可動域及び各関節間の距離に関する基準を更に記憶しており、前記識別部は、前記対象の数の特定に当たり、前記数が推定された対象を、メイン対象と、それ以外のサブ対象と、に分類し、前記複数の関節の可動域及び各関節間の距離に関する基準を考慮して、前記サブ対象を前記分類されたメイン対象のうちのいずれかに連結し、前記分類に当たっては、前記数が推定された対象のうち前記特定された数だけ、前記検出された関節の数が多い順に、前記メイン対象に分類することが好ましい。
 このような構成によれば、時系列画像に映った対象の数をより正確に特定することが可能となる。
 また、前記識別器は、対象の複数の関節の可動域に関する基準を更に記憶しており、前記識別部は、前記対象の数の特定に当たり、前記推定された数の対象を、メイン対象と、それ以外のサブ対象と、に分類し、前記複数の関節の可動域に関する基準を考慮して、前記サブ対象を前記分類されたメイン対象のうちのいずれかに連結し、前記分類に当たっては、前記基本姿勢に関する基準に該当するものを前記メイン対象に分類することが好ましい。
 このような構成によれば、時系列画像に映った対象の数をより正確に特定することが可能となる。
 また、本発明の別の観点によれば、対象の複数の関節を識別するための基準が記憶されたコンピュータにインストールされるプログラムであって、一又は複数の対象が映った複数の時系列画像を取得するステップと、前記複数の関節を識別するための基準に基づき、各時系列画像に映った複数の関節を検出するステップと、各時系列画像に映った前記複数の関節の座標及び深度を計測するステップと、前記計測された各関節の座標及び深度の前記複数の時系列画像における変位に基づき、前記複数の関節の中から、一の対象に属する関節群を識別するステップと、前記関節群の全体としての座標及び深度の前記複数の時系列画像における変位に基づき、前記一の対象の行動を推定するステップと、を備えたことを特徴とする行動推定プログラムを提供している。
 また、前記関節群の全体としての座標及び深度の変位は、前記関節群の重心の座標及び深度を含むことが好ましい。
 また、前記関節群の全体としての座標及び深度の変位に基づき、前記複数の時系列画像に続く前記一の対象の行動を予測するステップを更に備えたことが好ましい。
 また、前記コンピュータは、対象の基本姿勢に関する基準を更に記憶しており、前記識別するステップでは、前記基本姿勢に関する基準に基づき、各時系列画像に映った対象の数の推定を行い、前記推定された対象の数と、前記検出された複数の関節の種類ごとの個数と、に基づき、各時系列画像に映った対象の数の特定を行うことが好ましい。
 また、前記コンピュータは、対象の複数の関節の可動域及び各関節間の距離に関する基準を更に記憶しており、前記識別するステップでは、前記対象の数の特定に当たり、前記数が推定された対象を、メイン対象と、それ以外のサブ対象と、に分類し、前記複数の関節の可動域及び各関節間の距離に関する基準を考慮して、前記サブ対象を前記分類されたメイン対象のうちのいずれかに連結し、前記分類に当たっては、前記数が推定された対象のうち前記特定された数だけ、前記検出された関節の数が多い順に、前記メイン対象に分類することが好ましい。
 また、前記コンピュータは、対象の複数の関節の可動域に関する基準を更に記憶しており、前記識別するステップでは、前記対象の数の特定に当たり、前記推定された数の対象を、メイン対象と、それ以外のサブ対象と、に分類し、前記複数の関節の可動域に関する基準を考慮して、前記サブ対象を前記分類されたメイン対象のうちのいずれかに連結し、前記分類に当たっては、前記基本姿勢に関する基準に該当するものを前記メイン対象に分類することが好ましい。
 本発明の行動推定装置によれば、複数の時系列画像に映った対象の行動を高精度に推定することが可能となる。
本発明の実施の形態による行動推定装置の使用状態の説明図 本発明の実施の形態による学習装置及び行動推定装置のブロック図 本発明の実施の形態による関節群の説明図 本発明の実施の形態による対象数識別の説明図 本発明の実施の形態による行動推定装置による行動推定のフローチャート 本発明の実施の形態による対象数識別のフローチャート 本発明の実施の形態による行動学習のフローチャート
 以下、本発明の実施の形態による行動推定装置1について、図1-図7を参照して説明する。
 行動推定装置1は、図1に示すように、撮影手段Xによって撮影された複数の時系列画像Y(動画を構成する各フレーム等)に映った一又は複数の対象Zの行動を推定するためのものである(本実施の形態では、理解容易のため、対象Zを骨格だけで簡易的に表示している)。行動の推定に当たっては、学習装置2(図2参照)によって学習された情報を参照する。
 まず、学習装置2の構成について説明する。
 学習装置2は、図2に示すように、学習側識別器21と、学習側取得部22と、学習側検出部23と、正解行動取得部24と、学習側計側部25と、第1の学習部26と、第2の学習部27と、を備えている。
 学習側識別器21は、対象Zの複数の関節A(本実施の形態では、首、右肘、左肘、腰、右膝、左膝)を識別するためのものであり、関節Aごとに、それぞれを識別するための形状、方向、サイズ等の基準が記憶されている。また、学習側識別器21には、対象Zの様々なバリエーション(“歩行”、“直立”等)の “基本姿勢 “、”各関節Aの可動域“、一の対象Zにおける”各関節A間の距離“に関する基準も記憶されている。
 学習側取得部22は、正解行動が既知の映像、すなわち、複数の時系列画像Yを取得する。この複数の時系列画像Yは、行動推定装置1のユーザにより入力される。
 学習側検出部23は、各時系列画像Yに映った複数の関節Aを検出する。具体的には、CNN(Convolution Neural Network)を用いてモデリングされた推論モデルにより、学習側識別器21が示す基準に該当する部位を検出する。検出された各関節A(図1では、A1-A17)は、表示部(図示せず)上に、選択可能に表示される。
 正解行動取得部24は、複数の時系列画像Yに映った対象Zの対応する正解行動を、学習側検出部23により検出された各関節Aについて取得する。この正解行動は、行動推定装置1のユーザにより入力される。具体的には、ユーザは、学習側取得部22において対象Zが転倒した際の複数の時系列画像Yを入力した場合には、正解行動取得部24には、表示部上で各関節Aを選択し、正解行動“転倒”を入力することとなる。
 また、本実施の形態では、時系列画像Yに複数の対象Zが映っている場合には、各対象Zに対して正解行動を入力する。この場合、同一の対象Zに含まれる関節Aを特定した上で、各関節Aに対して正解行動を入力する。例えば、図1の対象Z1に関しては、関節A1-A6を特定した上で、それぞれに対し、正解行動“歩行”を入力する。また、図1の対象Z2に関しては、関節A7-A11を特定した上で、正解行動“転倒”を入力する。また、図1の対象Z3に関しては、関節A12-A17を特定した上で、正解行動“しゃがむ”を入力する。更に、対象Z3に関しては、しゃがんでいるだけでなく、バランスも崩しているので、”各関節A12-A17に対し、正解行動“バランスを崩す”を更に入力する。
 学習側計側部25は、学習側検出部23により検出された複数の関節Aの座標及び深度を計測する。この計測は、各時系列画像Yに対して行われる。
 例えば、時刻t1の時系列画像Yにおける関節A1の座標及び深度は、(XA1(t1)、YA1(t1)、ZA1(t1))のように表すことができる。なお、深度に関しては、必ずしも座標で表す必要はなく、複数の時系列画像Yにおける相対的な深度で表してもよい。なお、深度は、既知の方法により測定してもよいが、正解行動取得部24において各関節Aの深度を入力しておき、その入力された深度をそのまま用いてもよい。本発明の“学習側計側部による深度の計測”には、このように、入力された深度を用いる場合も含まれる。この場合には、後述する第1の学習部26は、例えば、「この関節のサイズ、角度等であれば、○○mの距離である」と学習していくことになる。
 第1の学習部26は、各対象Zに属する複数の関節Aの全体としての座標及び深度の複数の時系列画像Yにおける変位を学習する。具体的には、正解行動取得部24において特定された各対象Zに属する複数の関節Aを関節群B(図3参照)と識別した上で、当該関節群B全体としての座標及び深度の複数の時系列画像Yにおける変位を学習する。
 関節群Bの全体としての座標及び深度の変位としては、検出された全ての関節Aの座標の中心点の座標及び深度の変位や、体の動きと密接に関連した重心の座標及び深度の変位を用いることが考えられる。また、これらの両方を用いたり、これらに加えて各関節Aの座標及び深度の変位も考慮して、より精度を高めてもよい。なお、重心の座標及び深度は、各関節Aの座標及び深度と、各関節A(筋肉、脂肪等を含む)の重量と、を考慮して算出することが考えられる。この場合、各関節Aの重量は、学習側識別器21等に記憶させておけばよい。
 第2の学習部27は、第1の学習部26で学習された関節群Bの全体としての座標及び深度の複数の時系列画像Yにおける変位を、正解行動取得部24で入力された正解行動と対応付けて学習する。例えば、正解行動“前方への転倒”の場合、関節群Bの全体としての座標の変位は、“第1の距離だけ下方へ進む”、関節群Bの全体としての深度の変位は、“第2の距離だけ前方へ進む”というように学習することになる。
 続いて、行動推定装置1の構成について説明する。
 行動推定装置1は、図2に示すように、推定側識別器11と、推定側取得部12と、推定側検出部13と、推定側計側部14と、識別部15と、推定部16と、を備えている。
 推定側識別器11は、対象Zの複数の関節A(肘、肩、腰、膝等)を識別するためのものであり、関節Aごとに、それぞれを識別するための形状、方向、サイズ等の基準が記憶されている。また、学習側識別器21には、対象Zの様々なバリエーション(“歩行”、“直立”等)の“基本姿勢 “、”各関節Aの可動域“、一の対象Zにおける”各関節A間の距離“に関する基準も設けられている。本実施の形態では、学習側識別器21と同一のものを用いるものとする。
 推定側取得部12は、撮影手段Xに接続されており、撮影手段Xにより撮影された映像、すなわち、複数の時系列画像Yを取得する。本実施の形態では、複数の時系列画像Yをリアルタイムで取得するものとするが、行動推定装置1の使用目的によっては、後から取得するようにしてもよい。
 推定側検出部13は、各時系列画像Yに映った複数の関節Aを検出する。具体的には、CNN(Convolution Neural Network)を用いてモデリングされた推論モデルにより、推定側識別器11に記憶された関節Aを識別するための基準に該当する部位を検出する。推定側検出部13が関節Aを検出した場合には、時系列画像Yに一又は複数の対象Zが映っていると考えることができる。
 推定側計側部14は、推定側検出部13により検出された複数の関節Aの座標及び深度を計測する。この計測は、各時系列画像Yに対して行われる。
 例えば、時刻t1の時系列画像Yにおける関節A1の座標及び深度は、(XA1(t1)、YA1(t1)、ZA1(t1))のように表すことができる。なお、深度に関しては、必ずしも座標で表す必要はなく、複数の時系列画像Yにおける相対的な深度で表してもよい。なお、深度は、既知の方法により測定してもよいが、第1の学習部26によって深度の学習が行われている場合には、第1の学習部26を参照して深度を特定してもよい。本発明の“推定側計側部による深度の計測”には、このように、第1の学習部26で学習された深度を用いる場合も含まれる。
 識別部15は、第1の学習部26を参照して、推定側計側部14により計測された各関節Aの座標及び深度の複数の時系列画像Yにおける変位に基づき、複数の関節Aの中から、各対象Zに属する関節群Bを識別する。図1及び図3では、関節A1-A6が対象Z1に属する関節群B1であり、関節A7-A11が対象Z2に属する関節群B2であり、関節A12-A17が対象Z3に属する関節群B3であると識別することになる。
 ここで、本実施の形態では、各対象Zに属する複数の関節群A(関節群B)の識別に当たり、まず、対象Zの数の特定を行う。対象Zの数の特定に当たっては、推定側識別器11に記憶された“基本姿勢”に関する基準に基づき、(1)対象Zの数の推定を行い、続いて、複数の関節Aの種類ごとの個数に基づき、(2)対象Zの数の特定を行う。
 (1)対象Zの数の推定
 対象Zの数の推定では、推定側識別器11に記憶された“基本姿勢”に関する基準に該当する複数の関節Aを推定する。図1の例では、推定側検出部13により、関節A1-A17が検出されることになるが、このうち、関節A1-A6、及び、関節A7-11に関しては、“基本姿勢”に含まれる関節Aであると判断され、2つの対象Zが存在すると推定される。また、関節A12-14に関しては、“基本姿勢”の一部であると判断され、1つの対象Zが存在すると推定される。
 一方、イレギュラーな位置にある関節A15-17に関しては、“基本姿勢”の一部であるとは判断されず、それぞれが個別の対象Zと推定されることになる。
 従って、この場合、図4に示すように、“関節A1-A6”、“関節A7-11”、“A12-A14”、“関節A15”、“関節A16”、“関節A17”の合計6つの対象Z1’-Z6’が存在するものと推定されることになる。
 (2)対象Zの数の特定
 続いて、推定された対象Zの数と、複数の関節Aの種類ごとの個数と、に基づき、対象Zの数の特定を行う。
 例えば、図4では、対象Z1’には、6つの関節A(“頭”、“右肘”、“左肘”、“腰”、“右膝”、“左膝”)が、対象Z2’には、5つの関節A(“頭”、“右肘”、“左肘”、“腰”、“左膝”)が、対象Z3’には、3つの関節A(“頭”、“右肘”、“左肘”)が、対象Z4’には、1つの関節A(“腰”)が、対象Z5’には、1つの関節A(“右膝”)が、対象Z6’には、1つの関節A(“左膝”)が含まれている。
 この場合、それぞれ3つずつ存在する“頭”、“右肘”、“左肘”、“腰”、“左膝”の関節Aが最も多く存在する種類の関節Aとなるので、最終的には、全部で3つの対象Zが存在すると特定されることになる。
 (3)各対象Zに属する複数の関節群A(関節群B)の識別
 各対象Zに属する複数の関節群A(関節群B)の識別では、(A)対象Z’の“メイン対象”と“サブ対象”への分類、(B)“サブ対象”の“メイン対象”への連結、を行う。
 (A)対象Z’の“メイン対象”と“サブ対象”への分類
 ここでは、まず、対象Z1’-Z6’を、“メイン対象”と“サブ対象”に分類する。
 図4に示す例では、「(2)対象Zの数の特定」において、全部で3つの対象Zが存在すると特定されているので、検出された関節Aの数が多い順に3つの対象Z1’、Z2’、Z3’を“メイン対象”、その他の対象Z4’、Z5’、Z6’を“サブ対象”に分類する。
 (B)“サブ対象”の“メイン対象”への連結
 続いて、推定側識別器11に記憶された“各関節Aの可動域”及び”各関節A間の距離“に関する基準を考慮して、“サブ対象”Z4’、Z5’、Z6’を、分類された “メイン対象”Z1’、Z2’、Z3’のうちのいずれかに連結可能がどうかを判断する。
 図4では、“サブ対象”Z4’(“腰”)、Z5(“右膝”)’、Z6’(“左膝”)は、“メイン対象”Z3’と連結した場合に、“各関節Aの可動域”及び“各関節A間の距離”に不自然なところがないため、“メイン対象”Z3’に連結可能と判断され、これらを連結し、各対象Z1-Z3に属する複数の関節A(関節群B)を決定することになる。
 なお、図1に示すように、対象Z2に関しては、対象Z3に隠れて、“右膝”のデータが欠損していることになるが、識別部15は、推定側識別器11に記憶された“基本姿勢”、“各関節Aの可動域”、“各関節A間の距離”に関する基準を考慮して、その他の関節A7-A11の位置から推定される位置に“右膝”が存在するものとして座標を与え、前後の時系列画像Yで“左膝”を検出した場合に連続動作として扱うことになる。また、上記連結は、分類された“メイン対象”が1つの場合を除外するものではない。
 図2に戻り、推定部16は、第2の学習部27を参照して、識別部15で識別された関節群Bの全体としての座標及び深度の複数の時系列画像Yにおける変位に基づき、対象Zの行動を推定する。具体的には、第2の学習部27を参照して、様々な行動の選択肢(「転倒」、「歩行」、「走行」、「投球」等)の中から、確率の高い一又は複数の行動が選択されることになる。すなわち、行動推定装置1では、各対象Zの関節群B全体としての座標及び深度を、LSTM(Long Short Term Memory)を用いた時系列の推論モデルにインプットし、「walking」「standing」といった行動識別ラベルをアウトプットすることになる。
 ここで、対象Zの行動というものは、各関節Aの時系列な変位によってある程度は推定できるが、各関節Aの時系列な変位を個別に追うだけでは、高精度に行動を推定することは難しい。そこで、本実施の形態では、一の対象Zに属する関節群Bの全体としての座標及び深度の複数の時系列画像Yにおける変位に基づき、対象Zの行動を推定することで、高精度な行動推定を実現している。
 続いて、図5及び図6のフローチャートを用いて、行動推定装置1による“各対象Zに属する関節群Bの識別”及び“各対象Zの行動の推定”について説明する。
 まず、推定側取得部12が複数の時系列画像Yを取得すると(S1)、推定側検出部13により、各時系列画像Yに映った複数の関節Aが検出される(S2)。
 続いて、推定側計側部14により、S2で検出された複数の関節Aの座標及び深度が計測される(S3)。この計測は、各時系列画像Yに対して行われる。
 続いて、識別部15により、S3で計測された各関節Aの座標及び深度の複数の時系列画像Yにおける変位に基づき、複数の関節Aの中から、各対象Zに属する関節群Bが識別される(S4)。
 この“各対象Zに属する関節群Bの識別”に関しては、図6のフローチャートに示すように、まず、学習側識別器21に記憶された“基本姿勢”に関する基準に基づき、対象Zの数の推定を行う(S41)。
 図4に示す例では、“関節A1-A6”、“関節A7-11”、“A12-A14”、“関節A15”、“関節A16”、“関節A17”の合計6つの対象Z1’-Z6’が存在すると推定されることになる。
 続いて、複数の関節Aの種類ごとの個数に基づき、対象Zの数の特定を行う(S42)。
 図4に示す例では、それぞれ3つずつ存在する“頭”、“右肘”、“左肘”、“腰”、“左膝”の関節Aが最も多く存在する種類の関節Aとなるので、全部で3つの対象Zが存在すると特定されることになる。
 続いて、対象Z1’-Z6’を、“メイン対象”と“サブ対象”に分類する(S43)。
 図4に示す例では、含まれる関節Aの数が多い上位3つの対象Z1’、Z2’、Z3’を“メイン対象”、その他の対象Z4’、Z5’、Z6’を“サブ対象”に分類する。
 続いて、推定側識別器11に記憶された“各関節Aの可動域”に関する基準を考慮して、“サブ対象”Z4’、Z5’、Z6’を、いずれかの“メイン対象”Z1’、Z2’、Z3’に連結可能がどうかを判断する(S44)。
 連結可能と判断された場合には(S44:YES)、これらを連結し(S45)、各対象Zに属する複数の関節A(関節群B)を決定することになる(S46)。
 図4に示す例では、サブ対象Z4’(“腰”)、Z5(“右膝”)’、Z6’(“左膝”)は、全て、メイン対象Z3’に連結可能と判断され、連結されることになる。
 そして、図5に戻り、最後に、推定部16により、S4で識別された関節群Bの全体としての座標及び深度の複数の時系列画像Yにおける変位に基づき、対象Zの行動を推定する(S5)。
 このような構成を有する行動推定装置1は、例えば、介護施設において、被介護者がいる室内を常時撮影し、撮影された映像に基づき被介護者(対象Z)が転倒したこと等を推定した場合に、その旨を介護者へ報知する等の用途で用いることができる。
 なお、上記した行動推定装置1による“各対象Zの行動の推定”には、学習装置2による“各対象Zの行動の学習”が前提となるので、図7のフローチャートを用いて、学習装置2による“各対象Zの行動の学習”について説明する。
 まず、学習側取得部22が複数の時系列画像Yを取得すると(S21)、学習側検出部23により、各時系列画像Yに映った複数の関節Aが検出される(S22)。
 続いて、正解行動取得部24により、学習側検出部23により検出された各関節Aに対して正解行動が取得されると(S23)、学習側計側部25により、S22で検出された複数の関節Aの座標及び深度が計測される(S24)。この計測は、各時系列画像Yに対して行われる。
 続いて、第1の学習部26により、各対象Zに属する複数の関節Aの全体としての座標及び深度の複数の時系列画像Yにおける変位が学習される(S25)。
 そして、最後に、第2の学習部27により、第1の学習部26で学習された関節群Bの全体としての座標及び深度の複数の時系列画像Yにおける変位を、正解行動取得部24で入力された正解行動と対応付けて学習する(S26)。
 以上説明したように、本実施の形態による行動推定装置1では、複数の関節A(関節群B)の全体としての座標及び深度の複数の時系列画像Yにおける変位に基づき、対象Zの行動を推定する。
 このような構成によれば、関節群Bの全体としての座標及び深度の複数の時系列画像Yにおける変位に基づき対象Zの行動を推定するので、各関節Aの時系列な変位を個別に追うだけでは実現することができない高精度な行動推定を実現することが可能となる。また、各関節Aの変位の全てを考慮する必要がないので、CPUへの負荷を大幅に軽減させることが可能となる。また、行動推定装置1、学習装置2、及び、撮影手段Xを準備するだけで、対象Z側にセンサを装着させる必要や、行動推定装置1側に高価で特殊なセンサを備える必要がないので、より簡易かつ安価に行動推定を行うことが可能となる。また、アノテーション技術を駆使して、同一の画像から多くのトレーニングデータを生成することができるので、より安価かつ高精度の行動推定を行うことが可能となる。
 また、本実施の形態による行動推定装置1では、関節群Bの全体としての座標及び深度の変位は、関節群Bの重心の座標及び深度の変位を含んでいる。
 このような構成によれば、体の動きと密接に関連した重心の座標及び深度の変位を用いることで、正確に行動を推定することが可能となる。
 また、本実施の形態による行動推定装置1では、“基本姿勢”に関する基準に基づき、各時系列画像Yに映った対象Zの数の推定を行い、推定された対象Zの数と、検出された複数の関節Aの種類ごとの個数と、に基づき、時系列画像Yに映った対象Zの数の特定を行う。
 このような構成によれば、時系列画像Yに映った対象Zの数を正確に特定することが可能となる。
 また、本実施の形態による行動推定装置1では、対象Zの数の特定に当たり、数が推定された対象Z’を、“メイン対象”と、それ以外の“サブ対象”と、に分類し、“複数の関節Aの可動域” 及び”各関節A間の距離“に関する基準を考慮して、サブ対象を分類されたメイン対象のうちのいずれかに連結し、その際、検出された関節Aの数が多い順に、特定された数だけ、“メイン対象”に分類する。
 このような構成によれば、時系列画像Yに映った対象Zの数をより正確に特定することが可能となる。
 また、本実施の形態による学習装置2では、複数の関節A(関節群B)の全体としての座標及び深度の複数の時系列画像Yにおける変位を、正解行動と対応付けて学習する。
 このような構成によれば、行動推定装置1に対し、高精度な行動推定を実現するための情報を提供することが可能となる。
 また、本実施の形態による学習装置2では、関節群Bの全体としての座標及び深度の変位は、関節群Bの重心の座標及び深度の変位である。
 このような構成によれば、行動推定装置1に対し、より高精度な行動推定を実現するための情報を提供することが可能となる。
 尚、本発明の行動推定装置は、上述した実施の形態に限定されず、特許請求の範囲に記載した範囲で種々の変形や改良が可能である。
 例えば、上記実施の形態では、対象Zの行動推定に当たり、関節群Bの座標及び深度の複数の時系列画像Yにおける変位を考慮したが、各関節Aの複数の時系列画像Yにおける変位を更に考慮してもよい。
 また、上記実施の形態では、深度をZ(t)の座標で表したが、深度に関しては、必ずしも座標で表す必要はなく、複数の時系列画像Yにおける相対的な深度で表してもよい。
 また、上記実施の形態では、複数の時系列画像Yにおける対象Zの行動を推定したが、複数の時系列画像Yの後に起こるであろう行動を予測してもよい。例えば、対象Zの体が倒れる動作を学習装置2に学習させておき、行動推定装置1において、複数の時系列画像Yが倒れる動作の前半部分であった場合、複数の時系列画像Yの後に転倒するものと予測することができる。従って、対象Zが転倒防止機構を装着しているような場合には、転倒防止機構に転倒防止のための作動を瞬時に指示することが可能となる。
 また、上記実施の形態では、対象Zの数の特定において、検出された関節Aの数が多い順に、特定された数(3つ)だけ、“メイン対象”に分類したが、“基本姿勢”又は“基本姿勢”の一部であると判断された関節Aを含む対象Z’を“メイン対象”に分類する方法も考えられる。
 また、上記実施の形態では、対象Zとして人間を例に説明したが、動物やロボットの行動を推定するために使用することも可能である。また、上記実施の形態では、複数の関節Aとして、首、右肘、左肘、腰、右膝、左膝を例に説明を行ったが、その他の関節や、より多くの関節Aを用いてもよいことは言うまでもない。
 また、本発明は、行動推定装置1及び学習装置2が行う処理に相当するプログラムや、当該プログラムを記憶した記録媒体にも応用可能である。記録媒体の場合、コンピュータ等に当該プログラムがインストールされることとなる。ここで、当該プログラムを記憶した記録媒体は、非一過性の記録媒体であっても良い。非一過性の記録媒体としては、CD-ROM等が考えられるが、それに限定されるものではない。
1           行動推定装置
2           学習装置
11       推定側識別器
12       推定側取得部
13       推定側検出部
14       推定側計側部
15       識別部
16       推定部
21       学習側識別器
22       学習側取得部
23       学習側検出部
24       正解行動取得部
25       学習側計側部
26       第1の学習部
27       第2の学習部
A           関節
B           関節群
X           撮影手段
Y           時系列画像
Z           対象

Claims (12)

  1.  一又は複数の対象が映った複数の時系列画像を取得する推定側取得部と、
     対象の複数の関節を識別するための基準を記憶した識別器と、
     前記複数の関節を識別するための基準に基づき、各時系列画像に映った複数の関節を検出する推定側検出部と、
     各時系列画像に映った前記複数の関節の座標及び深度を計測する推定側計測部と、
     前記計測された各関節の座標及び深度の前記複数の時系列画像における変位に基づき、前記複数の関節の中から、一の対象に属する関節群を識別する識別部と、
     前記関節群の全体としての座標及び深度の前記複数の時系列画像における変位に基づき、前記一の対象の行動を推定する推定部と、
    を備えたことを特徴とする行動推定装置。
  2.  前記関節群の全体としての座標及び深度の変位は、前記関節群の重心の座標及び深度の変位を含むことを特徴とする請求項1に記載の行動推定装置。
  3.  前記関節群の全体としての座標及び深度の変位に基づき、前記複数の時系列画像に続く前記一の対象の行動を予測する予測部を更に備えたことを特徴とする請求項1又は2に記載の行動推定装置。
  4.  前記識別器は、対象の基本姿勢に関する基準を更に記憶しており、
     前記識別部は、前記基本姿勢に関する基準に基づき、各時系列画像に映った対象の数の推定を行い、前記推定された対象の数と、前記検出された複数の関節の種類ごとの個数と、に基づき、各時系列画像に映った対象の数の特定を行うことを特徴とする請求項1から3のいずれか一項に記載の行動推定装置。
  5.  前記識別器は、対象の複数の関節の可動域及び各関節間の距離に関する基準を更に記憶しており、
     前記識別部は、前記対象の数の特定に当たり、前記数が推定された対象を、メイン対象と、それ以外のサブ対象と、に分類し、前記複数の関節の可動域及び各関節間の距離に関する基準を考慮して、前記サブ対象を前記分類されたメイン対象のうちのいずれかに連結し、前記分類に当たっては、前記数が推定された対象のうち前記特定された数だけ、前記検出された関節の数が多い順に、前記メイン対象に分類することを特徴とする請求項4に記載の行動推定装置。
  6.  前記識別器は、対象の複数の関節の可動域に関する基準を更に記憶しており、
     前記識別部は、前記対象の数の特定に当たり、前記推定された数の対象を、メイン対象と、それ以外のサブ対象と、に分類し、前記複数の関節の可動域に関する基準を考慮して、前記サブ対象を前記分類されたメイン対象のうちのいずれかに連結し、前記分類に当たっては、前記基本姿勢に関する基準に該当するものを前記メイン対象に分類することを特徴とする請求項4に記載の行動推定装置。
  7.  対象の複数の関節を識別するための基準が記憶されたコンピュータにインストールされるプログラムであって、
     一又は複数の対象が映った複数の時系列画像を取得するステップと、
     前記複数の関節を識別するための基準に基づき、各時系列画像に映った複数の関節を検出するステップと、
     各時系列画像に映った前記複数の関節の座標及び深度を計測するステップと、
     前記計測された各関節の座標及び深度の前記複数の時系列画像における変位に基づき、前記複数の関節の中から、一の対象に属する関節群を識別するステップと、
     前記関節群の全体としての座標及び深度の前記複数の時系列画像における変位に基づき、前記一の対象の行動を推定するステップと、
    を備えたことを特徴とする行動推定プログラム。
  8.  前記関節群の全体としての座標及び深度の変位は、前記関節群の重心の座標及び深度を含むことを特徴とする請求項7に記載の行動推定プログラム。
  9.  前記関節群の全体としての座標及び深度の変位に基づき、前記複数の時系列画像に続く前記一の対象の行動を予測するステップを更に備えたことを特徴とする請求項7又は8に記載の行動推定プログラム。
  10.  前記コンピュータは、対象の基本姿勢に関する基準を更に記憶しており、
     前記識別するステップでは、前記基本姿勢に関する基準に基づき、各時系列画像に映った対象の数の推定を行い、前記推定された対象の数と、前記検出された複数の関節の種類ごとの個数と、に基づき、各時系列画像に映った対象の数の特定を行うことを特徴とする請求項7から9のいずれか一項に記載の行動推定プログラム。
  11.  前記コンピュータは、対象の複数の関節の可動域及び各関節間の距離に関する基準を更に記憶しており、
     前記識別するステップでは、前記対象の数の特定に当たり、前記数が推定された対象を、メイン対象と、それ以外のサブ対象と、に分類し、前記複数の関節の可動域及び各関節間の距離に関する基準を考慮して、前記サブ対象を前記分類されたメイン対象のうちのいずれかに連結し、前記分類に当たっては、前記数が推定された対象のうち前記特定された数だけ、前記検出された関節の数が多い順に、前記メイン対象に分類することを特徴とする請求項10に記載の行動推定プログラム。
  12.  前記コンピュータは、対象の複数の関節の可動域に関する基準を更に記憶しており、
     前記識別するステップでは、前記対象の数の特定に当たり、前記推定された数の対象を、メイン対象と、それ以外のサブ対象と、に分類し、前記複数の関節の可動域に関する基準を考慮して、前記複数の関節の可動域に関する基準を考慮して、前記サブ対象を前記分類されたメイン対象のうちのいずれかに連結し、前記分類に当たっては、前記基本姿勢に関する基準に該当するものを前記メイン対象に分類することを特徴とする請求項10に記載の行動推定プログラム。
PCT/JP2019/015402 2018-04-11 2019-04-09 行動推定装置 WO2019198696A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/045,536 US11482046B2 (en) 2018-04-11 2019-04-09 Action-estimating device

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2018-076046 2018-04-11
JP2018-076045 2018-04-11
JP2018076045A JP6525179B1 (ja) 2018-04-11 2018-04-11 行動推定装置
JP2018076046A JP6525180B1 (ja) 2018-04-11 2018-04-11 対象数特定装置

Publications (1)

Publication Number Publication Date
WO2019198696A1 true WO2019198696A1 (ja) 2019-10-17

Family

ID=68163197

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/015402 WO2019198696A1 (ja) 2018-04-11 2019-04-09 行動推定装置

Country Status (2)

Country Link
US (1) US11482046B2 (ja)
WO (1) WO2019198696A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11048924B1 (en) 2018-05-27 2021-06-29 Asilla, Inc. Action-estimating device

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11127131B1 (en) * 2021-02-22 2021-09-21 Marc Michael Thomas Systems and methods to assess abilities of two or more individuals to perform collective physical acts
CN115116132B (zh) * 2022-06-13 2023-07-28 南京邮电大学 一种物联网边缘服务环境下深度感知的人体行为分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016099982A (ja) * 2014-11-26 2016-05-30 日本電信電話株式会社 行動認識装置、行動学習装置、方法、及びプログラム
JP2016170605A (ja) * 2015-03-12 2016-09-23 セコム株式会社 姿勢推定装置
JP2017102808A (ja) * 2015-12-04 2017-06-08 ソニー株式会社 画像処理装置および方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8755569B2 (en) * 2009-05-29 2014-06-17 University Of Central Florida Research Foundation, Inc. Methods for recognizing pose and action of articulated objects with collection of planes in motion
US10430966B2 (en) * 2017-04-05 2019-10-01 Intel Corporation Estimating multi-person poses using greedy part assignment
US10929829B1 (en) * 2017-05-04 2021-02-23 Amazon Technologies, Inc. User identification and account access using gait analysis
WO2018217652A1 (en) * 2017-05-24 2018-11-29 Neuropath Sprl Systems and methods for markerless tracking of subjects
US10695611B2 (en) * 2017-08-14 2020-06-30 AssessLink LLC Physical education kinematic motor skills testing system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016099982A (ja) * 2014-11-26 2016-05-30 日本電信電話株式会社 行動認識装置、行動学習装置、方法、及びプログラム
JP2016170605A (ja) * 2015-03-12 2016-09-23 セコム株式会社 姿勢推定装置
JP2017102808A (ja) * 2015-12-04 2017-06-08 ソニー株式会社 画像処理装置および方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KUROSAWA, SHUN ET. AL.: "The development of system for monitoring elderly people's state by using depth sensor", IEICE TECHNICAL REPORT, vol. 112, no. 474, 4 March 2013 (2013-03-04), pages 17 - 22, ISSN: 0913-5685 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11048924B1 (en) 2018-05-27 2021-06-29 Asilla, Inc. Action-estimating device

Also Published As

Publication number Publication date
US11482046B2 (en) 2022-10-25
US20210158029A1 (en) 2021-05-27

Similar Documents

Publication Publication Date Title
US11182924B1 (en) System for estimating a three dimensional pose of one or more persons in a scene
Zhang et al. Ergonomic posture recognition using 3D view-invariant features from single ordinary camera
Yan et al. Development of ergonomic posture recognition technique based on 2D ordinary camera for construction hazard prevention through view-invariant features in 2D skeleton motion
US11298050B2 (en) Posture estimation device, behavior estimation device, storage medium storing posture estimation program, and posture estimation method
WO2019198696A1 (ja) 行動推定装置
JP7057959B2 (ja) 動作解析装置
Chaudhari et al. Yog-guru: Real-time yoga pose correction system using deep learning methods
Zhang et al. A viewpoint-independent statistical method for fall detection
Taati et al. Vision-based posture assessment to detect and categorize compensation during robotic rehabilitation therapy
US11688139B1 (en) System for estimating a three dimensional pose of one or more persons in a scene
KR102371127B1 (ko) 골격의 길이 정보를 이용한 제스쳐 인식 방법 및 처리 시스템
US20220083769A1 (en) Work estimation apparatus, method and non-transitory computer-readable storage medium
Nayak et al. Development of a fully automated RULA assessment system based on computer vision
Alazrai et al. Fall detection for elderly using anatomical-plane-based representation
JP6525180B1 (ja) 対象数特定装置
Liu et al. Automatic fall risk detection based on imbalanced data
JP6525179B1 (ja) 行動推定装置
Zhu et al. Realtime human daily activity recognition through fusion of motion and location data
CN117593792A (zh) 一种基于视频帧的异常姿态检测方法和装置
CN113221815A (zh) 一种基于骨骼关键点自动检测技术的步态鉴定方法
WO2019230199A1 (ja) 行動推定装置
JP2021081804A (ja) 状態認識装置、状態認識方法及び状態認識プログラム
US11983242B2 (en) Learning data generation device, learning data generation method, and learning data generation program
Pavllo et al. Real-time marker-based finger tracking with neural networks
US11694571B2 (en) Information processing system, information processing apparatus, and non-transitory storage medium

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19785506

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19785506

Country of ref document: EP

Kind code of ref document: A1