WO2019230199A1 - 行動推定装置 - Google Patents

行動推定装置 Download PDF

Info

Publication number
WO2019230199A1
WO2019230199A1 PCT/JP2019/015403 JP2019015403W WO2019230199A1 WO 2019230199 A1 WO2019230199 A1 WO 2019230199A1 JP 2019015403 W JP2019015403 W JP 2019015403W WO 2019230199 A1 WO2019230199 A1 WO 2019230199A1
Authority
WO
WIPO (PCT)
Prior art keywords
options
estimation
behavior
time
joints
Prior art date
Application number
PCT/JP2019/015403
Other languages
English (en)
French (fr)
Inventor
木村 大介
Original Assignee
株式会社アジラ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社アジラ filed Critical 株式会社アジラ
Priority to US17/057,720 priority Critical patent/US11048924B1/en
Publication of WO2019230199A1 publication Critical patent/WO2019230199A1/ja
Priority to US17/324,190 priority patent/US20210279452A1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/67ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for remote operation
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/107Measuring physical dimensions, e.g. size of the entire body or parts thereof
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • A61B5/1126Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb using a particular sensing technique
    • A61B5/1128Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb using a particular sensing technique using image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H80/00ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Definitions

  • the present invention relates to an action estimation apparatus for estimating an action of an object shown in a plurality of time-series images.
  • an object of the present invention is to provide a behavior estimation device capable of estimating a behavior of a target reflected in a plurality of time-series images with high accuracy.
  • the present invention provides an estimation-side acquisition unit that acquires a plurality of time-series images showing a target, an estimation-side detection unit that detects a plurality of joints reflected in each time-series image, and each of the detected plurality of joints.
  • An estimation side measurement unit that measures coordinates in the time series image, an estimation unit that estimates the behavior of the target based on displacements in the plurality of time series images of the measured coordinates of the plurality of joints, and an estimated action
  • a storage unit storing a plurality of options, wherein the estimation side detection unit further detects a background reflected in each time-series image, and the estimation unit performs the measurement in estimating the behavior of the target.
  • the estimation unit excludes one or a plurality of options from the plurality of options based on the detected background when estimating the behavior of the target.
  • the storage unit among the plurality of options, ones that are more than a predetermined relationship with each other are stored in association with each other, and the estimation unit is configured to estimate the behavior of the target, When any one of the plurality of linked options is excluded or the probability is reduced, it is preferable to increase the probability of the plurality of linked options that have not been reduced or the probability is decreased.
  • a program installed in a computer, wherein the computer stores a plurality of estimated behavior options, and a plurality of time-series images showing the target.
  • Obtaining a plurality of joints reflected in each time series image, measuring the coordinates of each of the detected joints in each time series image, and measuring the plurality of joints A step of estimating the behavior of the target based on displacement of the coordinates in the plurality of time-series images; and a step of detecting a background reflected in each time-series image, wherein the measurement is performed in the estimating step.
  • the probabilities of the plurality of options are calculated, respectively, and based on the detected background, Offering activity estimation program and correcting the probability of multiple choices are.
  • the estimating step it is preferable to exclude one or more options from the plurality of options based on the detected background.
  • the computer among the plurality of options, ones that are related to each other in a predetermined amount or more are stored in association with each other, and in the estimating step, the plurality of options connected with each other are stored.
  • the probability of the plurality of linked options for which the exclusion or the probability has not been reduced.
  • an estimation-side acquisition unit that acquires a plurality of time-series images in which an object is reflected
  • an estimation-side detection unit that detects a plurality of joints reflected in each time-series image
  • An estimation side measurement unit that measures the coordinates of the plurality of joints reflected in the time series image
  • an estimation for estimating the behavior of the target based on the displacements in the plurality of time series images of the measured coordinates of the plurality of joints
  • a setting unit configured to set a purpose or use of estimation of the behavior of the target, and a storage unit storing a plurality of options of the estimated behavior, the estimation unit estimating the behavior of the target
  • the probabilities of the plurality of options are calculated based on the displacements in the plurality of time-series images of the measured coordinates of the plurality of joints, and based on the set purpose or application, Correcting the choice probability Offering activity estimation device characterized by and.
  • the estimation unit excludes one or a plurality of options from the plurality of options based on the set purpose or application in estimating the target behavior.
  • the storage unit among the plurality of options, ones that are more than a predetermined relationship with each other are stored in association with each other, and the estimation unit is configured to estimate the behavior of the target, When any one of the plurality of linked options is excluded or the probability is reduced, it is preferable to increase the probability of the plurality of linked options that have not been reduced or the probability is decreased.
  • a program installed in a computer, wherein the computer stores a plurality of choices of the estimated behavior and sets the purpose or use of the target behavior estimation.
  • the estimating step it is preferable to exclude one or more options from the plurality of options based on the set purpose or application.
  • the computer among the plurality of options, ones that are related to each other in a predetermined amount or more are stored in association with each other, and in the estimating step, the plurality of options connected with each other are stored.
  • the probability of the plurality of linked options for which the exclusion or the probability has not been reduced.
  • the behavior estimation apparatus of the present invention it is possible to accurately estimate the behavior of an object reflected in a plurality of time-series images.
  • the behavior estimation apparatus 1 is for estimating the behavior of a target Z shown in a plurality of time-series images Y (such as each frame constituting a moving image) photographed by the photographing means X. (In this embodiment, for easy understanding, the object Z is simply displayed using only the skeleton).
  • information learned by the learning device 2 (see FIG. 2) and stored in the storage unit 3 is referred to.
  • the learning device 2 includes a learning side discriminator 21, a learning side acquisition unit 22, a learning side detection unit 23, a correct answer acquisition unit 24, a learning side meter side unit 25, and a learning unit 26. And.
  • the learning-side discriminator 21 is for identifying a plurality of joints A (in this embodiment, neck, right elbow, left elbow, waist, right knee, left knee) of the target Z.
  • the joint identification information is stored as a reference such as a shape, direction, and size for identifying each. Further, the learning side discriminator 21 relates to various variations (“walking”, “upright”, etc.) of the object Z “basic posture”, “range of motion of each joint A”, “distance between each joint A”. Supplemental identification information is also stored as a reference.
  • the learning side discriminator 21 uses background identification information (object presence / absence / color / angle, person presence / absence, etc.) as a reference for identifying the background (“hospital room”, “office”, “outdoor”, etc.). Is also remembered.
  • background identification information object presence / absence / color / angle, person presence / absence, etc.
  • the learning-side acquisition unit 22 acquires a plurality of time-series images Y as videos whose behavior is known.
  • the plurality of time-series images Y are input by the user of the behavior estimation apparatus 1.
  • the learning side detection unit 23 detects a plurality of joints A shown in each time series image Y. Specifically, a part corresponding to the joint identification information stored in the learning-side discriminator 21 is detected by an inference model modeled using CNN (convolution neural network). Each detected joint A (A1-A6 in FIG. 1) is displayed in a selectable manner on a display unit (not shown).
  • the learning side detection unit 23 also detects the background reflected in each time series image Y. Specifically, a part corresponding to the background identification information stored in the learning side discriminator 21 is detected in each time series image Y.
  • the correct answer acquisition unit 24 acquires, for each joint A detected by the learning-side detection unit 23, an action (hereinafter referred to as a correct action) that is the correct answer of the target Z shown in the plurality of time-series images Y.
  • This correct behavior is input by the user of the behavior estimation device 1. Specifically, as shown in FIG. 1, when a plurality of time-series images Y are those when the target Z falls, the user moves each joint A on a display unit (not shown). Select and enter the correct action “falling”.
  • the correct answer acquisition unit 24 also acquires the correct background reflected in the plurality of time-series images Y. For example, when the correct background is “hospital room”, the user inputs a tag “hospital room”. The correct action and the correct background options are stored in the storage unit 3.
  • the learning side meter side unit 25 measures the coordinates and depths of the joints A detected by the learning side detection unit 23. This measurement is performed on each time-series image Y.
  • the coordinates and depth of the joint A1 in the time-series image Y at time t1 can be expressed as (XA1 (t1), YA1 (t1), ZA1 (t1)).
  • the depth is not necessarily represented by coordinates, and may be represented by relative depths in a plurality of time-series images Y.
  • the depth may be measured by a known method, but the depth of each joint A may be input in the correct acquisition unit 24 and the input depth may be used as it is.
  • the learning unit 26 described later learns, for example, “If this joint has a size, angle, etc., it is a distance of OOm”.
  • the learning unit 26 learns the displacement in the plurality of time-series images Y of the coordinates and depth of the plurality of joints A belonging to each target Z as a whole. Specifically, after identifying a plurality of joints A belonging to each target Z specified by the correct answer acquisition unit 24 as a joint group B (see FIG. 3), a plurality of coordinates and depths as the whole joint group B are determined. The displacement in the time series image Y is learned.
  • the coordinates of the center point and the depth of all the detected coordinates of the joint A, and the coordinates of the center of gravity and the displacement of the depth closely related to the movement of the body are included. Can be considered. Further, both of these may be used, or in addition to these, the coordinates and depth displacement of each joint A may be taken into consideration to increase the accuracy. Note that the coordinates and depth of the center of gravity may be calculated in consideration of the coordinates and depth of each joint A and the weight of each joint A (including muscle, fat, and the like). In this case, the weight of each joint A may be stored in the learning side discriminator 21 or the like.
  • the learning unit 26 learns the displacement in the plurality of time-series images Y of the coordinates and the depth of the learned joint group B as a whole in association with the correct behavior input by the correct acquisition unit 24. For example, in the case of the correct action “falling forward”, the displacement of the coordinates of the joint group B as a whole is “goes downward by the first distance”, and the displacement of the depth of the joint group B as a whole is “first” You will learn to "go forward by a distance of 2".
  • the learning unit 26 learns the background (background identification information) detected by the learning-side detection unit 23 and the correct background acquired by the correct acquisition unit 24 in association with each other. As a result, it is possible to estimate “the background in the case of such background identification information is“ hospital room ””, “in the case of such background identification information, the probability that the background is“ hospital room ”is 80%”, etc. become.
  • the learning unit 26 determines the relationship between the correct action acquired by the correct acquisition unit 24 and the correct background. For example, if the background is “hospital room”, “walking” is the most common, “falling” occurs occasionally, “running” rarely occurs, and “throw” does not occur at all. It is done. Therefore, when the background is “hospital room”, for example, the relationships of “walking: high”, “falling: medium”, “running: low”, and “throwing: none” are determined. The relationship determined in this way is stored in the storage unit 3.
  • the learning unit 26 collects and learns a large amount of images from various viewpoints in addition to the plurality of time-series images Y described above. For example, in the case of a “hospital room”, collect and learn a large number of images such as “hospital rooms taken from various angles”, “hospital rooms of various colors”, “hospital rooms depending on the presence or absence of nurses and patients” Can be considered.
  • the storage unit 3 stores various action and background options selected by the user in the correct answer acquisition unit 24 in addition to the learning result by the learning unit 26 described above.
  • the behavior estimation apparatus 1 includes an estimation side discriminator 11, an estimation side acquisition unit 12, an estimation side detection unit 13, an estimation side meter side unit 14, and an estimation unit 15. Yes.
  • the estimation side discriminator 11 is for identifying a plurality of joints A (in the present embodiment, neck, right elbow, left elbow, waist, right knee, left knee) of the target Z.
  • the joint identification information is stored as a reference such as a shape, direction, and size for identifying each. Further, the estimation side discriminator 11 relates to “basic posture”, “range of motion of each joint A”, and “distance between the joints A” of various variations of the target Z (“walking”, “upright”, etc.). Supplemental identification information is also stored as a reference. In the present embodiment, it is assumed that the same information as the learning side discriminator 21 is stored.
  • estimation side discriminator 11 uses background identification information (existence / absence / color / angle, presence / absence of person, etc.) as a reference for identifying the background (“hospital room”, “office”, “outdoor”, etc.). Is also remembered. In the present embodiment, it is assumed that the same information as the learning side discriminator 21 is stored.
  • the estimation side acquisition unit 12 is connected to the imaging unit X, and acquires videos captured by the imaging unit X, that is, a plurality of time-series images Y.
  • a plurality of time-series images Y are acquired in real time, but may be acquired later depending on the purpose of use of the behavior estimation apparatus 1.
  • the estimation side detection unit 13 detects a plurality of joints A shown in each time series image Y. Specifically, a part corresponding to the joint identification information stored in the estimation-side discriminator 11 is detected by an inference model modeled using CNN (Convolution Natural Network). When the estimation side detection unit 13 detects the joint A, it can be considered that the target Z is reflected in the time-series image Y.
  • CNN Convolution Natural Network
  • the estimation side detection unit 13 also detects the background reflected in each time series image Y. Specifically, in each time-series image Y, a part corresponding to the background identification information stored in the estimation side classifier 11 is detected, and the learning result by the learning unit 26 stored in the storage unit 3 is referred to. Determine the background. For example, in FIG. 1, since “bed” and “infusion” exist, it is determined that “the background is a hospital room”.
  • the estimation side meter side unit 14 measures the coordinates and depths of the joints A detected by the estimation side detection unit 13. This measurement is performed on each time-series image Y.
  • the coordinates and depth of the joint A1 in the time-series image Y at time t1 can be expressed as (XA1 (t1), YA1 (t1), ZA1 (t1)).
  • the depth is not necessarily represented by coordinates, and may be represented by relative depths in a plurality of time-series images Y.
  • the depth may be measured by a known method, but when the learning unit 26 is learning the depth, the depth may be specified with reference to the learning unit 26.
  • the estimation unit 15 estimates the action of the target Z based on the displacement in the plurality of time-series images Y of the coordinates and depth of the joint group B as a whole. Specifically, referring to the learning result by the learning unit 26 stored in the storage unit 3, from among various action options ("falling", “walking”, “running”, “throwing”, etc.) One or more actions with a high probability are selected. That is, the behavior estimation apparatus 1 inputs the coordinates and depth of each target Z as a whole joint group B to a time-series inference model using LSTM (Long Short Term Memory), and performs behaviors such as “walking” and “standing”. An identification label will be output.
  • LSTM Long Short Term Memory
  • the estimation unit 15 also considers the background reflected in the time-series image Y when estimating the action of the target Z. Specifically, with reference to the relationship between the correct action and the correct background stored in the storage unit 3, the probability of the action option is corrected according to the background detected (determined) by the estimation side detection unit 13.
  • “throw” is a motion that is similar to “falling” and is estimated to have a high probability, but “throw” is an action that is very unlikely to actually occur in a “patient room”. It is.
  • an action that has a probability less than a predetermined value may be excluded from the action options. For example, in the case of “exclude actions that are 30% or less”, it is conceivable to exclude “running” and “throwing” as shown in FIG.
  • actions that are more than a predetermined relationship are linked to each other's actions, such as “falling” and “throwing”, and any of the linked actions is excluded or reduced. In this case, it is possible to increase the probability of the other action. In the example of FIG. 4, since “throw” is excluded as shown in FIG. 4D, the probability of “falling” is increased.
  • the behavior estimation device 1 it is possible to perform behavior estimation with higher accuracy by considering the background reflected in the time-series image Y when estimating the behavior of the target Z. ing.
  • the estimation side detection unit 13 detects a plurality of joints A and a background reflected in each time series image Y (S2).
  • the coordinates and depths of the plurality of joints A detected in S2 are measured by the estimation side meter side unit 14 (S3). This measurement is performed on each time-series image Y.
  • the action of the target Z is estimated by the estimation unit 15 based on the displacements in the plurality of time-series images Y of the coordinates and depths of the plurality of joints A measured in S3 (S4).
  • the behavior estimation apparatus 1 having such a configuration, for example, always captures a room where a cared person is present in a care facility, and estimates that the cared person (target Z) has fallen based on the captured image. In such a case, it can be used for such purposes as notifying a caregiver to that effect.
  • the background reflected in the time-series image Y is also taken into account when estimating the behavior of the target Z.
  • the probabilities of the plurality of options are calculated based on the displacements in the plurality of time-series images Y of the measured coordinates of the plurality of joints A, respectively. Then, based on the detected background, the calculated probabilities of the plurality of options are corrected.
  • one or a plurality of options are excluded from a plurality of options based on the detected background when estimating the behavior of the target Z.
  • the behavior estimation apparatus 1 among a plurality of options, those that are related to each other more than a predetermined value are stored in association with each other. When any one of the plurality of selected options is excluded or the probability is lowered, the probability of the plurality of linked options that are not excluded or the probability is not increased is increased.
  • the background is considered in estimating the action of the target Z, but the purpose and application can also be considered.
  • the setting unit 16 is provided in the behavior estimation apparatus 1, and the user sets the purpose or application (crime prevention, medical care, etc.). Then, the relevance between the correct action and the purpose or the use is stored in the storage unit 3, and when the estimation unit 15 estimates the behavior of the target Z, the setting unit 16 sets the relevance with reference to the relevance. What is necessary is just to correct
  • the relationship between the correct action and the correct background is stored in the storage unit 3 as learned by the learning unit 26.
  • the set value may be stored in the storage unit 3 in advance. Good.
  • the storage unit 3 is provided separately from the behavior estimation device 1 and the learning device 2, but may be provided on the behavior estimation device 1 side or the learning device 2 side.
  • the displacement of the joint group B in the plurality of time-series images Y of the coordinates and depth of the target group B is considered in estimating the action of the target Z.
  • the behavior may be estimated based on.
  • a human is described as an example of the target Z, but it can also be used to estimate the behavior of animals and robots.
  • the neck, the right elbow, the left elbow, the waist, the right knee, and the left knee have been described as examples of the plurality of joints A. However, other joints and more joints A are used. Needless to say.
  • the present invention can also be applied to a program corresponding to the process performed by the behavior estimation apparatus 1 and a recording medium storing the program.
  • the program is installed in a computer or the like.
  • the recording medium storing the program may be a non-transitory recording medium.
  • a non-transitory recording medium a CD-ROM or the like is conceivable, but is not limited thereto.
  • a plurality of options for the estimated behavior may be stored in the computer later, and the purpose or use of the target behavior estimation may be set in the computer later.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Business, Economics & Management (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Molecular Biology (AREA)
  • Psychiatry (AREA)
  • Epidemiology (AREA)
  • Veterinary Medicine (AREA)
  • General Business, Economics & Management (AREA)
  • Animal Behavior & Ethology (AREA)
  • Surgery (AREA)
  • Social Psychology (AREA)
  • Dentistry (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Tourism & Hospitality (AREA)
  • Multimedia (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Economics (AREA)
  • Physiology (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Image Analysis (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】 複数の時系列画像に映った対象の行動を高精度に推定することが可能な行動推定装置を提供する。 【解決手段】 行動推定装置1は、対象Zが映った複数の時系列画像Yを取得する推定側取得部12と、各時系列画像Yに映った複数の関節Aを検出する推定側検出部13と、検出された複数の関節Aの各時系列画像Yにおける座標を計測する推定側計測部14と、計測された複数の関節Aの座標の複数の時系列画像Yにおける変位に基づき、対象Zの行動を推定する推定部15と、推定される行動の複数の選択肢を記憶した記憶部3と、を備えており、推定側検出部13は、各時系列画像Yに映った背景を更に検出し、推定部15は、対象Zの行動の推定に当たり、計測された複数の関節Aの座標の複数の時系列画像Yにおける変位に基づき、複数の選択肢の確率をそれぞれ算出し、検出された背景に基づき、算出された複数の選択肢の確率を補正する。

Description

行動推定装置
 本発明は、複数の時系列画像に映った対象の行動を推定するための行動推定装置に関する。
 従来より、時系列データに映った人間の関節等から姿勢を検知し、当該姿勢の変化に応じて行動を認識する装置が知られている。(例えば、特許文献1参照)。
特開2017-228100号公報
 ところで、行動の推定というものは、検知された姿勢に基づき、複数の選択肢の中から可能性の高いものを選択するのが一般的であるところ、選択肢の選択を精度よく行うことが、精度の高い行動推定に繋がる。
 そこで、本発明は、複数の時系列画像に映った対象の行動を高精度に推定することが可能な行動推定装置を提供することを目的としている。
 本発明は、対象が映った複数の時系列画像を取得する推定側取得部と、各時系列画像に映った複数の関節を検出する推定側検出部と、前記検出された複数の関節の各時系列画像における座標を計測する推定側計測部と、前記計測された複数の関節の座標の前記複数の時系列画像における変位に基づき、前記対象の行動を推定する推定部と、推定される行動の複数の選択肢を記憶した記憶部と、を備え、前記推定側検出部は、各時系列画像に映った背景を更に検出し、前記推定部は、前記対象の行動の推定に当たり、前記計測された複数の関節の座標の前記複数の時系列画像における変位に基づき、前記複数の選択肢の確率をそれぞれ算出し、前記検出された背景に基づき、前記算出された複数の選択肢の確率を補正することを特徴とする行動推定装置。
 このような構成によれば、背景を考慮することで、実際に起こる可能性の高い行動に焦点を当てることができるので、高精度な行動推定を実現することが可能となる。また、実際に起こる可能性の低い行動の確率を低下させたり、実際に起こる可能性の高い行動の確率を増加させたりすることができるので、より高精度な行動推定を実現することが可能となる。
 また、前記推定部は、前記対象の行動の推定に当たり、前記検出された背景に基づき、前記複数の選択肢から一又は複数の選択肢を除外することが好ましい。
 このような構成によれば、最終的にユーザに提示される行動の数が減るので、推定された行動についてより把握しやすくなる。また、選択肢の確率を算出する前に一又は複数の選択肢を除外することで、除外されなかった選択肢の確率だけを効率よく算出することができると共に、CPUへの負荷を軽減させることが可能となる。
 また、前記記憶部には、前記複数の選択肢のうち、互いの動作に所定以上の関連性のあるものは紐付けて記憶されており、前記推定部は、前記対象の行動の推定に当たり、前記紐付けられた複数の選択肢のいずれかを除外又は確率を低下させた場合には、前記紐付けられた複数の選択肢のうち前記除外又は確率が低下されなかったものの確率を増加させることが好ましい。
 このような構成によれば、「投球」と「転倒」のような途中まで似たような動作のうち、一方を除外した場合、他方の可能性が高まるので、より高精度の行動推定を行うことが可能となる。
 また、本発明の別の観点によれば、コンピュータにインストールされるプログラムであって、前記コンピュータには、推定される行動の複数の選択肢が記憶されており、対象が映った複数の時系列画像を取得するステップと、各時系列画像に映った複数の関節を検出するステップと、前記検出された複数の関節の各時系列画像における座標を計測するステップと、前記計測された複数の関節の座標の前記複数の時系列画像における変位に基づき、前記対象の行動を推定するステップと、各時系列画像に映った背景を検出するステップと、を備え、前記推定するステップでは、前記計測された複数の関節の座標の前記複数の時系列画像における変位に基づき、前記複数の選択肢の確率をそれぞれ算出し、前記検出された背景に基づき、前記算出された複数の選択肢の確率を補正することを特徴とする行動推定プログラムを提供している。
 また、前記推定するステップでは、前記検出された背景に基づき、前記複数の選択肢から一又は複数の選択肢を除外することが好ましい。
 また、前記コンピュータには、前記複数の選択肢のうち、互いの動作に所定以上の関連性のあるものは紐付けて記憶されており、前記推定するステップでは、前記紐付けられた複数の選択肢のいずれかを除外又は確率を低下させた場合には、前記紐付けられた複数の選択肢のうち前記除外又は確率が低下されなかったものの確率を増加させることが好ましい。
 また、本発明の別の観点によれば、対象が映った複数の時系列画像を取得する推定側取得部と、各時系列画像に映った複数の関節を検出する推定側検出部と、各時系列画像に映った前記複数の関節の座標を計測する推定側計測部と、前記計測された複数の関節の座標の前記複数の時系列画像における変位に基づき、前記対象の行動を推定する推定部と、前記対象の行動の推定の目的又は用途が設定される設定部と、推定される行動の複数の選択肢を記憶した記憶部と、を備え、前記推定部は、前記対象の行動の推定に当たり、前記計測された複数の関節の座標の前記複数の時系列画像における変位に基づき、前記複数の選択肢の確率をそれぞれ算出し、前記設定された目的又は用途に基づき、前記算出された複数の選択肢の確率を補正することを特徴とする行動推定装置を提供している。
 このような構成によれば、目的又は用途を考慮することで、実際に起こる可能性の高い行動に焦点を当てることができるので、高精度な行動推定を実現することが可能となる。また、実際に起こる可能性の低い行動の確率を低下させたり、実際に起こる可能性の高い行動の確率を増加させたりすることができるので、より高精度な行動推定を実現することが可能となる。
 また、前記推定部は、前記対象の行動の推定に当たり、前記設定された目的又は用途に基づき、前記複数の選択肢から一又は複数の選択肢を除外することが好ましい。
 また、前記記憶部には、前記複数の選択肢のうち、互いの動作に所定以上の関連性のあるものは紐付けて記憶されており、前記推定部は、前記対象の行動の推定に当たり、前記紐付けられた複数の選択肢のいずれかを除外又は確率を低下させた場合には、前記紐付けられた複数の選択肢のうち前記除外又は確率が低下されなかったものの確率を増加させることが好ましい。
 また、本発明の別の観点によれば、コンピュータにインストールされるプログラムであって、前記コンピュータには、推定される行動の複数の選択肢が記憶され、対象の行動の推定の目的又は用途が設定されており、対象が映った複数の時系列画像を取得するステップと、各時系列画像に映った複数の関節を検出するステップと、前記検出された複数の関節の各時系列画像における座標を計測するステップと、前記計測された複数の関節の座標の前記複数の時系列画像における変位に基づき、前記対象の行動を推定するステップと、を備え、前記推定するステップでは、前記計測された複数の関節の座標の前記複数の時系列画像における変位に基づき、前記複数の選択肢の確率をそれぞれ算出し、前記設定された目的又は用途に基づき、前記算出された複数の選択肢の確率を補正することを特徴とする行動推定プログラムを提供している。
 また、前記推定するステップでは、前記設定された目的又は用途に基づき、前記複数の選択肢から一又は複数の選択肢を除外することが好ましい。
 また、前記コンピュータには、前記複数の選択肢のうち、互いの動作に所定以上の関連性のあるものは紐付けて記憶されており、前記推定するステップでは、前記紐付けられた複数の選択肢のいずれかを除外又は確率を低下させた場合には、前記紐付けられた複数の選択肢のうち前記除外又は確率が低下されなかったものの確率を増加させることが好ましい。
 本発明の行動推定装置によれば、複数の時系列画像に映った対象の行動を高精度に推定することが可能となる。
本発明の実施の形態による行動推定装置の使用状態の説明図 本発明の実施の形態による学習装置及び行動推定装置のブロック図 本発明の実施の形態による関節群の説明図 本発明の実施の形態による背景に応じた行動の選択肢の補正の説明図 本発明の実施の形態による行動推定装置による行動推定のフローチャート 本発明の変形例による行動推定装置の使用状態の説明図
 以下、本発明の実施の形態による行動推定装置1について、図1-図5を参照して説明する。
 行動推定装置1は、図1に示すように、撮影手段Xによって撮影された複数の時系列画像Y(動画を構成する各フレーム等)に映った対象Zの行動を推定するためのものである(本実施の形態では、理解容易のため、対象Zを骨格だけで簡易的に表示している)。行動の推定に当たっては、学習装置2(図2参照)により学習され記憶部3に記憶された情報を参照する。
 まず、学習装置2の構成について説明する。
 学習装置2は、図2に示すように、学習側識別器21と、学習側取得部22と、学習側検出部23と、正解取得部24と、学習側計側部25と、学習部26と、を備えている。
 学習側識別器21は、対象Zの複数の関節A(本実施の形態では、首、右肘、左肘、腰、右膝、左膝)を識別するためのものであり、関節Aごとに、それぞれを識別するための形状、方向、サイズ等の基準として、関節識別情報が記憶されている。また、学習側識別器21には、対象Zの様々なバリエーション(“歩行”、“直立”等)の “基本姿勢“、”各関節Aの可動域“、”各関節A間の距離“に関する基準として、補足識別情報も記憶されている。
 更に、学習側識別器21には、背景(“病室”、“オフィス”、“屋外”等)を識別するための基準として、背景識別情報(物体の有無・色彩・角度、人物の有無等)も記憶されている。
 学習側取得部22は、行動が既知の映像として、複数の時系列画像Yを取得する。この複数の時系列画像Yは、行動推定装置1のユーザにより入力される。
 学習側検出部23は、各時系列画像Yに映った複数の関節Aを検出する。具体的には、CNN(Convolution Neural Network)を用いてモデリングされた推論モデルにより、学習側識別器21に記憶された関節識別情報に該当する部位を検出する。検出された各関節A(図1では、A1-A6)は、表示部(図示せず)上に、選択可能に表示される。
 また、学習側検出部23は、各時系列画像Yに映った背景も検出する。詳細には、各時系列画像Yの中で、学習側識別器21に記憶された背景識別情報に該当する部位を検出する。
 正解取得部24は、複数の時系列画像Yに映った対象Zの正解となる行動(以下、正解行動という)を、学習側検出部23により検出された各関節Aについて取得する。この正解行動は、行動推定装置1のユーザにより入力される。具体的には、図1に示すように、複数の時系列画像Yが対象Zが転倒した際のものであった場合には、ユーザは、表示部(図示せず)上で各関節Aを選択し、正解行動“転倒”を入力することとなる。
 更に、本実施の形態では、正解取得部24は、複数の時系列画像Yに映った正解背景も取得する。例えば、正解背景が“病室”の場合には、ユーザは、“病室”というタグを入力することになる。なお、正解行動、及び、正解背景の選択肢は、記憶部3に記憶されている。
 学習側計側部25は、学習側検出部23により検出された複数の関節Aの座標及び深度を計測する。この計測は、各時系列画像Yに対して行われる。
 例えば、時刻t1の時系列画像Yにおける関節A1の座標及び深度は、(XA1(t1)、YA1(t1)、ZA1(t1))のように表すことができる。なお、深度に関しては、必ずしも座標で表す必要はなく、複数の時系列画像Yにおける相対的な深度で表してもよい。なお、深度は、既知の方法により測定してもよいが、正解取得部24において各関節Aの深度を入力しておき、その入力された深度をそのまま用いてもよい。この場合には、後述する学習部26は、例えば、「この関節のサイズ、角度等であれば、○○mの距離である」と学習していくことになる。
 学習部26は、各対象Zに属する複数の関節Aの全体としての座標及び深度の複数の時系列画像Yにおける変位を学習する。具体的には、正解取得部24において特定された各対象Zに属する複数の関節Aを関節群B(図3参照)と識別した上で、当該関節群B全体としての座標及び深度の複数の時系列画像Yにおける変位を学習する。
 関節群Bの全体としての座標及び深度の変位としては、検出された全ての関節Aの座標の中心点の座標及び深度の変位や、体の動きと密接に関連した重心の座標及び深度の変位を用いることが考えられる。また、これらの両方を用いたり、これらに加えて各関節Aの座標及び深度の変位も考慮して、より精度を高めてもよい。なお、重心の座標及び深度は、各関節Aの座標及び深度と、各関節A(筋肉、脂肪等を含む)の重量と、を考慮して算出することが考えられる。この場合、各関節Aの重量は、学習側識別器21等に記憶させておけばよい。
 そして、学習部26は、上記学習された関節群Bの全体としての座標及び深度の複数の時系列画像Yにおける変位を、正解取得部24で入力された正解行動と対応付けて学習する。例えば、正解行動“前方への転倒”の場合、関節群Bの全体としての座標の変位は、“第1の距離だけ下方へ進む”、関節群Bの全体としての深度の変位は、“第2の距離だけ前方へ進む”というように学習することになる。
 また、学習部26は、学習側検出部23により検出された背景(背景識別情報)と、正解取得部24により取得された正解背景と、を対応付けて学習する。これにより、「このような背景識別情報の場合の背景は“病室”」、「このような背景識別情報の場合、背景が“病室”である確率が80%」等の推定を行うことが可能になる。
 更に、本実施の形態では、学習部26は、正解取得部24により取得された正解行動と正解背景との関連性を決定する。例えば、背景が“病室”の場合、「歩行」が最も多く、「転倒」は時折起こり、「走行」はめったに起こらず、「投球」は全く起こらない、という関連性が見えてくることが考えられる。従って、背景が“病室”の場合、例えば、「歩行:高」、「転倒:中」、「走行:低」、「投球:無」という関連性が決定されることになる。このようにして決定された関連性は、記憶部3に記憶される。
 なお、学習部26では、上記した複数の時系列画像Y以外にも、様々な観点の画像を大量に集めて学習させることが好ましい。例えば、“病室”の場合、「様々な角度で撮影された病室」、「様々な色彩の病室」、「看護師や患者の有無に応じた病室」等の大量の画像を集めて学習させることが考えられる。
 記憶部3は、上記した学習部26による学習結果の他に、正解取得部24でユーザにより選択される様々な行動や背景の選択肢を記憶している。
 続いて、行動推定装置1の構成について説明する。
 行動推定装置1は、図2に示すように、推定側識別器11と、推定側取得部12と、推定側検出部13と、推定側計側部14と、推定部15と、を備えている。
 推定側識別器11は、対象Zの複数の関節A(本実施の形態では、首、右肘、左肘、腰、右膝、左膝)を識別するためのものであり、関節Aごとに、それぞれを識別するための形状、方向、サイズ等の基準として、関節識別情報が記憶されている。また、推定側識別器11には、対象Zの様々なバリエーション(“歩行”、“直立”等)の“基本姿勢“、”各関節Aの可動域“、”各関節A間の距離“に関する基準として、補足識別情報も記憶されている。本実施の形態では、学習側識別器21と同一の情報が記憶されているものとする。
 更に、推定側識別器11には、背景(“病室”、“オフィス”、“屋外”等)を識別するための基準として、背景識別情報(物体の有無・色彩・角度、人物の有無等)も記憶されている。本実施の形態では、学習側識別器21と同一の情報が記憶されているものとする。
 推定側取得部12は、撮影手段Xに接続されており、撮影手段Xにより撮影された映像、すなわち、複数の時系列画像Yを取得する。本実施の形態では、複数の時系列画像Yをリアルタイムで取得するものとするが、行動推定装置1の使用目的によっては、後から取得するようにしてもよい。
 推定側検出部13は、各時系列画像Yに映った複数の関節Aを検出する。具体的には、CNN(Convolution Neural Network)を用いてモデリングされた推論モデルにより、推定側識別器11に記憶された関節識別情報に該当する部位を検出する。推定側検出部13が関節Aを検出した場合には、時系列画像Yに対象Zが映っていると考えることができる。
 また、推定側検出部13は、各時系列画像Yに映った背景も検出する。詳細には、各時系列画像Yの中で、推定側識別器11に記憶された背景識別情報に該当する部位を検出し、記憶部3に記憶された学習部26による学習結果を参照して、背景を決定する。例えば、図1では、“ベッド”と“点滴”が存在することから、「背景は病室である」と決定することになる。
 推定側計側部14は、推定側検出部13により検出された複数の関節Aの座標及び深度を計測する。この計測は、各時系列画像Yに対して行われる。
 例えば、時刻t1の時系列画像Yにおける関節A1の座標及び深度は、(XA1(t1)、YA1(t1)、ZA1(t1))のように表すことができる。なお、深度に関しては、必ずしも座標で表す必要はなく、複数の時系列画像Yにおける相対的な深度で表してもよい。なお、深度は、既知の方法により測定してもよいが、学習部26によって深度の学習が行われている場合には、学習部26を参照して深度を特定してもよい。
 推定部15は、関節群Bの全体としての座標及び深度の複数の時系列画像Yにおける変位に基づき、対象Zの行動を推定する。具体的には、記憶部3に記憶された学習部26による学習結果を参照して、様々な行動の選択肢(「転倒」、「歩行」、「走行」、「投球」等)の中から、確率の高い一又は複数の行動が選択されることになる。すなわち、行動推定装置1では、各対象Zの関節群B全体としての座標及び深度を、LSTM(Long Short Term Memory)を用いた時系列の推論モデルにインプットし、「walking」「standing」といった行動識別ラベルをアウトプットすることになる。
 ここで、本実施の形態では、推定部15は、対象Zの行動の推定に当たり、時系列画像Yに映った背景も考慮する。詳細には、記憶部3に記憶された正解行動と正解背景との関連性を参照して、推定側検出部13により検出(決定)された背景に応じて行動の選択肢の確率を補正する。
 例えば、背景が“病室”であるが、背景を考慮せずに対象Zの行動を推定すると、図4(a)に示すように、「歩行:65%」、「転倒:75%」、「走行:45%」、「投球:65%」となる場合について考える。
 ここでは、「投球」は、「転倒」と途中まで似たような動作であるため、高い確率で推定されているが、「投球」は、“病室”で実際に起こる可能性が極めて低い行動である。
 そこで、「背景:病室」に対して、「歩行:高」、「転倒:中」、「走行:低」、「投球:無」と関連性が決定されていた場合、本実施の形態では、図4(b)に示すように、「走行:45%→30%」、「投球:65%→15%」のように、“病室”で実際に起こる可能性の低い行動の確率を低下させる補正を行う。また、逆に、「歩行:65%→80%」、「転倒:75%→85%」のように、“病室”で実際に起こる可能性の高い行動の確率を増加させる補正を行うことも考えられる。
 また、“病室”で実際に起こる可能性の低い行動の確率を低下させる補正を行った結果、所定以下の確率となった行動は、行動の選択肢から除外することも考えられる。例えば、「30%以下となった行動は除外する」場合には、図4(c)に示すように、「走行」と「投球」を除外することが考えられる。
 また、記憶部3において、「転倒」と「投球」のように、互いの動作に所定以上の関連性のある行動を紐付けておき、紐付けられた行動のいずれかを除外や低下させた場合、他方の行動の確率を増加させることも考えられる。図4の例では、(d)に示すように、「投球」を除外したため、「転倒」の確率を増加させている。
 このように、本実施の形態による行動推定装置1では、対象Zの行動の推定に当たり、時系列画像Yに映った背景も考慮することで、より高精度な行動推定を行うことが可能となっている。
 続いて、図5のフローチャートを用いて、行動推定装置1による “対象Zの行動の推定”について説明する。
 まず、推定側取得部12が複数の時系列画像Yを取得すると(S1)、推定側検出部13により、各時系列画像Yに映った複数の関節A及び背景が検出される(S2)。
 続いて、推定側計側部14により、S2で検出された複数の関節Aの座標及び深度が計測される(S3)。この計測は、各時系列画像Yに対して行われる。
 続いて、推定部15により、S3で計測された複数の関節Aの座標及び深度の複数の時系列画像Yにおける変位に基づき、対象Zの行動を推定する(S4)。
 最後に、検出された背景に応じて、推定された行動の確率を補正する(S5)。
 このような構成を有する行動推定装置1は、例えば、介護施設において、被介護者がいる室内を常時撮影し、撮影された映像に基づき被介護者(対象Z)が転倒したこと等を推定した場合に、その旨を介護者へ報知する等の用途で用いることができる。
 以上説明したように、本実施の形態による行動推定装置1では、対象Zの行動の推定に当たり、時系列画像Yに映った背景も考慮する。
 このような構成によれば、背景を考慮することで、実際に起こる可能性の高い行動に焦点を当てることができるので、高精度な行動推定を実現することが可能となる。
 また、本実施の形態による行動推定装置1では、対象Zの行動の推定に当たり、計測された複数の関節Aの座標の複数の時系列画像Yにおける変位に基づき、複数の選択肢の確率をそれぞれ算出し、検出された背景に基づき、算出された複数の選択肢の確率を補正する。
 このような構成によれば、実際に起こる可能性の低い行動の確率を低下させたり、実際に起こる可能性の高い行動の確率を増加させたりすることができるので、より高精度な行動推定を実現することが可能となる。
 また、本実施の形態による行動推定装置1では、対象Zの行動の推定に当たり、検出された背景に基づき、複数の選択肢から一又は複数の選択肢を除外する。
 このような構成によれば、最終的にユーザに提示される行動の数が減るので、推定された行動についてより把握しやすくなる。また、選択肢の確率を算出する前に一又は複数の選択肢を除外することで、除外されなかった選択肢の確率だけを効率よく算出することができると共に、CPUへの負荷を軽減させることが可能となる。
 また、本実施の形態による行動推定装置1では、複数の選択肢のうち、互いの動作に所定以上の関連性のあるものは紐付けて記憶されており、対象Zの行動の推定に当たり、紐付けられた複数の選択肢のいずれかを除外又は確率を低下させた場合には、紐付けられた複数の選択肢のうち除外又は確率が低下されなかったものの確率を増加させる。
 このような構成によれば、「投球」と「転倒」のような途中まで似たような動作のうち、一方を除外した場合、他方の可能性が高まるので、より高精度の行動推定を行うことが可能となる。
 尚、本発明の行動推定装置は、上述した実施の形態に限定されず、特許請求の範囲に記載した範囲で種々の変形や改良が可能である。
 例えば、上記実施の形態では、対象Zの行動の推定に当たり、背景を考慮したが、目的や用途を考慮することもできる。
 例えば、オフィスにおいて社員のゼスチャーを認識することを目的とする場合には、上記「転倒」、「歩行」、「走行」、「投球」は必要がないため、これらの選択肢の確率を低下又は除外し、逆に、「腕の移動」、「顔の移動」等の確率を増加させることが考えられる。この場合には、図6に示すように、行動推定装置1に設定部16を設け、ユーザが目的又は用途(防犯、医療介護等)を設定することになる。そして、記憶部3に正解行動と目的又は用途との関連性を記憶しておき、推定部15が、対象Zの行動を推定する際に、当該関連性を参照して、設定部16で設定された目的又は用途に応じて行動の選択肢の確率を補正すればよい。
 また、上記実施の形態では、正解行動と正解背景との関連性は、学習部26により学習されたものを記憶部3に記憶したが、設定値を予め記憶部3に記憶しておいてもよい。
 また、上記実施の形態では、記憶部3は、行動推定装置1と学習装置2とは別体として設けられていたが、行動推定装置1側や学習装置2側に設けてもよい。
 また、上記実施の形態では、対象Zの行動推定に当たり、関節群Bの座標及び深度の複数の時系列画像Yにおける変位を考慮したが、単純に各関節Aの複数の時系列画像Yにおける変位に基づいて行動を推定してもよい。
 また、上記実施の形態では、対象Zとして人間を例に説明したが、動物やロボットの行動を推定するために使用することも可能である。また、上記実施の形態では、複数の関節Aとして、首、右肘、左肘、腰、右膝、左膝を例に説明を行ったが、その他の関節や、より多くの関節Aを用いてもよいことは言うまでもない。
 また、本発明は、行動推定装置1が行う処理に相当するプログラムや、当該プログラムを記憶した記録媒体にも応用可能である。記録媒体の場合、コンピュータ等に当該プログラムがインストールされることとなる。ここで、当該プログラムを記憶した記録媒体は、非一過性の記録媒体であっても良い。非一過性の記録媒体としては、CD-ROM等が考えられるが、それに限定されるものではない。また、推定される行動の複数の選択肢は、後からコンピュータに記憶されてもよく対象の行動の推定の目的又は用途も、後からコンピュータに設定されてもよいことはもちろんである。
1           行動推定装置
2           学習装置
3           記憶部
11       推定側識別器
12       推定側取得部
13       推定側検出部
14       推定側計側部
15       推定部
16       設定部
21       学習側識別器
22       学習側取得部
23       学習側検出部
24       正解取得部
25       学習側計側部
26       学習部

Claims (12)

  1.  対象が映った複数の時系列画像を取得する推定側取得部と、
     各時系列画像に映った複数の関節を検出する推定側検出部と、
     前記検出された複数の関節の各時系列画像における座標を計測する推定側計測部と、
     前記計測された複数の関節の座標の前記複数の時系列画像における変位に基づき、前記対象の行動を推定する推定部と、
     推定される行動の複数の選択肢を記憶した記憶部と、
    を備え、
     前記推定側検出部は、各時系列画像に映った背景を更に検出し、
     前記推定部は、前記対象の行動の推定に当たり、前記計測された複数の関節の座標の前記複数の時系列画像における変位に基づき、前記複数の選択肢の確率をそれぞれ算出し、前記検出された背景に基づき、前記算出された複数の選択肢の確率を補正することを特徴とする行動推定装置。
  2.  前記推定部は、前記対象の行動の推定に当たり、前記検出された背景に基づき、前記複数の選択肢から一又は複数の選択肢を除外することを特徴とする請求項1に記載の行動推定装置。
  3.  前記記憶部には、前記複数の選択肢のうち、互いの動作に所定以上の関連性のあるものは紐付けて記憶されており、
     前記推定部は、前記対象の行動の推定に当たり、前記紐付けられた複数の選択肢のいずれかを除外又は確率を低下させた場合には、前記紐付けられた複数の選択肢のうち前記除外又は確率が低下されなかったものの確率を増加させることを特徴とする請求項1又は2に記載の行動推定装置。
  4.  コンピュータにインストールされるプログラムであって、前記コンピュータには、推定される行動の複数の選択肢が記憶されており、
     対象が映った複数の時系列画像を取得するステップと、
     各時系列画像に映った複数の関節を検出するステップと、
     前記検出された複数の関節の各時系列画像における座標を計測するステップと、
     前記計測された複数の関節の座標の前記複数の時系列画像における変位に基づき、前記対象の行動を推定するステップと、
     各時系列画像に映った背景を検出するステップと、
    を備え、
     前記推定するステップでは、前記計測された複数の関節の座標の前記複数の時系列画像における変位に基づき、前記複数の選択肢の確率をそれぞれ算出し、前記検出された背景に基づき、前記算出された複数の選択肢の確率を補正することを特徴とする行動推定プログラム。
  5.  前記推定するステップでは、前記検出された背景に基づき、前記複数の選択肢から一又は複数の選択肢を除外することを特徴とする請求項4に記載の行動推定プログラム。
  6.  前記コンピュータには、前記複数の選択肢のうち、互いの動作に所定以上の関連性のあるものは紐付けて記憶されており、
     前記推定するステップでは、前記紐付けられた複数の選択肢のいずれかを除外又は確率を低下させた場合には、前記紐付けられた複数の選択肢のうち前記除外又は確率が低下されなかったものの確率を増加させることを特徴とする請求項4又は5に記載の行動推定プログラム。
  7.  対象が映った複数の時系列画像を取得する推定側取得部と、
     各時系列画像に映った複数の関節を検出する推定側検出部と、
     各時系列画像に映った前記複数の関節の座標を計測する推定側計測部と、
     前記計測された複数の関節の座標の前記複数の時系列画像における変位に基づき、前記対象の行動を推定する推定部と、
     前記対象の行動の推定の目的又は用途が設定される設定部と、
     推定される行動の複数の選択肢を記憶した記憶部と、
    を備え、
     前記推定部は、前記対象の行動の推定に当たり、前記計測された複数の関節の座標の前記複数の時系列画像における変位に基づき、前記複数の選択肢の確率をそれぞれ算出し、前記設定された目的又は用途に基づき、前記算出された複数の選択肢の確率を補正することを特徴とする行動推定装置。
  8.  前記推定部は、前記対象の行動の推定に当たり、前記設定された目的又は用途に基づき、前記複数の選択肢から一又は複数の選択肢を除外することを特徴とする請求項7に記載の行動推定装置。
  9.  前記記憶部には、前記複数の選択肢のうち、互いの動作に所定以上の関連性のあるものは紐付けて記憶されており、
     前記推定部は、前記対象の行動の推定に当たり、前記紐付けられた複数の選択肢のいずれかを除外又は確率を低下させた場合には、前記紐付けられた複数の選択肢のうち前記除外又は確率が低下されなかったものの確率を増加させることを特徴とする請求項7又は8に記載の行動推定装置。
  10.  コンピュータにインストールされるプログラムであって、前記コンピュータには、推定される行動の複数の選択肢が記憶され、対象の行動の推定の目的又は用途が設定されており、
     対象が映った複数の時系列画像を取得するステップと、
     各時系列画像に映った複数の関節を検出するステップと、
     前記検出された複数の関節の各時系列画像における座標を計測するステップと、
     前記計測された複数の関節の座標の前記複数の時系列画像における変位に基づき、前記対象の行動を推定するステップと、
    を備え、
     前記推定するステップでは、前記計測された複数の関節の座標の前記複数の時系列画像における変位に基づき、前記複数の選択肢の確率をそれぞれ算出し、前記設定された目的又は用途に基づき、前記算出された複数の選択肢の確率を補正することを特徴とする行動推定プログラム。
  11.  前記推定するステップでは、前記設定された目的又は用途に基づき、前記複数の選択肢から一又は複数の選択肢を除外することを特徴とする請求項10に記載の行動推定プログラム。
  12.  前記コンピュータには、前記複数の選択肢のうち、互いの動作に所定以上の関連性のあるものは紐付けて記憶されており、
     前記推定するステップでは、前記紐付けられた複数の選択肢のいずれかを除外又は確率を低下させた場合には、前記紐付けられた複数の選択肢のうち前記除外又は確率が低下されなかったものの確率を増加させることを特徴とする請求項10又は11に記載の行動推定プログラム。
PCT/JP2019/015403 2018-05-27 2019-04-09 行動推定装置 WO2019230199A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/057,720 US11048924B1 (en) 2018-05-27 2019-04-09 Action-estimating device
US17/324,190 US20210279452A1 (en) 2018-05-27 2021-05-19 Action-estimating device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-101097 2018-05-27
JP2018101097A JP6525181B1 (ja) 2018-05-27 2018-05-27 行動推定装置

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US17/057,720 A-371-Of-International US11048924B1 (en) 2018-05-27 2019-04-09 Action-estimating device
US17/324,190 Continuation US20210279452A1 (en) 2018-05-27 2021-05-19 Action-estimating device

Publications (1)

Publication Number Publication Date
WO2019230199A1 true WO2019230199A1 (ja) 2019-12-05

Family

ID=66730618

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/015403 WO2019230199A1 (ja) 2018-05-27 2019-04-09 行動推定装置

Country Status (3)

Country Link
US (2) US11048924B1 (ja)
JP (1) JP6525181B1 (ja)
WO (1) WO2019230199A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7012111B2 (ja) * 2020-03-13 2022-01-27 エヌ・ティ・ティ・ビズリンク株式会社 動物行動推定システム、動物行動推定支援装置、動物行動推定方法及びプログラム
JP6966038B2 (ja) * 2020-03-13 2021-11-10 エヌ・ティ・ティ・ビズリンク株式会社 動物行動推定装置、動物行動推定方法及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017061371A1 (ja) * 2015-10-06 2017-04-13 コニカミノルタ株式会社 行動検知システム、行動検知装置、行動検知方法、および行動検知プログラム
JP2017228100A (ja) * 2016-06-23 2017-12-28 コニカミノルタ株式会社 行動認識装置及び行動認識プログラム
JP2018057596A (ja) * 2016-10-05 2018-04-12 コニカミノルタ株式会社 関節位置推定装置および関節位置推定プログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7200266B2 (en) * 2002-08-27 2007-04-03 Princeton University Method and apparatus for automated video activity analysis
US20070132597A1 (en) * 2005-12-09 2007-06-14 Valence Broadband, Inc. Methods and systems for monitoring patient support exiting and initiating response
US8755569B2 (en) * 2009-05-29 2014-06-17 University Of Central Florida Research Foundation, Inc. Methods for recognizing pose and action of articulated objects with collection of planes in motion
US20140157209A1 (en) * 2012-12-03 2014-06-05 Google Inc. System and method for detecting gestures
JP6508061B2 (ja) * 2014-01-20 2019-05-08 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2016099982A (ja) 2014-11-26 2016-05-30 日本電信電話株式会社 行動認識装置、行動学習装置、方法、及びプログラム
JP6166297B2 (ja) 2015-03-12 2017-07-19 セコム株式会社 姿勢推定装置
JP2017102808A (ja) 2015-12-04 2017-06-08 ソニー株式会社 画像処理装置および方法
US10402837B2 (en) * 2016-10-27 2019-09-03 Conduent Busness System, LLC Method and system for predicting behavioral characteristics of customers in physical stores
JP7067023B2 (ja) * 2017-11-10 2022-05-16 富士通株式会社 情報処理装置、背景更新方法および背景更新プログラム
US11482046B2 (en) 2018-04-11 2022-10-25 Asilla, Inc. Action-estimating device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017061371A1 (ja) * 2015-10-06 2017-04-13 コニカミノルタ株式会社 行動検知システム、行動検知装置、行動検知方法、および行動検知プログラム
JP2017228100A (ja) * 2016-06-23 2017-12-28 コニカミノルタ株式会社 行動認識装置及び行動認識プログラム
JP2018057596A (ja) * 2016-10-05 2018-04-12 コニカミノルタ株式会社 関節位置推定装置および関節位置推定プログラム

Also Published As

Publication number Publication date
US20210201006A1 (en) 2021-07-01
JP2019204464A (ja) 2019-11-28
US11048924B1 (en) 2021-06-29
US20210279452A1 (en) 2021-09-09
JP6525181B1 (ja) 2019-06-05

Similar Documents

Publication Publication Date Title
US9700242B2 (en) Motion information processing apparatus and method
US10182746B1 (en) Decoupling body movement features from sensor location
US9710920B2 (en) Motion information processing device
US20210049353A1 (en) Ai-based physical function assessment system
CN111507176B (zh) 姿势估计装置、行动估计装置、记录介质、姿势估计方法
US20210279452A1 (en) Action-estimating device
CN111937078A (zh) 身体功能自主辅助装置及其方法
US11482046B2 (en) Action-estimating device
KR20190097361A (ko) 자세 교정을 위한 자세 평가 시스템 및 그 방법
JP6525180B1 (ja) 対象数特定装置
JP6417697B2 (ja) 情報処理装置、脈波計測プログラムおよび脈波計測方法
JP7347577B2 (ja) 画像処理システム、画像処理プログラム、および画像処理方法
JP2020134971A (ja) 現場学習評価プログラム、現場学習評価方法、および現場学習評価装置
KR101398193B1 (ko) 캘리브레이션 장치 및 방법
JP6525179B1 (ja) 行動推定装置
CN114821672A (zh) 一种人体卧姿实时检测及识别方法
US20210287368A1 (en) Estimating patient biographic data parameters
CN113271848B (zh) 身体健康状态影像分析装置、方法以及系统
KR102411882B1 (ko) 이미지를 이용한 비대면 체력측정 시스템
CN117690541B (zh) 一种护理记录系统
JP6320702B2 (ja) 医用情報処理装置、プログラム及びシステム
KURAMOTO et al. Monocular camera-based 3D human body pose estimation by Generative Adversarial Network considering joint range of motion represented by quaternion
WO2022249746A1 (ja) 身体機能推定システム、身体機能推定方法、及び、プログラム
JP7419993B2 (ja) 信頼度推定プログラム、信頼度推定方法、および信頼度推定装置
US20230137904A1 (en) System and method for generating and visualizing virtual figures from pressure data captured using weight support devices for visualization of user movement

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19810813

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19810813

Country of ref document: EP

Kind code of ref document: A1