WO2023079783A1 - 行動認識方法、行動認識装置、及び行動認識プログラム - Google Patents

行動認識方法、行動認識装置、及び行動認識プログラム Download PDF

Info

Publication number
WO2023079783A1
WO2023079783A1 PCT/JP2022/023524 JP2022023524W WO2023079783A1 WO 2023079783 A1 WO2023079783 A1 WO 2023079783A1 JP 2022023524 W JP2022023524 W JP 2022023524W WO 2023079783 A1 WO2023079783 A1 WO 2023079783A1
Authority
WO
WIPO (PCT)
Prior art keywords
detectable
action
reliability
skeleton
user
Prior art date
Application number
PCT/JP2022/023524
Other languages
English (en)
French (fr)
Inventor
信彦 若井
恵大 飯田
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority to CN202280072793.0A priority Critical patent/CN118176530A/zh
Priority to JP2023557618A priority patent/JPWO2023079783A1/ja
Publication of WO2023079783A1 publication Critical patent/WO2023079783A1/ja
Priority to US18/650,540 priority patent/US20240282147A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Definitions

  • This disclosure relates to technology for recognizing user behavior from images.
  • Japanese Patent Application Laid-Open No. 2002-200002 detects a human region including a person from an image, and detects the posture type of the person reflected in the detected human region and the surroundings of the person for the purpose of performing highly accurate action recognition without increasing the processing load.
  • a technique for estimating the object type of an object and recognizing human behavior from a combination of the posture type and the object type is disclosed.
  • Patent Document 2 discloses a score of a person's behavior recognized from skeleton information of a person extracted from video data for the purpose of recognizing the behavior of a person with high accuracy without being affected by video regions other than the person, Disclosed is a technique for integrating a score of a person's behavior recognized from an enclosed area of skeleton information and outputting an integrated score.
  • the present disclosure has been made to solve such problems, and aims to provide a technique for recognizing a user's behavior with high accuracy even in an image that does not show the whole body.
  • An image recognition method is an action recognition method in an action recognition device that recognizes actions of a user, wherein a processor of the action recognition device acquires an image of the user captured by an imaging device, estimating a plurality of skeletal points of the user from an image and the reliability of each skeletal point; extracting predetermined detectable skeletal points detectable by the photographing device from the plurality of estimated skeletal points; one or more of the plurality of target actions by comparing the reference reliability of the detectable skeleton points predetermined for each of the target actions and the reliability of the extracted detectable skeleton points A candidate action is determined, the action of the user is determined from the one or more candidate actions, and an action label indicating the determined action is output.
  • FIG. 1 is a block diagram showing an example configuration of an action recognition system according to an embodiment of the present disclosure
  • FIG. FIG. 5 is a diagram showing an example of skeleton information including skeleton points estimated by an estimation unit
  • 4 is a diagram showing a detailed configuration of a database storage unit
  • FIG. It is a figure which shows an example of a data structure of a 1st database. It is a figure which shows an example of a data structure of a 2nd database. It is a figure which shows an example of a data structure of a 3rd database.
  • 4 is a flow chart showing an example of processing of the action recognition device according to the embodiment of the present disclosure
  • FIG. 11 is a flowchart showing an example of action label determination processing
  • FIG. It is a figure which shows an example of the image which the camera image
  • the deep neural network is designed to calculate the coordinates of all of a plurality of predetermined skeletal points, even if there is a skeletal point with low reliability that is not captured in the image, the skeletal point Also calculate the coordinates of Recognizing the user's behavior using the coordinates of such skeletal points with low reliability lowers the recognition accuracy.
  • Conventional recognition methods are premised on using images of the user's whole body taken at camera angles that are advantageous for sensing.
  • conventional recognition methods are not supposed to estimate behavior using an image in which a part of the user's body is hidden by another object or a part of the body protrudes from the image. do not have. Therefore, when the conventional recognition method uses an image in which the user's whole body is not captured, the user's behavior is recognized using the coordinates of the skeleton points with low reliability calculated by the deep neural network, resulting in high accuracy.
  • the present disclosure has been invented in view of the above problems, and is to provide a technique for recognizing user behavior with high accuracy even if the image does not show the whole body.
  • An image recognition method is an action recognition method in an action recognition device that recognizes actions of a user, wherein a processor of the action recognition device acquires an image of the user captured by an imaging device, estimating a plurality of skeletal points of the user from an image and the reliability of each skeletal point; extracting predetermined detectable skeletal points detectable by the photographing device from the plurality of estimated skeletal points; one or more of the plurality of target actions by comparing the reference reliability of the detectable skeleton points predetermined for each of the target actions and the reliability of the extracted detectable skeleton points A candidate action is determined, the action of the user is determined from the one or more candidate actions, and an action label indicating the determined action is output.
  • detectable skeleton points detectable by the imaging device are extracted from a plurality of skeleton points estimated from the image, and the reliability of the detectable skeleton points is compared with the reference reliability to determine the candidate action. is estimated. Therefore, the behavior of the user can be determined by excluding skeletal points that cannot be detected by the imaging device, and the behavior of the user can be recognized with high accuracy even in an image in which the whole body is not captured.
  • the behavior may be behavior of the user using equipment or equipment installed in a facility.
  • the behavior of the user using the instrument or equipment can be recognized with high accuracy.
  • the equipment may include a rod that assists the user's motion
  • the device may include a table or chair that assists the user's motion
  • the distance between the extracted detectable skeleton point coordinates and the reference coordinates of the detectable skeleton point is determined for each target action.
  • the action may be determined based on the distance calculated for each target action.
  • the user's behavior can be determined with high accuracy from among one or more candidate behaviors.
  • the one or more candidate actions may be determined as the action.
  • the candidate behavior can be determined as it is as the behavior of the user.
  • the degree of similarity between the distribution of the reliability of the plurality of detectable skeleton points and the distribution of the reference reliability of the plurality of detectable skeleton points is calculated.
  • the one or more candidate actions may be determined based on the similarity calculated for the target action and calculated for the target action.
  • Detectable skeletal points for which high reliability cannot be obtained from the installation environment of the imaging device are estimated from the image, and conversely, detectable skeletal points for which high reliability is obtained are estimated from the image. Confidence should be high. Moreover, such a tendency differs for each target action.
  • the candidate action is determined based on the similarity between the distribution of the reliability of the detectable skeleton points estimated from the image and the distribution of the reference reliability of the detectable skeleton points. Due to the installation position of the imaging device and the target action, the similarity of the detectable skeleton points, which originally obtained only a low reliability, increases when a low reliability is obtained. can be determined with high accuracy.
  • the degree of similarity may be the total value of the difference between the degree of reliability and the degree of reliability calculated for each of a plurality of detectable skeleton points.
  • the reference reliability includes a true reliability assigned to the detectable skeleton point whose pre-estimated reliability exceeds a threshold, and a pre-estimated reliability less than the threshold.
  • a false confidence assigned to the detectable skeletal points further assigning a true confidence to the detectable skeletal points where the confidence estimated from the image exceeds the threshold; assigning a false confidence to the detectable skeleton points for which the estimated confidence is less than the threshold, wherein the similarity measure is the difference between the confidence and the reference confidence at each of the plurality of detectable skeleton points. It may be the number of the degrees of reliability that are true or false.
  • the similarity between the reference reliability distribution including the pre-estimated true reliability and the pre-estimated false reliability and the reliability distribution estimated from the image is accurately calculated.
  • the target action with the highest similarity (N is an integer equal to or greater than 1) may be decided as the one or more candidate actions.
  • a target action with a high similarity can be determined as a candidate action.
  • the skeletal points and the reliability may be estimated by inputting the images into a trained model obtained by machine-learning the relationship between the images and the skeletal points.
  • the detectable skeleton points are extracted by referring to a first database defining information indicating whether each skeleton point is the detectable skeleton point. may be extracted.
  • detectable skeleton points can be quickly extracted.
  • the one or more may determine candidate actions for
  • the action may be determined by referring to a third database that defines reference coordinates of the detectable skeleton points for each of the plurality of target actions.
  • the reference coordinates of the reference possible skeleton points can be quickly acquired for each of the plurality of target actions, so the action can be quickly determined.
  • the detectable skeleton points may be determined in advance based on analysis results of images obtained by photographing the user with the photographing device at the time of initial setting.
  • the reference reliability is the reliability of each skeleton point estimated from an image obtained by imaging the user who has performed the plurality of target actions by the photographing device at the time of initial setting. It may be calculated in advance based on the degree.
  • the reference coordinates are based on the coordinates of each skeleton point estimated from an image obtained by photographing the user who has performed the plurality of target actions by the photographing device at the time of initial setting. may be calculated in advance.
  • An action recognition device is an action recognition device that recognizes actions of a user, and includes an acquisition unit that acquires an image of the user captured by an imaging device, and a plurality of images of the user from the image. an estimating unit for estimating skeleton points and reliability of each skeleton point; an extracting unit for extracting predetermined detectable skeleton points detectable by the photographing device from the plurality of estimated skeleton points; One or more candidates are selected from the plurality of target behaviors by comparing the reference reliability of the detectable skeleton points predetermined for each of the target behaviors and the reliability of the extracted detectable skeleton points.
  • a determination unit that determines a behavior and determines the behavior of the user from the one or more candidate behaviors, and an output unit that outputs a behavior label indicating the determined behavior.
  • An action recognition program is an action recognition program that causes a computer to execute an action recognition method for recognizing actions of a user, wherein the computer acquires an image of the user captured by an imaging device. and estimating a plurality of skeletal points of the user from the image and the reliability of each skeletal point, and extracting a predetermined detectable skeletal point detectable by the photographing device from the estimated plurality of skeletal points. Then, by comparing the reference reliability of the detectable skeleton points predetermined for each of the plurality of target actions and the reliability of the extracted detectable skeleton points, A process of determining one or more candidate behaviors, determining the behavior of the user from the one or more candidate behaviors, and outputting a behavior label indicating the determined behavior is executed.
  • the present disclosure can also be implemented as a behavior estimation system that operates with such a behavior estimation program. It goes without saying that such a computer program can be distributed via a computer-readable non-temporary recording medium such as a CD-ROM or a communication network such as the Internet.
  • FIG. 1 is a block diagram showing an example configuration of an action recognition system according to an embodiment of the present disclosure.
  • the action recognition system includes an action recognition device 1 and a camera 4 .
  • Camera 4 is an example of a photographing device.
  • the camera 4 is a fixed camera installed in the house where the user whose behavior is to be recognized resides.
  • the camera 4 photographs the user at a predetermined frame rate, and inputs the photographed image to the action recognition device 1 at the predetermined frame rate.
  • the action recognition device 1 is composed of a computer including a processor 2, a memory 3, and an interface circuit (not shown).
  • Processor 2 is, for example, a central processing unit.
  • the memory 3 is a nonvolatile rewritable storage device such as a flash memory, hard disk drive, solid state drive, or the like.
  • the interface circuit is, for example, a communication circuit.
  • the action recognition device 1 may be composed of an edge server installed in a house, a smart speaker installed in a house, or a cloud server.
  • the camera 4 and the action recognition device 1 are connected via a local area network
  • the action recognition device 1 is configured by a cloud server
  • the camera 4 and the action recognition device 1 is connected via a wide area communication network such as the Internet.
  • a part of the action recognition device 1 may be installed on the edge side and the rest may be installed on the cloud side.
  • the processor 2 includes an acquisition unit 21 , an estimation unit 22 , an extraction unit 23 , a determination unit 24 and an output unit 25 .
  • the acquisition unit 21 to the output unit 25 may be implemented by the central processing unit executing an action recognition program, or may be configured by a dedicated hardware circuit such as ASIC.
  • the acquisition unit 21 acquires the image captured by the camera 4 and stores the acquired image in the frame memory 31 .
  • the estimation unit 22 estimates a plurality of skeleton points of the user and the reliability of each skeleton point from the image read from the frame memory 31 .
  • the estimating unit 22 estimates a plurality of skeletal points and reliability by inputting the image into a trained model obtained by machine learning the relationship between the image and the skeletal points.
  • a trained model is a deep neural network.
  • a deep neural network is a convolutional neural network that includes convolutional layers, pooling layers, and the like. Note that the estimation unit 22 may be configured with a learning model other than the deep neural network.
  • FIG. 2 is a diagram showing an example of skeleton information 201 including skeleton points P estimated by the estimation unit 22.
  • the skeleton information 201 is information indicating skeleton points P for one person.
  • the skeleton information 201 includes, for example, left eye, right eye, left ear, right ear, nose, left shoulder, right shoulder, left waist, right waist, left elbow, right elbow, left wrist, right wrist, left knee, right knee, left ankle. , and 17 skeletal points P consisting of the right ankle. That is, the estimation unit 22 is configured to estimate these 17 skeleton points P.
  • the skeleton information 201 includes links L indicating connections between skeleton points P.
  • the skeleton point P is represented by X coordinates and Y coordinates that indicate the position on the image.
  • the skeleton information 201 is represented by a part key that uniquely identifies the skeleton point P, the coordinates of the skeleton point P, and the reliability of the skeleton point P.
  • the skeleton information 201 includes ⁇ part key "right eye”: [X coordinate, Y coordinate, reliability], part key "left eye”: [X coordinate, Y coordinate, reliability], ..., part key "left leg Neck”: [X coordinate, Y coordinate, reliability] ⁇ is expressed in a dictionary format.
  • the reliability is the reliability estimated for each skeleton point P by the estimation unit 22 .
  • the reliability expresses the likelihood of the estimated skeleton point P in terms of probability.
  • the reliability increases as the value increases.
  • the reliability takes a value of 0 or more and 1 or less, for example.
  • the skeleton information 201 is composed of 17 skeleton points P, but this is only an example, and the number of skeleton points P may be 16 or less, or 18 or more. may be In this case, the trained model may be configured to estimate a predetermined number of skeleton points P, 16 or less or 18 or more.
  • the skeleton information 201 may also include skeleton points other than skeleton point P shown in FIG. 2 (for example, skeleton points such as fingers and mouth).
  • the extraction unit 23 extracts predetermined detectable skeleton points detectable by the camera 4 from the plurality of skeleton points P estimated by the estimation unit 22 .
  • the extraction unit 23 refers to a first database 41 (FIG. 4), which will be described later, to extract detectable skeleton points.
  • the determination unit 24 compares the reference reliability of the detectable skeleton points predetermined for each of the plurality of target actions with the reliability of the detectable skeleton points extracted from the image, thereby determining the plurality of target actions. determines one or more candidate actions from. Furthermore, the determination unit 24 determines the behavior of the user from one or more candidate behaviors.
  • a plurality of target actions are predetermined.
  • a target action is, for example, a user's action using an appliance or equipment installed in a house.
  • An example of equipment is a bar (eg, a handrail) that assists movement of the user, and an example of equipment is a table or chair that assists movement of the user.
  • the target behavior is the behavior of holding a handrail and the behavior of standing up from a chair while holding a handrail.
  • the target behavior corresponds to various behaviors that the user is supposed to perform in the house.
  • the target behavior may be the behavior of cooking.
  • An example of the action of cooking is the action of shaking a frying pan, the action of using a kitchen knife, the action of opening and closing a refrigerator, and the like.
  • the target action may be an action of doing laundry or an action of cleaning.
  • An example of the action of washing is the action of putting the laundry into the washing machine, the action of taking the laundry out of the washing machine and drying it, and the like.
  • An example of the action of cleaning is the action of using a vacuum cleaner, the action of using a rag, and the like.
  • the target behavior may be eating behavior.
  • the target behavior may be behavior of lying in bed, behavior of getting up from bed, behavior of watching TV, behavior of reading, behavior of desk work, walking behavior, standing up behavior, sitting behavior, and the like.
  • the memory 3 includes a frame memory 31 and a database storage unit 32.
  • the frame memory 31 stores the image acquired by the acquisition unit 21 from the camera 4 .
  • the database storage unit 32 stores a database used as prior knowledge.
  • FIG. 3 is a diagram showing the detailed configuration of the database storage unit 32. As shown in FIG.
  • the database storage unit 32 includes a first database 41 , a second database 42 and a third database 43 .
  • FIG. 4 is a diagram showing an example of the data configuration of the first database 41.
  • the first database 41 stores detectability, which is information indicating whether or not each skeleton point is a detectable skeleton point.
  • the first database 41 associates and stores the part key of the skeleton point and the detectability.
  • Detectability includes detectable and undetectable. Skeletal points included in the photographing range of the camera 4 can be detected.
  • skeleton points that are not included in the imaging range of the camera 4 and skeleton points that are included in the imaging range of the camera 4 but are hidden by an obstacle or the like cannot be detected.
  • undetectable skeleton points are removed from subsequent processing. As a result, the action recognition accuracy is improved.
  • the first database 41 is created when the action recognition device 1 is initialized after the camera 4 is installed.
  • the imaging range of the camera 4 differs depending on the installation location, and accordingly the skeleton points included in the image captured by the camera 4 also differ. Therefore, the first database 41 is created for each installation location of the camera 4 . For example, if the camera 4 is installed in a place where only the upper half of the user's body can be photographed, the skeletal points of both knees and both ankles cannot be detected.
  • the detectability is determined in advance based on the analysis result of the image obtained by the camera 4 photographing the user at the time of initial setting.
  • This analysis is performed, for example, by an administrator who manages the action recognition device 1 .
  • the user causes the camera 4 to photograph himself and transmits the image to the administrator server (not shown).
  • the administrator browses the images received by the administrator server, visually analyzes which skeleton points are detectable and which are not, and transmits the analysis results to the action recognition device 1 .
  • the action recognition device 1 registers the transmitted analysis results in the first database 41 .
  • the first database 41 shown in FIG. 4 is obtained.
  • the initial setting is the initial setting performed by the user who introduced the action recognition device 1 .
  • the administrator visually analyzes, but this is an example, and a computer may analyze by image processing.
  • FIG. 5 is a diagram showing an example of the data configuration of the second database 42.
  • the second database 42 is a database that defines the reference reliability of detectable skeleton points for each of a plurality of target behaviors. Specifically, the second database 42 associates and stores the part key of the detectable skeleton point and the reference reliability for each target action.
  • the reference reliability is calculated in advance based on the reliability of each skeletal point estimated from an image obtained by the camera 4 capturing images of the user who has performed a plurality of target actions at the time of initial setting. Specifically, at the time of initial setting, the user is asked to sequentially perform a plurality of target actions, and the camera 4 captures an image of the user for each target action. Then, the estimation unit 22 estimates the reliability of the detectable skeleton points in the obtained image, and determines the reference reliability based on the estimation result.
  • the skeletal points whose reliability exceeds the threshold at the time of initial setting are given a true confidence indicating that they are recognizable skeleton points, and the skeleton points whose confidence at the time of initialization is lower than the threshold are given A false confidence level is given to indicate that it is not recognizable.
  • Appropriate values such as 0.1, 0.2, and 0.3 can be adopted as the threshold.
  • a skeleton point with false confidence is a skeleton point that is captured by the camera 4 but does not have a high reliability when the user performs the target action.
  • the recognition accuracy of candidate actions is enhanced.
  • the skeletal points of the right knee, the left knee, the right ankle, and the left ankle registered as undetectable in the first database 41 are not used for determining candidate actions. is omitted.
  • the true/false value of reliability is stored, but the value of reliability may be stored.
  • FIG. 6 is a diagram showing an example of the data configuration of the third database 43.
  • the third database 43 is a database that defines reference coordinates of detectable skeleton points for each of a plurality of target actions. Specifically, the third database 43 associates and stores the part key of the detectable skeleton point and the reference coordinate array for each target action.
  • the reference coordinate array is an array of the coordinates of each detectable skeleton point estimated from the image obtained by the camera 4 photographing the user who performed the target action at the time of initial setting. Specifically, at the time of initial setting, the user is asked to sequentially perform a plurality of target actions, and the camera 4 captures a predetermined number of frames of the user's image for each target action. Then, the coordinates of the detectable skeleton points in the obtained image are estimated by the estimation unit 22, and the estimated coordinates are stored in the third database 43 as a reference coordinate array.
  • reference coordinates for one frame may be stored.
  • the reference coordinates for one frame are, for example, the average values of the coordinates of the detectable skeleton points in a plurality of frames.
  • the reference coordinates may be relative coordinates based on the center of gravity of the skeletal coordinates.
  • the reference coordinates may be coordinates of skeleton points estimated from pre-collected images of unspecified users instead of images of specific users.
  • the skeletal points of the right knee, the left knee, the right ankle, and the left ankle registered as being undetectable in the first database 41 are omitted because they are not used for action determination. ing.
  • the action recognition device 1 does not necessarily have to be realized by a single computer device, and may be realized by a distributed processing system (not shown) including a terminal device and a server.
  • the acquisition unit 21, the frame memory 31, and the estimation unit 22 may be provided in the terminal device, and the database storage unit 32, the determination unit 24, and the output unit 25 may be provided in the server.
  • data is passed between components via a wide area network.
  • FIG. 7 is a flow chart showing an example of processing of the action recognition device 1 according to the embodiment of the present disclosure.
  • Step S1 Acquisition unit 21 acquires an image and stores it in frame memory 31 .
  • Step S2 The estimation unit 22 acquires images from the frame memory 31 and inputs the acquired images to the trained model to estimate a plurality of skeleton points and the reliability of each skeleton point.
  • the user's behavior is estimated in units of one image, but this is an example, and the user's behavior may be estimated in units of a plurality of images.
  • the estimated skeleton points and reliability are time-series data.
  • Step S3 When multiple users are included in the image, the estimating unit 22 selects a user to be recognized from among the multiple users. If a plurality of pieces of skeleton information 201 are obtained in the estimation in step S2, the estimation unit 22 may determine that a plurality of users are included in the image. If the image does not include a plurality of users, the process of step S3 is skipped.
  • the estimating unit 22 may select the user with the highest degree of reliability among the plurality of users. Alternatively, the estimating unit 22 may select the user with the largest area of the circumscribing rectangle of the skeletal points from the plurality of users. Alternatively, the estimating unit 22 may select the user with the smallest distance between the position of a specific object included in the image and a reference point such as the center of gravity of the skeleton points.
  • a specific object is a door.
  • Step S4 The extraction unit 23 extracts detectable skeleton points defined in the first database 41 from the skeleton points estimated by the estimation unit 22 .
  • skeleton points defined in the first database 41
  • Skeleton points are undetectable and are removed.
  • Step S5 The decision unit 24 executes action label decision processing. Details of the action label determination process will be described later with reference to FIG.
  • Step S6 The output unit 25 outputs the determined action label to the determination unit 24 .
  • the output mode of the action label differs depending on the action recognition system to which the action recognition device 1 is applied. For example, if the action recognition system is a system that controls a device according to the action label, the output unit 25 outputs the action label to the device. Also, if the action recognition system is a system that manages user actions, the output unit 25 associates the action label with the time stamp and stores it in the memory 3 .
  • FIG. 8 is a flow chart showing an example of action label determination processing.
  • Step S51 The determination unit 24 acquires the coordinates of the detectable skeleton points extracted by the extraction unit 23 and the reliability of the detectable skeleton points.
  • the coordinates and reliability of the detectable skeleton points, right eye, left eye, nose, . . . , right hip, and left hip, are obtained.
  • Step S52 The determining unit 24 determines whether the reliability obtained from the extracting unit 23 is true or false.
  • the confidence levels of the detectable skeletal points, right eye, left eye, nose, . Confidence is assigned, and false confidence is assigned to detectable skeletal points whose confidence is less than a threshold. This gives the distribution of the reliability of the detectable skeleton points. Appropriate values such as 0.1, 0.2, and 0.3 can be adopted as the threshold.
  • Step S53 The determination unit 24 compares the distribution of the reference reliability defined in the second database 42 with the distribution of the reliability of the detectable skeleton points obtained in step S52 for each target action, thereby determining the Calculate the similarity.
  • the similarity calculation process will be described below.
  • step S52 the distribution of reliability calculated in step S52 be a set A of true/false values
  • the distribution of the reference reliability be a set B of true/false values
  • C be a set that indicates whether or not there is a match between truth values of common detectable skeleton points in set A and set B.
  • FIG. The set C is expressed as follows using exclusive OR. Then, the true number in the set C becomes the degree of similarity.
  • B' is the boolean value in set B of one detectable skeleton point selected from set A;
  • B' is the boolean value in set B of one detectable skeleton point selected from set A;
  • B' is the boolean value in set B of one detectable skeleton point selected from set A;
  • B be a set of target actions “hold a handrail” registered in the second database 42 . In this case, since all common detectable skeleton points have the same true/false value, the number of truths in the set C is 13, and the degree of similarity is 13.
  • a false reference reliability is given to detectable skeleton points that cannot obtain a high degree of reliability from the installation environment of the camera 4 even if they are detectable skeleton points. Also, such detectable skeleton points should be less reliable to be estimated from the image. Therefore, in this embodiment, the true number of sets C is calculated as the degree of similarity. Therefore, it is possible to determine with high accuracy which target behavior the behavior corresponding to the set A corresponds to.
  • the comparison between the reliability and the reference reliability is performed using true/false values.
  • the comparison of the confidence and the reference confidence may be a comparison of the confidence value and the reference confidence value.
  • the determining unit 24 configures the set A with the reliability values, the set B with the reference reliability values, and sets the reliability between the common detectable skeleton points in the set A and the set B and the reference.
  • the difference from the reliability is calculated, and the total value D of the difference is calculated as the similarity.
  • the difference is, for example, an absolute value difference or a squared error. In this case, the smaller the total value D of the target action, the higher the degree of matching with the action corresponding to the set A.
  • the determination unit 24 determines candidate actions from among the target actions based on the similarity calculated for each target action. For example, when the degree of similarity is represented by the number of truths in the set C, the determination unit 24 may determine the target action for which the number of truths in the set C is greater than the reference number as the candidate action. An appropriate value such as 5, 8, 10, or 15 can be adopted as the reference number.
  • the determining unit 24 may determine target behaviors for which the total value D is smaller than the reference total value as candidate behaviors.
  • the determination unit 24 may arrange the target actions in descending order of similarity and determine the top N target actions as candidate actions.
  • An appropriate value such as 3, 4, 5, or 6 can be adopted for N.
  • Step S55 The determination unit 24 compares the coordinates of the detectable skeleton points acquired in step S51 with the reference coordinates defined in the third database 43 for each candidate behavior determined in step S54, thereby determining the behavior of the user. Decide on a label.
  • the determination unit 24 reads the coordinates corresponding to the reference frame in the reference coordinate array, and the read coordinates and the input The distance to the coordinates of the detected detectable skeleton point is calculated for each detectable skeleton point.
  • the distance is, for example, the Euclidean distance.
  • the reference frame may be the leading frame, the central frame, or a predetermined number of frames from the leading frame.
  • the determining unit 24 calculates the average value of the distances calculated for each detectable skeleton point as an evaluation value.
  • the determining unit 24 executes such processing for each candidate action and calculates an evaluation value for each candidate action.
  • the determination unit 24 determines the candidate behavior whose evaluation value is smaller than the reference evaluation value as the behavior of the user.
  • An appropriate value such as 10 pixels, 15 pixels, 20 pixels, or 25 pixels can be adopted as the reference evaluation value in consideration of the resolution of the image.
  • the determining unit 24 calculates the average value of the distances between the corresponding frames for each detectable skeleton point, and calculates the average value of the distance for each detectable skeleton point. A value obtained by further averaging the average values may be calculated as an evaluation value.
  • the reference coordinates of (32, 64) and (37, 84) are read out from the reference coordinate array in the example of the right eye of the target action "holding a handrail".
  • the distances of (36, 64) and (X1, Y1) and the distances of (37, 84) and (X2, Y2) ) are calculated, and the average value of both distances becomes the average value of the distance to the right eye of the target action “holding a handrail”.
  • the average value of this distance is calculated for other detectable skeletal points of the target action "Holding a handrail", and the value obtained by further averaging the calculated average distances becomes the evaluation value of the target action "Holding a handrail”.
  • the evaluation value of each candidate action may be calculated by treating the coordinates of the detectable skeleton points as feature vectors and inputting the feature vectors into the learned model.
  • a trained model is a support vector machine or a deep neural network.
  • the decision unit 24 may set the decision result of the action label to other actions.
  • the determination unit 24 may determine the candidate action with the lowest evaluation value as the user's action label. Alternatively, if there are a plurality of candidate actions whose evaluation values are lower than the reference evaluation value, the determination unit 24 ranks each candidate action in ascending order of the evaluation value, and outputs the ranked candidate actions as user action labels. may decide.
  • FIG. 9 is a diagram showing an example of an image 900 captured by the camera 4 of the user in action.
  • Image 900 includes a user 901 acting with a door railing 902 .
  • a user 901 sits on a chair (not shown) for putting on and taking off shoes, raises his right hand backward, and holds a rear handrail 902 .
  • the camera 4 is installed at an angle that looks down on the user 901 from the front. Since the left knee, right knee, left ankle, and right ankle are outside the shooting range of the camera 4, they are stored in the first database 41 as undetectable skeleton points.
  • Typical user actions such as walking, sitting, and standing are generally performed with hands lowered, and rarely performed with hands raised as in image 900 . Therefore, in a trained model for estimating skeletal points, there are few cases where an image of a hand-raised posture is used as training data. As a result, there is a high possibility that the trained model will not be able to estimate the skeleton points well when the user takes a posture like the image 900 .
  • a trained model may also be trained using images collected from the Internet. In this case as well, it is highly likely that the trained model will not be able to successfully estimate the skeletal points of the user in postures other than typical standing, walking, and sitting postures.
  • skeletal points located at non-end points of the body such as elbows or knees are more difficult to detect than skeletal points located at end points of the body such as wrists and ankles. Therefore, in the image 900, the skeletal point P of the right wrist is detected, but the skeletal point of the right elbow fails to be detected. In the image 900, skeletal points P for the right eye, left eye, and nose are detected.
  • Waving a frying pan is a behavior that users often perform in their homes.
  • the action of shaking the frying pan is performed with the hand raised.
  • the trained model often does not learn such a hand-raising posture. is likely to fail in estimating
  • the present embodiment focuses on the fact that skeletal points that are likely to fail to be estimated differ for each action, and handles such skeletal points as those that cannot be estimated, and determines the user's actions. Specifically, in the present embodiment, at the time of initial setting, for each target action, skeletal points with a reliability higher than a threshold and skeletal points with a reliability lower than the threshold are classified, and skeletal points with a reliability higher than the threshold are classified. assigns true confidence, gives false confidence to skeleton points whose confidence is less than a threshold, and stores the true confidence and false confidence in the second database 42 as prior knowledge. Therefore, the behavior of the user can be recognized with high accuracy. In particular, the present embodiment is useful for user action recognition in a house where there are many restrictions on the installation position of the camera 4 .
  • step S55 shown in FIG. 8 the determining unit 24 does not have to perform the process of comparing the coordinates of the detectable skeleton point and the reference coordinates of the candidate action. In this case, the determination unit 24 may directly determine the candidate behavior determined in step S54 as the behavior of the user.
  • the action recognition device of the present disclosure is useful for recognizing user's actions in a house.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Image Analysis (AREA)

Abstract

行動認識装置は、カメラが撮影した画像からユーザの複数の骨格点及び各骨格点の信頼度を推定し、推定された複数の骨格点から、カメラが検知可能な予め定められた検知可能骨格点を抽出し、複数の対象行動のそれぞれについて予め定められた検知可能骨格点の基準信頼度と、抽出された検知可能骨格点の信頼度と、を比較することにより、複数の対象行動から1以上の候補行動を決定し、1以上の候補行動からユーザの行動を決定し、決定した行動を示す行動ラベルを出力する。

Description

行動認識方法、行動認識装置、及び行動認識プログラム
 本開示は画像からユーザの行動を認識する技術に関するものである。
 特許文献1は、処理負荷を増大させることなく高精度な行動認識を行うことを目的として、画像から人を含む人領域を検出し、検出した人領域に映る人の姿勢種別と人の周辺の物体の物体種別とを推定し、姿勢種別と物体種別との組み合わせから人の行動を認識する技術を開示する。
 特許文献2は、人物以外の映像領域の影響を受けることなく人物の行動を高精度に認識することを目的として、映像データから抽出された人物のスケルトン情報から認識した人物の行動のスコアと、スケルトン情報の囲み領域から認識した人物の行動のスコアと、を統合し、統合スコアを出力する技術を開示する。
 しかしながら、上記従来の行動認識技術は、良好なカメラの位置及びアングルでユーザの全身を撮影することが前提とされているので、全身が写っていない画像からユーザの行動を高精度に認識することができないという課題がある。
特開2018-206321号公報 特開2019-144830号公報
 本開示は、このような課題を解決するためになされたものであり、全身が写っていない画像であっても高精度にユーザの行動を認識する技術を提供することを目的とする。
 本開示の一態様における画像認識方法は、ユーザの行動を認識する行動認識装置における行動認識方法であって、前記行動認識装置のプロセッサが、撮影装置が撮影した前記ユーザの画像を取得し、前記画像から前記ユーザの複数の骨格点及び各骨格点の信頼度を推定し、推定された前記複数の骨格点から、前記撮影装置が検知可能な予め定められた検知可能骨格点を抽出し、複数の対象行動のそれぞれについて予め定められた前記検知可能骨格点の基準信頼度と、抽出された前記検知可能骨格点の前記信頼度と、を比較することにより、前記複数の対象行動から1以上の候補行動を決定し、前記1以上の候補行動から前記ユーザの前記行動を決定し、決定した前記行動を示す行動ラベルを出力する。
 本開示によれば、全身が写っていない画像であっても高精度にユーザの行動を認識できる。
本開示の実施の形態における行動認識システムの構成の一例を示すブロック図である。 推定部が推定する骨格点を含む骨格情報の一例を示す図である。 データベース記憶部の詳細な構成を示す図である。 第1データベースのデータ構成の一例を示す図である。 第2データベースのデータ構成の一例を示す図である。 第3データベースのデータ構成の一例を示す図である。 本開示の実施の形態の行動認識装置の処理の一例を示すフローチャートである。 行動ラベルの決定処理の一例を示すフローチャートである。 行動中のユーザをカメラが撮影した画像一例を示す図である。
 (本開示の基礎となる知見)
 近年、画像から人の骨格点を推定し、推定した骨格点に基づいてユーザの行動を認識する手法が知られている。このような認識手法においては、畳み込み層やプーリング層を含むディープニューラルネットワークを用いて骨格点が推定されており、高精度化が図られている。
 ディープニューラルネットワークは、予め定められた複数の骨格点の全てについて骨格点の座標を算出するように設計されているので、画像内に写っていない信頼度の低い骨格点があってもその骨格点の座標も算出する。このような信頼度の低い骨格点の座標を用いてユーザの行動を認識すると、却って認識精度が低下する。
 従来の認識手法は、センシングに有利なカメラアングルでユーザの全身を撮影した画像を用いることが前提とされている。つまり、従来の認識手法は、ユーザの体の一部が他の物体により隠れている、及び体の一部が画像からはみ出ているというような画像を用いて行動を推定することは想定されていない。そのため、従来の認識手法は、ユーザの全身が撮影されていない画像を用いた場合、ディープニューラルネットワークが算出した信頼度の低い骨格点の座標も用いてユーザの行動を認識する結果、高精度にユーザの行動を認識できないという課題がある。特に、カメラの設置位置に制約のある住宅内においては、このような課題が生じ易い。したがって、従来の認識手法は住宅内におけるユーザの行動を認識するには不十分である。
 本開示は、上記課題に鑑みて創案されたもので、全身が写っていない画像であっても、ユーザの行動を高精度に認識する技術を提供することである。
 本開示の一態様における画像認識方法は、ユーザの行動を認識する行動認識装置における行動認識方法であって、前記行動認識装置のプロセッサが、撮影装置が撮影した前記ユーザの画像を取得し、前記画像から前記ユーザの複数の骨格点及び各骨格点の信頼度を推定し、推定された前記複数の骨格点から、前記撮影装置が検知可能な予め定められた検知可能骨格点を抽出し、複数の対象行動のそれぞれについて予め定められた前記検知可能骨格点の基準信頼度と、抽出された前記検知可能骨格点の前記信頼度と、を比較することにより、前記複数の対象行動から1以上の候補行動を決定し、前記1以上の候補行動から前記ユーザの前記行動を決定し、決定した前記行動を示す行動ラベルを出力する。
 この構成によれば、画像から推定された複数の骨格点のうち撮影装置が検知可能な検知可能骨格点が抽出され、検知可能骨格点の信頼度と基準信頼度とを比較することにより候補行動が推定されている。そのため、撮影装置が検知不可能な骨格点を除外してユーザの行動を決定することができ、全身が写っていない画像であってもユーザの行動を高精度に認識することができる。
 上記行動認識方法において、前記行動は、施設に設置された器具又は設備を使用する前記ユーザの行動であってもよい。
 この構成によれば、器具又は設備を使用するユーザの行動を高精度に認識できる。
 上記行動認識方法において、前記設備は、前記ユーザの動作を補助する棒を含み、前記器具は、前記ユーザの動作を補助する台又は椅子を含んでもよい。
 この構成によれば、ユーザの歩行等の動作を補助する棒、台、又は椅子を使用するユーザの行動を高精度に認識できる。
 上記行動認識方法において、前記行動の決定では、前記1以上の候補行動のそれぞれについて、抽出された前記検知可能骨格点の座標と、前記検知可能骨格点の基準座標と、の距離を対象行動ごとに算出し、前記対象行動ごとに算出した前記距離に基づいて前記行動を決定してもよい。
 この構成によれば、1以上の候補行動の中からユーザの行動を高精度に決定できる。
 上記行動認識方法において、前記行動の決定では、前記1以上の候補行動を前記行動として決定してもよい。
 この構成によれば、候補行動をそのままユーザの行動として決定できる。
 上記行動認識方法において、前記1以上の候補行動の決定では、複数の検知可能骨格点の前記信頼度の分布と、前記複数の検知可能骨格点の前記基準信頼度の分布と、の類似度を対象行動ことに算出し、前記対象行動ことに算出した前記類似度に基づいて、前記1以上の候補行動を決定してもよい。
 撮影装置の設置環境からもともと高い信頼度が得られない検知可能骨格点については画像から推定される信頼度は低くなり、逆に高い信頼度が得られる検知可能骨格点については画像から推定される信頼度は高くなるはずである。また、このような傾向は対象行動ごとに異なる。
 この構成によれば、画像から推定された検知可能骨格点の信頼度の分布と、検知可能骨格点の基準信頼度の分布と、の類似度に基づいて、候補行動が決定されているので、撮影装置の設置位置及び対象行動に起因して、もともと低い信頼度しか得られない検知可能骨格点については低い信頼度が得られた場合に類似度が高くなり、対象行動の中からユーザの行動を高精度に決定できる。
 上記行動認識方法において、前記類似度は、複数の検知可能骨格点のそれぞれについて算出された、前記信頼度と前記基準信頼度との差の合計値であってもよい。
 この構成によれば、画像から推定された検知可能骨格点の信頼度の分布と、検知可能骨格点の基準信頼度の分布との類似度を正確に算出できる。
 上記行動認識方法において、前記基準信頼度は、事前推定された前記信頼度が閾値を超える前記検知可能骨格点に付与された真の信頼度と、事前推定された前記信頼度が前記閾値より小さい前記検知可能骨格点に付与された偽の信頼度とを含み、さらに、前記画像から推定された前記信頼度が前記閾値を超える前記検知可能骨格点に真の信頼度を付与し、前記画像から推定された前記信頼度が前記閾値より小さい前記検知可能骨格点に偽の信頼度を付与し、前記類似度は、前記複数の検知可能骨格点のそれぞれにおいて前記信頼度と前記基準信頼度との真偽が一致する前記信頼度の個数であってもよい。
 この構成によれば、事前推定された真の信頼度と事前推定された偽の信頼度とを含む基準信頼度の分布と、画像から推定された信頼度の分布との類似度を正確に算出できる。
 上記行動認識方法において、前記1以上の候補行動の決定では、前記類似度が上位N(Nは1以上の整数)位の対象行動を前記1以上の候補行動として決定してもよい。
 この構成によれば、類似度が高い対象行動を候補行動として決定できる。
 上記行動認識方法において、前記骨格点及び前記信頼度は、前記画像と前記骨格点との関係を機械学習することで得られた学習済みモデルに前記画像を入力することで推定されてもよい。
 この構成によれば、画像から骨格点を正確に推定できる。
 上記行動認識方法において、前記検知可能骨格点の抽出では、各骨格点が前記検知可能骨格点であるか否かを示す情報を規定する第1データベースを参照することで、前記検知可能骨格点を抽出してもよい。
 この構成によれば、検知可能骨格点を速やかに抽出できる。
 上記行動認識方法において、前記1以上の候補行動の決定では、前記複数の対象行動のそれぞれについて、前記検知可能骨格点の前記基準信頼度を規定する第2データベースを参照することで、前記1以上の候補行動を決定してもよい。
 この構成によれば、複数の対象行動のそれぞれについて、検知骨格点の基準信頼度を速やかに取得できるので、1以上の候補行動を速やかに決定できる。
 上記行動認識方法において、前記行動の決定では、前記複数の対象行動のそれぞれについて、前記検知可能骨格点の基準座標を規定する第3データベースを参照することで、前記行動を決定してもよい。
 この構成によれば、複数の対象行動のそれぞれについて、基準可能骨格点の基準座標を速やかに取得できるので、行動を速やかに決定できる。
 上記行動認識方法において、前記検知可能骨格点は、初期設定時において、前記撮影装置が前記ユーザを撮影することで得られた画像の分析結果に基づいて予め決定されたものであってもよい。
 この構成によれば、設置環境に応じた撮影装置へのユーザの写り具合を考慮に入れて、検知可能骨格点を特定できる。
 上記行動認識方法において、前記基準信頼度は、初期設定時において、前記複数の対象行動を行った前記ユーザを前記撮影装置が撮像することで得られた画像から推定された各骨格点の前記信頼度に基づいて予め算出されたものであってもよい。
 この構成によれば、設置環境に応じた撮影装置へのユーザの写り具合を考慮に入れて、複数の対象行動ごとの基準信頼度を算出できる。
 上記行動認識方法において、前記基準座標は、初期設定時において、前記複数の対象行動を行った前記ユーザを前記撮影装置が撮影することで得られた画像から推定された各骨格点の座標に基づいて予め算出されたものであってもよい。
 この構成によれば、設置環境に応じた撮影装置へのユーザの写り具合を考慮に入れて、複数の対象行動ごとの骨格点の基準座標を算出できる。
 本開示の別の一態様における行動認識装置は、ユーザの行動を認識する行動認識装置であって、撮影装置が撮影した前記ユーザの画像を取得する取得部と、前記画像から前記ユーザの複数の骨格点及び各骨格点の信頼度を推定する推定部と、推定された前記複数の骨格点から、前記撮影装置が検知可能な予め定められた検知可能骨格点を抽出する抽出部と、複数の対象行動のそれぞれについて予め定められた前記検知可能骨格点の基準信頼度と、抽出された前記検知可能骨格点の前記信頼度と、を比較することにより、前記複数の対象行動から1以上の候補行動を決定し、前記1以上の候補行動から前記ユーザの前記行動を決定する決定部と、決定した前記行動を示す行動ラベルを出力する出力部と、を備える。
 この構成によれば、上記行動認識方法と同様の作用効果の得られる行動推定装置を提供できる。
 本開示のさらに別の一態様における行動認識プログラムは、ユーザの行動を認識する行動認識方法をコンピュータに実行させる行動認識プログラムであって、前記コンピュータに、撮影装置が撮影した前記ユーザの画像を取得し、前記画像から前記ユーザの複数の骨格点及び各骨格点の信頼度を推定し、推定された前記複数の骨格点から、前記撮影装置が検知可能な予め定められた検知可能骨格点を抽出し、複数の対象行動のそれぞれについて予め定められた前記検知可能骨格点の基準信頼度と、抽出された前記検知可能骨格点の前記信頼度と、を比較することにより、前記複数の対象行動から1以上の候補行動を決定し、前記1以上の候補行動から前記ユーザの前記行動を決定し、決定した前記行動を示す行動ラベルを出力する、処理を実行させる。
 この構成によれば、上記行動認識方法と同様の作用効果の得られる行動推定プログラムを提供できる。
 本開示は、このような行動推定プログラムによって動作する行動推定システムとして実現することもできる。また、このようなコンピュータプログラムを、CD-ROM等のコンピュータ読取可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。
 なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。
 (実施の形態)
 以下、本開示の実施の形態について図面を参照しながら説明する。図1は、本開示の実施の形態における行動認識システムの構成の一例を示すブロック図である。行動認識システムは、行動認識装置1及びカメラ4を含む。カメラ4は撮影装置の一例である。カメラ4は行動の認識対象となるユーザが居住する住宅内に設置された固定カメラである。カメラ4は、所定のフレームレートでユーザを撮影し、撮影した画像を所定のフレームレートで行動認識装置1に入力する。
 行動認識装置1は、プロセッサ2、メモリ3、及びインターフェイス回路(図略)を含むコンピュータで構成されている。プロセッサ2は、例えば中央演算処理装置である。メモリ3は例えばフラッシュメモリ、ハードディスクドライブ、ソリッドステートドライブ等の不揮発性の書き換え可能な記憶装置である。インターフェイス回路は、例えば通信回路である。
 行動認識装置1は、住宅内に設置されたエッジサーバで構成されてもよいし、住宅内に設置されたスマートスピーカーで構成されてもよいし、クラウドサーバで構成されてもよい。行動認識装置1がエッジサーバで構成される場合、カメラ4と行動認識装置1とはローカルエリアネットワークを介して接続され、行動認識装置1がクラウドサーバで構成される場合、カメラ4と行動認識装置1とはインターネット等の広域通信網を介して接続される。なお、行動認識装置1は一部がエッジ側に設置され、残りがクラウド側に設けられて構成されてもよい。
 プロセッサ2は、取得部21、推定部22、抽出部23、決定部24、及び出力部25を含む。取得部21~出力部25は中央演算処理装置が行動認識プログラムを実行することで実現されてもよいし、ASIC等の専用のハードウェア回路で構成されてもよい。
 取得部21は、カメラ4が撮影した画像を取得し、取得した画像をフレームメモリ31に記憶する。
 推定部22は、フレームメモリ31から読み出した画像からユーザの複数の骨格点及び各骨格点の信頼度を推定する。推定部22は、画像と骨格点との関係を機械学習することで得られた学習済みモデルに画像を入力することで複数の骨格点及び信頼度を推定する。学習済みモデルの一例は、ディープニューラルネットワークである。ディープニューラルネットワークの一例は畳み込み層及びプーリング層等を含む畳み込みニューラルネットワークである。なお、推定部22は、ディープニューラルネットワーク以外の学習モデルで構成されてもよい。
 図2は、推定部22が推定する骨格点Pを含む骨格情報201の一例を示す図である。骨格情報201は、一人分の骨格点Pを示す情報である。骨格情報201は、例えば、左目、右目、左耳、右耳、鼻、左肩、右肩、左腰、右腰、左肘、右肘、左手首、右手首、左膝、右膝、左足首、及び右足首からなる17の骨格点Pを含む。すなわち、推定部22は、これら17の骨格点Pを推定するように構成されている。更に、骨格情報201は、骨格点P同士の繋がりを示すリンクLを含む。図2において、破線は顔の輪郭と首の位置とを示す補助線である。骨格点Pは、画像上での位置を示すX座標、Y座標で表現される。骨格情報201は、骨格点Pを一意に特定するパーツキーと、骨格点Pの座標と、骨格点Pの信頼度とで表現される。例えば、骨格情報201は、{パーツキー「右目」:[X座標、Y座標、信頼度]、パーツキー「左目」:[X座標、Y座標、信頼度]、・・・、パーツキー「左足首」:[X座標、Y座標、信頼度]}というような辞書形式で表現される。
 信頼度は、推定部22が各骨格点Pに対して推定した信頼度である。信頼度は、推定された骨格点Pの確からしさを確率で表現したものである。信頼度は、値が大きくなるにつれて確からしさが高くなる。信頼度は、例えば0以上1以下の値を採る。なお、図2の例では、骨格情報201は、17の骨格点Pで構成されているが、これは一例に過ぎず、骨格点Pの数は、16以下であってもよいし、18以上であってもよい。この場合、学習済みモデルを16以下又は18以上の所定数の骨格点Pを推定するように構成すればよい。また、骨格情報201は、図2で示す骨格点P以外の骨格点(例えば、指及び口等の骨格点)を含んでもよい。
 抽出部23は、推定部22により推定された複数の骨格点Pから、カメラ4が検知可能な予め定められた検知可能骨格点を抽出する。例えば、抽出部23は後述する第1データベース41(図4)を参照して、検知可能骨格点を抽出する。
 決定部24は、複数の対象行動のそれぞれについて予め定められた検知可能骨格点の基準信頼度と、画像から抽出された検知可能骨格点の信頼度と、を比較することにより、複数の対象行動から1以上の候補行動を決定する。さらに、決定部24は、1以上の候補行動からユーザの行動を決定する。複数の対象行動は事前に定められている。対象行動は、例えば、住宅内に設置された器具又は設備を使用するユーザの行動である。設備の一例は、ユーザの動作を補助する棒(例えば手すり)であり、器具の一例は、ユーザの動作を補助する台又は椅子である。
 対象行動の一例は、手すりを持つ行動、手すりを持ちながら椅子から立ち上がる行動である。これは一例であり、対象行動は、ユーザが住宅内で行うことが想定される様々な行動が該当する。例えば、対象行動は、料理をする行動であってもよい。料理をする行動の一例は、フライパンを振る行動、包丁を使う行動、冷蔵庫を開け閉めする行動等である。また、対象行動は、洗濯を行う行動、掃除を行う行動であってもよい。洗濯を行う行動の一例は、洗濯物を洗濯機に入れる行動、洗濯物を洗濯機から取り出して干す行動等である。掃除を行う行動の一例は、掃除機を使う行動、雑巾を使う行動等である。また、対象行動は、食事をする行動であってもよい。さらに、対象行動は、ベッドに横たわる行動、ベッドから起き上がる行動、テレビを見る行動、読書をする行動、デスクワークをする行動、歩く動作、立ち上がる動作、座る動作等であってもよい。
 メモリ3は、フレームメモリ31及びデータベース記憶部32を含む。フレームメモリ31は、取得部21がカメラ4から取得した画像を記憶する。
 データベース記憶部32は、事前知識として用いられるデータベースを記憶する。図3は、データベース記憶部32の詳細な構成を示す図である。データベース記憶部32は、第1データベース41、第2データベース42、及び第3データベース43を含む。
 図4は、第1データベース41のデータ構成の一例を示す図である。第1データベース41は、各骨格点が検知可能骨格点であるか否かを示す情報である検知可能性を記憶する。具体的には、第1データベース41は、骨格点のパーツキーと検知可能性とを対応付けて記憶する。検知可能性は検知可能と検知不可能とを含む。カメラ4の撮影範囲に含まれる骨格点は検知可能となる。一方、カメラ4の撮影範囲に含まれていない骨格点及びカメラ4の撮影範囲に含まれているが遮蔽物等により隠れている骨格点は、検知不可能となる。図4の例では右目~左腰は検知可能であり、右膝~左足首は検知不可能である。第1データベース41を用いることで、検知不可能な骨格点が後段の処理から除去される。これにより、行動の認識精度が向上される。
 第1データベース41は、カメラ4の設置後の行動認識装置1の初期設定時に作成される。カメラ4は、設置場所ごとに撮影範囲が異なり、それに伴い、カメラ4が撮影する画像に含まれる骨格点も異なる。そのため、第1データベース41はカメラ4の設置場所ごとに作成される。例えば、カメラ4がユーザの上半身しか撮影できない場所に設置されている場合、両膝と両足首の骨格点は検出不可能となる。
 検知可能性は、初期設定時において、カメラ4がユーザを撮影することで得られた画像の分析結果に基づいて予め決定される。この分析は、例えば、行動認識装置1を管理する管理者により行われる。初期設定時に、ユーザはカメラ4に自身を撮影させ、その画像を管理者サーバ(図略)に送信する。管理者は管理者サーバが受信した画像を閲覧してどの骨格点が検知可能であり、どの骨格点が検知不可能であるかを目視により分析し、分析結果を行動認識装置1に送信する。行動認識装置1は、送信された分析結果を第1データベース41に登録する。これにより図4に示す第1データベース41が得られる。初期設定とは、行動認識装置1を導入したユーザが最初に行う設定である。ここでは、管理者が目視で分析するとして説明したが、これは一例であり、コンピュータが画像処理により分析してもよい。
 図5は、第2データベース42のデータ構成の一例を示す図である。第2データベース42は、複数の対象行動のそれぞれについて、検知可能骨格点の基準信頼度を規定するデータベースである。具体的には、第2データベース42は、対象行動ごとに、検知可能骨格点のパーツキーと基準信頼度とを対応付けて記憶する。基準信頼度は、初期設定時において、複数の対象行動を行ったユーザをカメラ4が撮像することで得られた画像から推定された各骨格点の信頼度に基づいて予め算出される。具体的には、初期設定時において、ユーザに複数の対象行動を順次行ってもらい、対象行動ごとのユーザの画像がカメラ4により撮影される。そして、得られた画像における検知可能骨格点の信頼度が推定部22により推定され、推定結果に基づいて基準信頼度が決定される。
 図5の例では、初期設定時における信頼度が閾値を超える骨格点は認識可能な骨格点であることを示す真の信頼度が付与され、初期設定時における信頼度が閾値より小さい骨格点は認識できないことを示す偽の信頼度が付与されている。閾値は、例えば、0.1、0.2、0.3等の適宜の値が採用できる。
 信頼度が偽の骨格点は、カメラ4には写っているが、対象となる行動をユーザが行った場合に高い信頼度が得られない骨格点である。本実施の形態では、このような骨格点を認識できない骨格点として取り扱うことで、候補行動の認識精度が高められている。また、第2データベース42には、第1データベース41において検知不可能であることが登録された右膝、左膝、右足首、及び左足首の骨格点は、候補行動の決定には用いられないので省かれている。
 図5の例では、信頼度の真偽値が記憶されているが、信頼度の値が記憶されていてもよい。
 図6は、第3データベース43のデータ構成の一例を示す図である。第3データベース43は、複数の対象行動のそれぞれについて、検知可能骨格点の基準座標を規定するデータベースである。具体的には、第3データベース43は、対象行動ごとに、検知可能骨格点のパーツキー及び基準座標配列を対応付けて記憶する。基準座標配列は、初期設定時において対象行動を行ったユーザをカメラ4が撮影することで得られた画像から推定された各検知可能骨格点の座標の配列である。具体的には、初期設定時において、ユーザに複数の対象行動を順次行ってもらい、対象行動ごとに所定フレーム分のユーザの画像がカメラ4により撮影される。そして、得られた画像における検知可能骨格点の座標が推定部22により推定され、推定された座標が基準座標配列として第3データベース43に記憶される。
 なお、図6の例では、基準座標配列が記憶されているが、1フレーム分の基準座標が記憶されていてもよい。この場合、1フレーム分の基準座標は、例えば複数フレームの検知可能骨格点の座標の平均値である。なお、基準座標は、骨格座標の重心を基準とする相対座標であってもよい。さらに、基準座標は、特定のユーザの画像でなく、事前に収集された不特定のユーザの画像から推定された骨格点の座標であってもよい。
 第3データベース43には、第1データベース41において検知不可能であることが登録された右膝、左膝、右足首、及び左足首の骨格点は、行動の決定には用いられないので省かれている。
 行動認識装置1は、必ずしも単一のコンピュータ装置で実現される必要はなく、端末装置とサーバとを含む分散処理システム(不図示)によって実現されてもよい。この場合、取得部21、フレームメモリ31、推定部22を端末装置に設け、データベース記憶部32、決定部24、及び出力部25をサーバに設けてもよい。この場合、構成要素間でのデータの受け渡しは、広域通信網を介して行われる。
 以上が行動認識装置1の構成である。引き続き、行動認識装置1の処理について説明する。図7は、本開示の実施の形態の行動認識装置1の処理の一例を示すフローチャートである。
 (ステップS1)
 取得部21は、画像を取得してフレームメモリ31に記憶する。
 (ステップS2)
 推定部22は、フレームメモリ31から画像を取得し、取得した画像を学習済みモデルに入力することで複数の骨格点と各骨格点の信頼度とを推定する。ここでは、説明を簡単にするために、1枚の画像単位でユーザの行動を推定するものとして説明するが、これは一例であり、複数の画像単位でユーザの行動を推定してもよい。この場合、推定される骨格点及び信頼度は時系列データとなる。
 (ステップS3)
 推定部22は、画像内に複数のユーザが含まれる場合、複数のユーザの中から認識対象となるユーザを選択する。推定部22は、ステップS2の推定において複数の骨格情報201が得られた場合、画像内に複数のユーザが含まれると判定すればよい。画像内に複数のユーザが含まれていない場合、ステップS3の処理はスルーされる。
 推定部22は、複数のユーザのうち信頼度が最大のユーザを選択すればよい。或いは、推定部22は、複数のユーザのうち骨格点の外接矩形の面積が最大のユーザを選択すればよい。或いは、推定部22は、画像に含まれる特定の物体の位置と、骨格点の重心等の基準点との距離が最小のユーザを選択してもよい。特定の物体の一例は、ドアである。
 ここでは、説明を簡単にするために、画像に複数のユーザが含まれている場合、一人のユーザを選択するものとして説明したが、複数のユーザのそれぞれの行動を同時に推定してもよいし、複数のユーザのそれぞれの行動を順次に推定してもよい。
 (ステップS4)
 抽出部23は、推定部22により推定された骨格点のうち、第1データベース41に規定された検知可能骨格点を抽出する。ここでは、第1データベース41に従って、右目、左目、鼻、・・・、右腰、及び左腰の骨格点が検知可能骨格点として抽出され、右膝、左膝、右足首、及び左足首の骨格点は検知不可能であるので除去される。
 (ステップS5)
 決定部24は、行動ラベルの決定処理を実行する。行動ラベルの決定処理の詳細は図8を用いて後述する。
 (ステップS6)
 出力部25は、決定部24に決定された行動ラベルを出力する。ここで、行動ラベルの出力態様は、行動認識装置1が適用される行動認識システムに応じて異なる。例えば、行動認識システムが行動ラベルに応じて機器を制御するシステムである場合、出力部25は、当該機器に行動ラベルを出力する。また、行動認識システムがユーザの行動を管理するシステムの場合、出力部25は、行動ラベルにタイムスタンプを対応付けてメモリ3に記憶する。
 次に、図7のステップS5の行動ラベルの決定処理の詳細について説明する。図8は行動ラベルの決定処理の一例を示すフローチャートである。
 (ステップS51)
 決定部24は、抽出部23で抽出された検知可能骨格点の座標及び検知可能骨格点の信頼度を取得する。ここでは、検知可能骨格点である、右目、左目、鼻、・・・、右腰、及び左腰の、座標及び信頼度が取得される。
 (ステップS52)
 決定部24は、抽出部23から取得した信頼度の真偽を判定する。ここでは、検知可能骨格点である、右目、左目、鼻、・・・、右腰、及び左腰の信頼度がそれぞれ閾値と比較され、信頼度が閾値を超える検知可能骨格点には真の信頼度が付与され、信頼度が閾値より小さい検知可能骨格点には偽の信頼度が付与される。これにより、検知可能骨格点の信頼度の分布が得られる。閾値は、例えば0.1、0.2、0.3等の適宜の値が採用できる。
 (ステップS53)
 決定部24は、第2データベース42に規定された基準信頼度の分布と、ステップS52で得られた検知可能骨格点の信頼度の分布とを対象行動ごとに比較することで、対象行動ごとの類似度を算出する。以下、類似度の算出処理について説明する。
 まず、ステップS52で算出された信頼度の分布を、真偽値の集合Aとおき、基準信頼度の分布を、真偽値の集合Bとおく。また、集合Aと集合Bとにおいて共通する検知可能骨格点同士の真偽値の一致の有無を示す集合を、集合Cとおく。集合Cは排他的論理和を用いて以下のように表現される。そして、集合Cにおいて真の個数が類似度となる。
 C=not(A XOR B’)
 但し、B’は集合Aから選択されたある1つの検知可能骨格点の、集合Bにおける真偽値である。集合Cに含まれる真の要素の個数が多いほど、信頼度の分布が対象行動ラベルと一致する度合いが高くなる。例えば、集合Aを{右目:真、左目:真、鼻:真、右肩:真、左肩:真、右腰:真、左腰:真、右肘:偽、左肘:真、右手首:真、左手首:真}とする。第2データベース42に登録された対象行動「手すりを持つ」の集合をBとする。この場合、共通する検知可能骨格点同士の真偽値は全て一致しているので、集合Cの真の個数は13となり、類似度は13となる。
 一方、対象行動「フライパンを使う」の集合をBとすると、右手首の真偽値が集合Aと集合Bとで異なるので、集合Cの真の個数は12となり、類似度は12となる。したがって、対象行動「手すりを持つ」は、対象行動「フライパンを使う」よりも類似度が高いので、集合Aに対応する対象行動である可能性が高いと判定される。
 このように、本実施の形態では、検知可能骨格点であってもカメラ4の設置環境からもともと高い信頼度が得られない検知可能骨格点には、偽の基準信頼度が付与されている。また、このような検知可能骨格点は画像から推定される信頼度も低くなるはずである。そこで、本実施の形態は、集合Cの真の個数を類似度として算出する。そのため、集合Aに対応する行動がどの対象行動に該当するかを高精度に決定できる。
 上記説明では、信頼度と基準信頼度との比較は真偽値で行われたこれは一例である。信頼度と基準信頼度との比較は、信頼度の値と基準信頼度の値との比較であってもよい。この場合、決定部24は、集合Aを信頼度の値で構成し、集合Bを基準信頼度の値で構成し、集合Aと集合Bとにおいて共通する検知可能骨格点同士の信頼度と基準信頼度との差を算出し、差の合計値Dを類似度として算出すればよい。差は、例えば絶対値差又は二乗誤差等である。この場合、合計値Dが小さい対象行動ほど、集合Aに対応する行動に一致する度合が高くなる。
 (ステップS54)
 決定部24は、対象行動ごとに算出した類似度に基づいて、対象行動の中から候補行動を決定する。例えば、決定部24は、類似度が集合Cにおける真の個数で表現される場合、集合Cにおける真の個数が基準個数より大きい対象行動を候補行動として決定すればよい。基準個数は、例えば、5個、8個、10個、15個等、適宜の値が採用できる。
 或いは、決定部24は、類似度が合計値Dで表現される場合、合計値Dが基準合計値より小さい対象行動を候補行動として決定すればよい。
 或いは、決定部24は、対象行動を類似度が高い順に並べ、上位N個の対象行動を候補行動として決定してもよい。N個は、3個、4個、5個、6個等、適宜の値が採用できる。
 (ステップS55)
 決定部24は、ステップS51で取得された検知可能骨格点の座標と、第3データベース43に規定された基準座標とを、ステップS54で決定された候補行動ごとに比較することで、ユーザの行動ラベルを決定する。
 図6を参照する。具体的には、決定部24は、取得された検知可能骨格点の座標が1フレーム分の座標である場合、基準座標配列のうちの基準フレームに対応する座標を読み出し、読み出した座標と、入力された検知可能骨格点の座標との距離を、検知可能骨格点ごとに算出する。距離は例えばユークリッド距離である。基準フレームは、先頭フレームであってもよいし、中央フレームであってもよいし、先頭フレームから所定番目のフレームであってもよい。
 次に、決定部24は、検知可能骨格点ごとに算出した距離の平均値を評価値として算出する。決定部24は、このような処理を候補行動ごとに実行し、候補行動ごとの評価値を算出する。
 次に、決定部24は、評価値が基準評価値より小さい候補行動をユーザの行動として決定する。基準評価値は、例えば、10画素、15画素、20画素、25画素等、画像の解像度を考慮して適宜の値が採用できる。
 入力された検知可能骨格点の座標が複数フレーム分の場合、決定部24は、対応するフレーム同士の距離の平均値を検知可能骨格点ごとに算出し、算出した検知可能骨格点ごとの距離の平均値をさらに平均した値を評価値として算出すればよい。複数フレームが2フレームの場合、対象行動「手すりを持つ」の右目の例では、(32、64)と(37、84)との基準座標が基準座標配列から読み出される。入力された右目の2フレーム分の座標を(X1、Y1)、(X2、Y2)とすると、(36、64)及び(X1、Y1)の距離と、(37、84)及び(X2、Y2)の距離とが算出され、両距離の平均値が対象行動「手すりを持つ」の右目の距離の平均値となる。この距離の平均値が対象行動「手すりを持つ」の他の検知可能骨格点についても算出され、算出された距離の平均値をさらに平均した値が対象行動「手すりを持つ」の評価値となる。
 なお、検知可能骨格点の座標を特徴ベクトルと扱い、特徴ベクトルを学習済みモデルに入力することで、各候補行動の評価値が算出されてもよい。学習済みモデルは、サポートベクターマシン又はディープニューラルネットワークである。
 決定部24は、候補行動のうち、評価値が基準評価値より小さい候補行動がない場合、行動ラベルの決定結果をその他の行動としてもよい。
 また、決定部24は、評価値が基準評価値よりも低い候補行動が複数ある場合、評価値が最小の候補行動をユーザの行動ラベルとして決定してもよい。或いは、決定部24は、評価値が基準評価値よりも低い候補行動が複数ある場合、評価値が小さい順に各候補行動を順位付けし、順位付けされた候補行動を出力するユーザの行動ラベルとして決定してもよい。
 図9は、行動中のユーザをカメラ4が撮影した画像900の一例を示す図である。画像900は、玄関の手すり902を持つ行動を行うユーザ901を含む。ユーザ901は、靴の脱ぎ履きのための椅子(図略)に腰かけており、右手を後方に挙げて後方の手すり902をつかんでいる。カメラ4は、このユーザ901を正面から見下ろすアングルに設置されている。左膝、右膝、左足首、右足首はカメラ4の撮影範囲外であるので、第1データベース41において、検出不可能な骨格点として記憶されている。
 歩く、座る、立つといった典型的なユーザの行動は、手を下げた姿勢で行われるのが一般的であり、画像900のように手を挙げた姿勢で行われることは少ない。そのため、骨格点を推定する学習済みモデルにおいて、手を挙げた姿勢の画像が学習データとして用いられるケースは少ない。その結果、学習済みモデルは、ユーザが画像900のような姿勢をとった場合、骨格点をうまく推定できない可能性が高くなる。また、学習済みモデルは、インターネットから収集した画像を用いて学習が行われることもある。この場合も、学習済みモデルは、典型的な立ち姿勢、歩き姿勢、及び座り姿勢以外の姿勢をとったユーザの骨格点をうまく推定できない可能性が高くなる。
 また、肘又は膝のような体の非端点に位置する骨格点は、手首及び足首のような体の端点に位置する骨格点よりも検知するのが難しい。そのため、画像900では、右手首の骨格点Pは検知されているが、右肘の骨格点は検知に失敗している。なお、画像900では、右目、左目、及び鼻の骨格点Pは検知されている。
 住宅内においてユーザによりよく行われる行動としてフライパンを振る行動がある。フライパンを振る行動は、手を挙げた姿勢で行われる。上述したように、学習済みモデルは、このような手を挙げる姿勢を学習していないことが多いので、学習済みモデルは、フライパンを持つ右手の、右手首の骨格点と右肘の骨格点との推定に失敗する可能性が高い。
 また、このような、推定に失敗する骨格点は、カメラ4の設置環境及び行動に応じて異なる。
 そこで、本実施の形態は、推定に失敗しやすい骨格点が行動ごとに異なることに着目し、そのような骨格点は推定できないものとして取り扱って、ユーザの行動を決定する。具体的には、本実施の形態は、初期設定時に対象行動ごとに信頼度が閾値より大きい骨格点と信頼度が閾値よりも小さい骨格点と分別し、信頼度が閾値よりも大きい骨格点には真の信頼度を付与し、信頼度が閾値よりも小さい骨格点には偽の信頼度を付与し、真の信頼度及び偽の信頼度を第2データベース42に事前知識として記憶させる。そのため、高精度にユーザの行動を認識できる。特に、本実施の形態は、カメラ4の設置位置に制約の多い住宅内におけるユーザの行動認識において有用である。
 (変形例)
 図8に示すステップS55において、決定部24は、検知可能骨格点の座標と候補行動の基準座標とを比較する処理を行わなくてもよい。この場合、決定部24は、ステップS54で決定された候補行動をそのままユーザの行動として決定してもよい。
 本開示の行動認識装置は、住宅内におけるユーザの行動を認識するうえで有用である。

Claims (18)

  1.  ユーザの行動を認識する行動認識装置における行動認識方法であって、
     前記行動認識装置のプロセッサが、
     撮影装置が撮影した前記ユーザの画像を取得し、
     前記画像から前記ユーザの複数の骨格点及び各骨格点の信頼度を推定し、
     推定された前記複数の骨格点から、前記撮影装置が検知可能な予め定められた検知可能骨格点を抽出し、
     複数の対象行動のそれぞれについて予め定められた前記検知可能骨格点の基準信頼度と、抽出された前記検知可能骨格点の前記信頼度と、を比較することにより、前記複数の対象行動から1以上の候補行動を決定し、
     前記1以上の候補行動から前記ユーザの前記行動を決定し、
     決定した前記行動を示す行動ラベルを出力する、
     行動認識方法。
  2.  前記行動は、施設に設置された器具又は設備を使用する前記ユーザの行動である、
     請求項1に記載の行動認識方法。
  3.  前記設備は、前記ユーザの動作を補助する棒を含み、
     前記器具は、前記ユーザの動作を補助する台又は椅子を含む、
     請求項2に記載の行動認識方法。
  4.  前記行動の決定では、前記1以上の候補行動のそれぞれについて、抽出された前記検知可能骨格点の座標と、前記検知可能骨格点の基準座標と、の距離を対象行動ごとに算出し、前記対象行動ごとに算出した前記距離に基づいて前記行動を決定する、
     請求項1記載の行動認識方法。
  5.  前記行動の決定では、前記1以上の候補行動を前記行動として決定する、
     請求項1記載の行動認識方法。
  6.  前記1以上の候補行動の決定では、複数の検知可能骨格点の前記信頼度の分布と、前記複数の検知可能骨格点の前記基準信頼度の分布と、の類似度を対象行動ことに算出し、前記対象行動ことに算出した前記類似度に基づいて、前記1以上の候補行動を決定する、
     請求項1記載の行動認識方法。
  7.  前記類似度は、複数の検知可能骨格点のそれぞれについて算出された、前記信頼度と前記基準信頼度との差の合計値である、
     請求項6に記載の行動認識方法。
  8.  前記基準信頼度は、事前推定された前記信頼度が閾値を超える前記検知可能骨格点に付与された真の信頼度と、事前推定された前記信頼度が前記閾値より小さい前記検知可能骨格点に付与された偽の信頼度とを含み、
     さらに、前記画像から推定された前記信頼度が前記閾値を超える前記検知可能骨格点に真の信頼度を付与し、前記画像から推定された前記信頼度が前記閾値より小さい前記検知可能骨格点に偽の信頼度を付与し、
     前記類似度は、前記複数の検知可能骨格点のそれぞれにおいて前記信頼度と前記基準信頼度との真偽が一致する前記信頼度の個数である、
     請求項6に記載の行動認識方法。
  9.  前記1以上の候補行動の決定では、前記類似度が上位N(Nは1以上の整数)位の対象行動を前記1以上の候補行動として決定する、
     請求項6記載の行動認識方法。
  10.  前記骨格点及び前記信頼度は、前記画像と前記骨格点との関係を機械学習することで得られた学習済みモデルに前記画像を入力することで推定される、
     請求項1記載の行動認識方法。
  11.  前記検知可能骨格点の抽出では、各骨格点が前記検知可能骨格点であるか否かを示す情報を規定する第1データベースを参照することで、前記検知可能骨格点を抽出する、
     請求項1記載の行動認識方法。
  12.  前記1以上の候補行動の決定では、前記複数の対象行動のそれぞれについて、前記検知可能骨格点の前記基準信頼度を規定する第2データベースを参照することで、前記1以上の候補行動を決定する、
     請求項1記載の行動認識方法。
  13.  前記行動の決定では、前記複数の対象行動のそれぞれについて、前記検知可能骨格点の基準座標を規定する第3データベースを参照することで、前記行動を決定する、
     請求項1記載の行動認識方法。
  14.  前記検知可能骨格点は、初期設定時において、前記撮影装置が前記ユーザを撮影することで得られた画像の分析結果に基づいて予め決定されたものである、
     請求項1記載の行動認識方法。
  15.  前記基準信頼度は、初期設定時において、前記複数の対象行動を行った前記ユーザを前記撮影装置が撮像することで得られた画像から推定された各骨格点の前記信頼度に基づいて予め算出されたものである、
     請求項1~14のいずれかに記載の行動認識方法。
  16.  前記基準座標は、初期設定時において、前記複数の対象行動を行った前記ユーザを前記撮影装置が撮影することで得られた画像から推定された各骨格点の座標に基づいて予め算出されたものである、
     請求項4に記載の行動認識方法。
  17.  ユーザの行動を認識する行動認識装置であって、
     撮影装置が撮影した前記ユーザの画像を取得する取得部と、
     前記画像から前記ユーザの複数の骨格点及び各骨格点の信頼度を推定する推定部と、
     推定された前記複数の骨格点から、前記撮影装置が検知可能な予め定められた検知可能骨格点を抽出する抽出部と、
     複数の対象行動のそれぞれについて予め定められた前記検知可能骨格点の基準信頼度と、抽出された前記検知可能骨格点の前記信頼度と、を比較することにより、前記複数の対象行動から1以上の候補行動を決定し、前記1以上の候補行動から前記ユーザの前記行動を決定する決定部と、
     決定した前記行動を示す行動ラベルを出力する出力部と、を備える、
     行動認識装置。
  18.  ユーザの行動を認識する行動認識方法をコンピュータに実行させる行動認識プログラムであって、
     前記コンピュータに、
     撮影装置が撮影した前記ユーザの画像を取得し、
     前記画像から前記ユーザの複数の骨格点及び各骨格点の信頼度を推定し、
     推定された前記複数の骨格点から、前記撮影装置が検知可能な予め定められた検知可能骨格点を抽出し、
     複数の対象行動のそれぞれについて予め定められた前記検知可能骨格点の基準信頼度と、抽出された前記検知可能骨格点の前記信頼度と、を比較することにより、前記複数の対象行動から1以上の候補行動を決定し、
     前記1以上の候補行動から前記ユーザの前記行動を決定し、
     決定した前記行動を示す行動ラベルを出力する、処理を実行させる、
     行動認識プログラム。
PCT/JP2022/023524 2021-11-05 2022-06-10 行動認識方法、行動認識装置、及び行動認識プログラム WO2023079783A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202280072793.0A CN118176530A (zh) 2021-11-05 2022-06-10 行动辨识方法、行动辨识装置以及行动辨识程序
JP2023557618A JPWO2023079783A1 (ja) 2021-11-05 2022-06-10
US18/650,540 US20240282147A1 (en) 2021-11-05 2024-04-30 Action recognition method, action recognition device, and non-transitory computer readable recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021181055 2021-11-05
JP2021-181055 2021-11-05

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/650,540 Continuation US20240282147A1 (en) 2021-11-05 2024-04-30 Action recognition method, action recognition device, and non-transitory computer readable recording medium

Publications (1)

Publication Number Publication Date
WO2023079783A1 true WO2023079783A1 (ja) 2023-05-11

Family

ID=86241075

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/023524 WO2023079783A1 (ja) 2021-11-05 2022-06-10 行動認識方法、行動認識装置、及び行動認識プログラム

Country Status (4)

Country Link
US (1) US20240282147A1 (ja)
JP (1) JPWO2023079783A1 (ja)
CN (1) CN118176530A (ja)
WO (1) WO2023079783A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118411764A (zh) * 2024-07-02 2024-07-30 江西格如灵科技股份有限公司 一种动态骨骼识别方法、系统、存储介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019219836A (ja) * 2018-06-19 2019-12-26 Kddi株式会社 映像データから人の骨格位置の変位の軌跡を描写するプログラム、装置及び方法
WO2020230335A1 (ja) * 2019-05-16 2020-11-19 日本電信電話株式会社 骨格情報判定装置、骨格情報判定方法及びコンピュータプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019219836A (ja) * 2018-06-19 2019-12-26 Kddi株式会社 映像データから人の骨格位置の変位の軌跡を描写するプログラム、装置及び方法
WO2020230335A1 (ja) * 2019-05-16 2020-11-19 日本電信電話株式会社 骨格情報判定装置、骨格情報判定方法及びコンピュータプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118411764A (zh) * 2024-07-02 2024-07-30 江西格如灵科技股份有限公司 一种动态骨骼识别方法、系统、存储介质及电子设备

Also Published As

Publication number Publication date
CN118176530A (zh) 2024-06-11
JPWO2023079783A1 (ja) 2023-05-11
US20240282147A1 (en) 2024-08-22

Similar Documents

Publication Publication Date Title
US11790682B2 (en) Image analysis using neural networks for pose and action identification
JP7342919B2 (ja) 情報処理システム、制御方法、及びプログラム
CN110348335B (zh) 行为识别的方法、装置、终端设备及存储介质
Wang et al. Mining actionlet ensemble for action recognition with depth cameras
Wang et al. Learning actionlet ensemble for 3D human action recognition
US8824802B2 (en) Method and system for gesture recognition
US20080002862A1 (en) Image processing apparatus for identifying an individual object, image processing method, and storage medium
Ghazal et al. Human posture classification using skeleton information
KR102338486B1 (ko) 3d 골격 정보를 이용한 사용자 동작 인식 방법 및 시스템
US20240282147A1 (en) Action recognition method, action recognition device, and non-transitory computer readable recording medium
JP6773829B2 (ja) 対象物認識装置、対象物認識方法、及び対象物認識プログラム
Monir et al. Rotation and scale invariant posture recognition using Microsoft Kinect skeletal tracking feature
Sun et al. Human recognition for following robots with a Kinect sensor
Prathap et al. Gait recognition using skeleton data
US20220343112A1 (en) Learning data generation device, learning data generation method, and learning data generation program
Gharghabi et al. Person recognition based on face and body information for domestic service robots
Thompson et al. Gait
JP7259313B2 (ja) 属性決定装置、属性決定システム、属性決定方法、プログラムおよび記録媒体
WO2023209809A1 (ja) 情報処理装置、情報処理方法、情報処理システム及び記録媒体
Mikrut et al. Combining pattern matching and optical flow methods in home care vision system
JP7280335B1 (ja) 立位座位分離計数装置及び立位座位分別処理方法
CN111460868A (zh) 动作识别纠错方法、系统、电子设备、存储介质
Jangua et al. A new method for gait recognition using 2d poses
WO2023112321A1 (ja) 画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体
US20240119087A1 (en) Image processing apparatus, image processing method, and non-transitory storage medium

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22889608

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023557618

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 202280072793.0

Country of ref document: CN