WO2019111932A1 - モデル学習装置、モデル学習方法及び記録媒体 - Google Patents

モデル学習装置、モデル学習方法及び記録媒体 Download PDF

Info

Publication number
WO2019111932A1
WO2019111932A1 PCT/JP2018/044685 JP2018044685W WO2019111932A1 WO 2019111932 A1 WO2019111932 A1 WO 2019111932A1 JP 2018044685 W JP2018044685 W JP 2018044685W WO 2019111932 A1 WO2019111932 A1 WO 2019111932A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
learning
error
movement
movement trajectory
Prior art date
Application number
PCT/JP2018/044685
Other languages
English (en)
French (fr)
Inventor
真 寺尾
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US16/767,767 priority Critical patent/US11580784B2/en
Priority to JP2019558244A priority patent/JP7031685B2/ja
Publication of WO2019111932A1 publication Critical patent/WO2019111932A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • G06V10/85Markov-related models; Markov random fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition

Definitions

  • the present disclosure relates to a technology for learning a model that recognizes an action of an object from a trajectory of movement of the object.
  • a technique for analyzing the behavior of an object for example, a person or the like using an image of a surveillance camera or the like has attracted attention. For example, it is expected to prevent incidents and accidents by automatically and efficiently discovering suspicious behavior in a station, a shopping mall or the like.
  • Patent Document 1 describes an example of a technique for recognizing the action of a person using an image (camera image) captured by a shooting device such as a camera.
  • a model that recognizes the behavior of a person using a trajectory (a movement trajectory) in which the person moves is learned in advance by a support vector machine or the like.
  • information moving locus information representing the movement locus of the person being monitored is acquired, and the suspicious behavior of the person being monitored is obtained using the previously learned model and the movement locus information.
  • Patent Document 2 describes a technology for learning a state transition model by assigning a state to movement locus data of a moving object, and determining an action of movement locus data using the learned state transition model.
  • Patent Document 3 describes a technique for tracking a tracking target in real space while suppressing the influence of observation noise included in an image area including the tracking target.
  • the generated feature amount may include an estimation error. Therefore, for example, the feature amount of "walking" and the feature amount of "normal walking” may be classified into the same cluster.
  • the technique described in Patent Document 3 is a technique for removing noise of an image.
  • model learning device an action that can learn an action recognition model capable of recognizing an action of an object with high accuracy based on a movement trajectory of the object (for example, a person)). It is providing a recognition model learning device etc.
  • a model learning device configured as follows. That is, the model learning device according to an aspect of the present disclosure is an error with respect to movement trajectory data for behavior learning, which is data representing a movement trajectory of the object to which an activity label representing the behavior of the object is added. Is used to generate a movement trajectory data with error, and at least movement of a certain object using learning data created based on the movement trajectory data with error and the action label. And an action recognition model learning unit that learns a model capable of recognizing the action of the object from the trajectory.
  • an error is added to movement trajectory data for behavior learning, which is data representing a movement trajectory of an object to which an action label is attached that is information representing an activity of the object.
  • movement trajectory data for behavior learning which is data representing a movement trajectory of an object to which an action label is attached that is information representing an activity of the object.
  • model learning apparatus having the above configuration, a computer program (model learning program) for realizing a model learning method and the like by a computer, a computer readable recording medium storing the computer program, etc. Is also achieved by
  • the computer program according to still another aspect of the present disclosure is provided with an action label that is information representing an action of an object with respect to movement trajectory data for action learning that is data representing a movement locus of the object. From the movement trajectory of a certain object using the process of generating errored movement trajectory data by adding the error, and at least learning data created based on the errored movement trajectory data and the action label, The computer is caused to execute a process of learning a model capable of recognizing the behavior of the object.
  • the computer program described above may be recorded in a recording medium according to still another aspect of the present disclosure.
  • an action recognition model capable of recognizing the action of the object with high accuracy based on the movement trajectory of the object.
  • FIG. 1A is a block diagram illustrating a functional configuration of a behavior recognition model learning device according to a first embodiment of the present disclosure.
  • FIG. 1B is a block diagram illustrating a functional configuration of the behavior recognition model learning device according to the first embodiment of the present disclosure.
  • FIG. 1C is a block diagram illustrating a functional configuration of the behavior recognition model learning device according to the second and third embodiments of the present disclosure.
  • FIG. 2 is a block diagram illustrating a functional configuration of the error-added movement trajectory generation unit according to the second embodiment of the present disclosure.
  • FIG. 3 is a diagram showing a specific example of action learning movement trajectory data.
  • FIG. 4 is a diagram for explaining the processing content of the first coordinate transformation unit according to the second embodiment of the present disclosure.
  • FIG. 4 is a diagram for explaining the processing content of the first coordinate transformation unit according to the second embodiment of the present disclosure.
  • FIG. 5 is a diagram for explaining the processing content of the first coordinate transformation unit according to the second embodiment of the present disclosure.
  • FIG. 6 is a diagram for explaining the processing content of the first error adding unit according to the second embodiment of the present disclosure.
  • FIG. 7 is a diagram for explaining the processing content of the second coordinate transformation unit according to the second embodiment of the present disclosure.
  • FIG. 8 is a flowchart illustrating an example of the processing procedure of the behavior recognition model learning device according to the second embodiment of the present disclosure.
  • FIG. 9 is a diagram for explaining the effect of the behavior recognition model learning device according to the second embodiment of the present disclosure.
  • FIG. 10 is a block diagram illustrating a functional configuration of the error-added movement trajectory generation unit according to the third embodiment of the present disclosure.
  • FIG. 11 is a diagram showing a specific example of error learning camera image data and correct movement trajectory data corresponding to the image data.
  • FIG. 12 is a diagram illustrating a specific example of the error generation model according to the third embodiment of the present disclosure.
  • FIG. 13 is a diagram for explaining the feature of the estimation error of the movement trajectory generated when a plurality of persons overlap.
  • FIG. 14 is a flowchart illustrating an example of the processing procedure of the behavior recognition model learning device according to the third embodiment of the present disclosure.
  • FIG. 15 is an explanatory diagram showing an example of a hardware configuration that can realize the behavior recognition model learning device according to the present disclosure.
  • the action recognition model learning device 10 is a device for learning an action recognition model which is a model used for recognition of an action of an object.
  • the subject matter is not particularly limited in the technology according to the present disclosure.
  • the object may include, for example, a person (human), an animal, various mobile devices (car, train, aircraft, ship, etc.) and the like.
  • the case where the object is a human (person) will be described as a specific example, but the present embodiment is not limited to this (the same in the following embodiments).
  • the action recognition model learning device 10 includes an errored movement trajectory generation unit 11 (error movement trajectory generation means) and an action recognition model learning unit 13 (action recognition model learning means).
  • the behavior recognition model learning device 10 may be configured to further include a feature extraction unit 12 (feature extraction unit).
  • the errored moving trajectory generation unit 11 adds an estimation error that may occur when automatically estimating a moving trajectory using an image to the behavior learning moving trajectory data to which an action label is given, thereby adding an error.
  • the movement learning trajectory data for action learning is data representing the movement trajectory of an object (for example, a person).
  • the action label is information indicating the action of an object (for example, a person or the like).
  • an object for example, a person or the like.
  • the image may be, for example, an image (at least one of a moving image and a still image) captured by an imaging device such as a camera.
  • the movement trajectory generation unit with error 11 generates an estimation error that may occur when automatically estimating a movement trajectory using an image (camera image) captured by a camera as movement trajectory data for action learning. It is assumed to add (it is the same in the following each embodiment).
  • the automatic estimation may include, for example, a technique of estimating a movement trajectory of an object based on an image captured by a camera or the like using an appropriate device (for example, a computer device or the like) or the like.
  • an appropriate device for example, a computer device or the like
  • the technology described in the following reference Japanese Patent Laid-Open No. 2014-238674
  • the present embodiment is not limited to this, and another technology is adopted. It is also good.
  • the action recognition model learning unit 13 is based on the movement locus of the object using at least learning data created on the basis of movement locus data for action learning and an action label. Learn a model (action recognition model) that recognizes the action of the object.
  • the feature extraction unit 12 extracts (creates) a feature amount used for recognition of the action of the object (for example, a person) from the movement trajectory data with error. Do. In this case, even if the action recognition model learning unit 13 learns a model that recognizes the action of the object based on the movement trajectory of the object using the feature amount extracted by the feature extraction unit 12 and the action label. Good.
  • the action recognition model learning device 10 in the present embodiment, it is possible to learn an action recognition model capable of recognizing the action of the object with high accuracy based on the movement trajectory of the object estimated using the image.
  • the reason is that the action recognition model learning device 10 generates the error-added movement locus data by adding the estimation error to the action learning movement locus data (learning data), and the error-added movement locus data This is because the learning process of the action recognition model is performed using this.
  • the behavior recognition model learning device 10 can learn the behavior recognition model including an estimation error generated when estimating a movement trajectory using an image. Therefore, the action recognition model learning device 10 can learn an action recognition model capable of recognizing the action of the object with higher accuracy.
  • FIG. 1C and FIG. 2 are block diagrams illustrating the functional configuration of the behavior recognition model learning device 100 according to the present embodiment.
  • the behavior recognition model learning device 100 may be configured to include an error-added movement trajectory generation unit 110, a feature extraction unit 120, and a behavior recognition model learning unit 130 as illustrated in FIG. 1C.
  • the error-containing movement trajectory generation unit 110 includes a first coordinate conversion unit 111 (first coordinate conversion unit) and a first error addition unit 112 (first error addition unit).
  • a second coordinate conversion unit 113 second coordinate conversion means.
  • the errored movement trajectory generation unit 110 in the present embodiment may be configured to be able to realize the same function as the errored movement trajectory generation unit 11 in the first embodiment.
  • the feature extraction unit 120 may be configured to be able to realize the same function as the feature extraction unit 12 in the first embodiment.
  • the action recognition model learning unit 130 may be configured to be able to realize the same function as the action recognition model learning unit 13 in the first embodiment.
  • the errored movement trajectory generation unit 110 acquires movement trajectory data for behavior learning, and generates an errored movement trajectory data by adding an estimation error that may occur in automatic estimation of the movement trajectory using a camera image.
  • the error-added movement trajectory generation unit 110 includes a first coordinate conversion unit 111, a first error addition unit 112, and a second coordinate conversion unit 113.
  • the movement learning trajectory data for action learning is data to which information representing action content (hereinafter, action label) is attached, and is time series data representing the correct position of a person.
  • action label information representing action content
  • time series data representing the correct position of a person.
  • the position of the person represented by the movement learning trajectory data for action learning represents the position of the person in the real space.
  • FIG. 3 shows an example of movement learning trajectory data for action learning.
  • the action learning movement locus data may include one or more movement locus data ((a) to (f)).
  • movement locus data included in movement learning locus data for behavior learning may be simply described as movement locus data or movement locus.
  • normal walking is attached as the action label to the movement trajectories of (a), (b) and (c), and the movement trajectories of (d), (e) and (f) are "Walky walking” is given as a label.
  • the movement trajectories ((a), (b), (c)) to which the action label of “normal walking” is attached have relatively little fluctuation of the trajectories.
  • the movement trajectories ((d), (e), (f)) to which the action label of “wobble” is attached have relatively many fluctuation of the trajectories.
  • the foot position of the person in the camera image is manually labeled, and the position in the camera image is the position in real space.
  • Coordinate conversion may be performed. This coordinate conversion can be calculated by using camera parameters representing the installation position, installation angle, lens characteristics, etc. of the camera.
  • the method of obtaining movement trajectory data for behavior learning is not limited to this, and for example, other methods capable of accurately measuring the position of a person in real space, such as laser positioning or a pressure sensor installed on the ground, are used. May be
  • the creator of the movement learning trajectory data for action learning prepares, for example, a plurality of camera shooting data in which a person's action is shot in advance, labels each camera shooting data by the method as described above, and performs coordinate conversion By doing this, it is possible to create action trajectory data included in the movement learning trajectory data for action learning.
  • the behavior learning movement trajectory data may be stored in the behavior recognition model learning device 100, for example.
  • the movement learning trajectory data for action learning may be stored, for example, in a device different from the action recognition model learning device 100, and is appropriately provided to the action recognition model learning device 100 via various communication lines, a recording medium, etc. May be
  • the first coordinate conversion unit 111 converts the behavior learning movement trajectory data into data representing a movement trajectory in the camera image, and outputs the data.
  • a coordinate system for representing a position in the real space is referred to as a “world coordinate system”
  • a coordinate system for representing a position in a camera image is referred to as a “camera image coordinate system”.
  • FIG. 4 is an explanatory view schematically showing a state in which movement learning track data for behavior learning illustrated in (a) of FIG. 3 is arranged in the world coordinate system.
  • a virtual camera is also arranged in the world coordinate system, but the installation position and the installation angle of the camera may be selected as appropriate.
  • the (virtual) camera may be placed at a random location.
  • the coordinate axes illustrated in FIG. 4 can be selected as appropriate. Such coordinate axes may be, for example, coordinate axes representing two-dimensional or three-dimensional absolute coordinates, or coordinate axes representing polar coordinates.
  • the movement trajectory data may be arranged as two-dimensional data in the world coordinate system, or may be arranged as three-dimensional data.
  • FIG. 5 is an explanatory view schematically showing processing contents of coordinate conversion by the first coordinate conversion unit 111.
  • the first coordinate transformation unit 111 transforms the movement locus arranged in the world coordinate system into data of the movement locus in the camera image coordinate system of the virtual camera. This conversion can be calculated using camera parameters that represent virtual camera installation positions, installation angles, lens characteristics, and the like.
  • the first error adding unit 112 outputs data obtained by adding an estimation error that may occur when automatically estimating the position of a person in the camera image to the data of the movement trajectory output by the first coordinate conversion unit 111.
  • the first error addition unit 112 adds, for example, Gaussian noise having a predetermined specific variance to one or more points on the movement trajectory in the camera image coordinate system. This process corresponds to simulating a random estimation error that occurs when estimating the position of a person in a camera image.
  • the variance of the added Gaussian noise may be varied according to the distance between the camera and the person. Further, the noise added to the data of the movement trajectory in the present embodiment is not limited to the Gaussian noise, and other noise may be added as appropriate.
  • FIG. 6 is an explanatory view schematically showing the processing content of the error addition by the first error adding unit 112. As shown in FIG. By adding an error to the movement trajectory by the first error adding unit 112, a minute fluctuation is added to the movement trajectory in the camera coordinate system.
  • the second coordinate transformation unit 113 converts the data of the movement trajectory output from the first error addition unit 112 into data representing the movement trajectory in the real space, thereby generating error movement trajectory data, and Output data.
  • FIG. 7 is an explanatory view schematically showing processing contents of coordinate conversion by the second coordinate conversion unit 113.
  • the second coordinate conversion unit 113 is the data generated by the first error addition unit 112, and is a world coordinate based on the data of the camera coordinate system reflecting the error generated in the automatic estimation of the person position in the camera image. Generate errored movement trajectory data in the system.
  • the feature extraction unit 120 extracts feature amounts used when recognizing the action of a person from the error-added movement trajectory data in the world coordinate system output by the second coordinate conversion unit 113.
  • the feature quantities for example, time-series feature quantities such as a velocity vector obtained by differentiating a movement trajectory, an acceleration vector, or a moving average of those in the time direction may be used. These feature quantities are known to be useful in applications that recognize human behavior.
  • the feature amount is not limited to the above, and other feature amounts representing time-series data may be adopted.
  • the action recognition model learning unit 130 uses the feature amount output from the feature extraction unit 120 and the action label attached to the action learning movement locus data (specifically, the movement locus included in the action learning movement locus data) Using the assigned action label), an action recognition model that recognizes a person's action based on the movement trajectory of the person is learned.
  • the action recognition model learning unit 130 may output the learned model.
  • a behavior recognition model for example, a Recurrent Neural Network (RNN) may be used.
  • RNN Recurrent Neural Network
  • a neural network is used, for example, in a classification problem in which time-series feature quantities are input.
  • the behavior recognition model is not limited to neural networks. For example, after determining the number of dimensions of feature quantities by calculating statistics such as average, variance, maximum value, etc. in the time direction with respect to time-series feature quantities, pattern recognition such as a support vector machine as an action recognition model Various classifiers used in the field of (1) may be used.
  • the action recognition model learning unit 130 can appropriately select an appropriate learning algorithm including a known technique according to the type of action recognition model to be learned.
  • the behavior recognition model learning unit 130 may adopt, for example, a learning algorithm generally used in the technical field as a learning algorithm for learning a model such as an RNN or a support vector machine.
  • FIG. 8 is a flowchart showing an example of the operation of the behavior recognition model learning device 100 according to the present embodiment.
  • the action recognition model learning device 100 acquires a movement track from the movement learning track data for action learning, and arranges the movement track in the world coordinate system (step S201).
  • the movement locus with error generation unit 110 may read the movement locus from the given movement locus data for behavior learning, and may arrange the movement locus in the world coordinate system.
  • the action recognition model learning device 100 converts the movement locus arranged in the world coordinate system into a movement locus in the camera image coordinate system of the virtual camera (step S202).
  • the movement trajectory acquired by the error-generated movement trajectory generation unit 110 (first coordinate conversion unit 111) from the movement learning data for action learning is data representing the movement trajectory in the camera image coordinate system. It may be converted to
  • the action recognition model learning device 100 adds an estimation error that may occur in automatic estimation of the position of a person in a camera image to the movement trajectory in the camera image coordinate system (step S203).
  • the error-added moving trajectory generation unit 110 (first error adding unit 112) adds an estimation error (for example, Gaussian noise) to data representing a moving trajectory in the camera image coordinate system. It is also good.
  • the action recognition model learning device 100 converts the movement locus in the camera image coordinate system to which the estimation error is added into a movement locus in the world coordinate system, and outputs it as movement locus data with error (step S204).
  • the action recognition model learning device 100 extracts feature quantities used for recognition of a person's action from the movement locus data with error (step S205). As described above, at this time, the feature extraction unit 120 may create the feature amount from the error-added movement trajectory data.
  • the action recognition model learning device 100 determines whether or not the processing from step S202 to step S205 has been performed a predetermined number of times on the movement locus acquired from the movement learning trajectory data for action learning (step S206).
  • the first error addition unit 112 may, for example, stochastically change the estimation error to be added to the movement trajectory data. As a result, the first error adding unit 112 can control so that the obtained movement locus data with errors and the feature value thereof change each time. At this time, for example, the first error addition unit 112 may generate gaussian noise stochastically each time and add it to movement trajectory data.
  • the first error adding unit 112 can generate movement trajectories having various estimation errors. That is, the first error adding unit 112 can generate, for example, learning data of a plurality of patterns (moving locus data to which an estimation error is added) from one moving locus data.
  • the behavior recognition model learning device 100 can learn a behavior recognition model to be described later using learning data assuming various estimation errors. For this reason, the behavior recognition model learning device 100 can learn a behavior recognition model that is more robust against estimation errors of moving trajectories.
  • step S206 the action recognition model learning device 100 determines whether or not the processing from step S201 to step S206 is completed for all movement trajectories included in the movement learning trajectory data for action learning (step S207). ).
  • step S207 If an unprocessed movement locus remains (NO in step S207), the processing from step S201 to step S206 described above is performed on the unprocessed movement locus.
  • the action recognition model learning device 100 extracts feature traces extracted from movement trajectories in which various estimation errors are added to all movement trajectories included in movement learning trajectory data for action learning, and movement trajectories
  • the action recognition model for recognizing a person's action based on the movement locus of the person is learned using the action label attached to as the learning data (step S208).
  • the behavior recognition model learning unit 130 may learn the behavior recognition model (for example, the RNN model) using the feature amount created as described above.
  • the action recognition model learning unit 130 may output the learned action recognition model.
  • the behavior recognition model learning device 100 of this embodiment generates movement locus data in consideration of an estimation error included in a movement locus of a person estimated using a camera image, and generates movement with an error generated. This is because by using trajectory data as learning data, an action recognition model is learned.
  • an estimation error of the movement locus occurs when specifying the position of a person in the camera image. That is, the movement trajectory of the person estimated from the camera image includes an estimation error. Therefore, when the action is recognized using the movement locus as input data, an estimation error included in the input data (movement locus) affects the recognition accuracy.
  • the behavior recognition model learning device 100 converts the movement trajectory of a person from the world coordinate system to the camera image coordinate system, and then adds an estimation error to the movement trajectory. As a result, the behavior recognition model learning device 100 can add an error directly simulating the feature of the error that occurs when specifying the position of the person in the camera image to the movement trajectory. Therefore, the action recognition model learning device 100 can learn the action recognition model using learning data (movement track data) which appropriately reproduces the estimation error of the movement track. As a result, the behavior recognition model learning device 100 can learn a highly accurate behavior recognition model (that is, a behavior recognition model capable of determining a behavior with high accuracy).
  • FIG. 9 shows a correct (correct) movement trajectory in the world coordinate system of a person who is performing “ordinary walking” or “walking”.
  • the moving locus of the moving object is automatically estimated from a camera image obtained by photographing the moving object (person) depicting the moving locus, the moving locus including an estimation error as shown in the lower part of FIG. 9 (902 in FIG. 9) Is obtained.
  • a movement trajectory automatically estimated from a camera image is recognized using an action recognition model learned using only a correct movement trajectory as illustrated in the upper part of FIG. 9 as learning data.
  • the learned action recognition model can relatively accurately recognize (determine) the action indicated by the movement locus with respect to the movement locus that does not include fluctuation.
  • a movement trajectory including an estimation error is given to the behavior recognition model learned using such learning data, there is a possibility that the recognition accuracy of the behavior is lowered.
  • the action recognition model learning device 100 of the present embodiment generates a movement locus simulating the movement locus automatically estimated in the lower part of FIG. 9 from the correct movement locus in the upper part of FIG. That is, a movement trajectory simulating an estimation error is used as learning data. For this reason, the behavior recognition model learning device 100 according to the present embodiment can learn a model capable of recognizing a behavior with high accuracy.
  • the action recognition model learning device 100 differs from the second embodiment in the processing content of the movement trajectory with error generation unit 110. Other configurations and operations may be similar to those of the second embodiment.
  • FIG. 10 is a block diagram for explaining a functional configuration of the error-added movement trajectory generation unit 110 according to the present embodiment.
  • the errored movement trajectory generation unit 110 according to the present embodiment includes a movement trajectory estimation unit 114, an estimation error calculation unit 115, an error generation model learning unit 116, and a second error addition unit 117.
  • a movement trajectory estimation unit 114 includes a movement trajectory estimation unit 114, an estimation error calculation unit 115, an error generation model learning unit 116, and a second error addition unit 117.
  • the movement trajectory estimation unit 114 automatically estimates the movement trajectory of the person in the image using the error learning camera image data (described later).
  • the movement trajectory estimation unit 114 detects a human region in a camera image, and estimates a foot position of the human based on the detected human region.
  • the movement trajectory estimation unit 114 converts the foot position in the camera image into a foot position in real space using camera parameters representing the camera installation position, installation angle, lens characteristics, etc. Estimate the movement trajectory of a person in space.
  • the method of automatically estimating the movement trajectory used by the movement trajectory estimation unit 114 is movement of a person in a scene where a person's action is recognized (judged) by actually applying the action recognition model learned by the action recognition model learning device 100 It is desirable to be the same as the automatic estimation method used in estimating the trajectory. That is, the method of automatically estimating the movement trajectory used by the movement trajectory estimation unit 114 is the same method as the method of automatically estimating movement trajectory data input to the learned behavior recognition model when recognizing the action of a person. May be there.
  • the error learning camera image data is image data obtained by photographing a large number of people going and going with using a photographing device such as a camera. Correct movement trajectory data representing a correct movement trajectory of each person is assigned to each person in the error learning camera image data.
  • the creator of the data may manually label the foot position of the person in the camera image with respect to the error learning camera image data, for example.
  • Coordinate conversion may be performed to a position in space. This coordinate conversion can be calculated by using camera parameters representing the installation position, installation angle, lens characteristics, etc. of the camera.
  • the method of obtaining the correct movement trajectory data is not limited to this.
  • other methods capable of accurately measuring the person's position in the real space may be used, such as laser positioning or a pressure sensor installed on the ground.
  • the error learning camera image data and the correct movement trajectory data may be appropriately provided to the behavior recognition model learning device 100 via a communication network, a recording medium, etc., and stored (stored in the behavior recognition model learning device 100). ) May be.
  • the image data used when actually applying an action recognition model (that is, when recognizing (determining an action using a learned action recognition model) is photographed. It is desirable that the image data be captured under conditions close to the conditions. For example, if the scene where image data to which the action recognition model is actually applied is photographed is a crowded environment with a large number of persons, then the error learning camera image data is also photographed in a crowded environment with a large number of persons It is desirable that the image data be As the photographing conditions of the image data, for example, the number of objects (persons etc.) to be photographed, moving speed, photographing time, photographing place, situation of ambient light, background, etc. may be considered.
  • the behavior learning movement trajectory data and the correct movement trajectory data may be different data.
  • the action learning movement locus data is provided with an action label, and is used when learning an action recognition model.
  • the correct movement trajectory data is data attached to the error learning camera image data.
  • the correct movement trajectory data is data used when learning a generation model of an estimation error that occurs when automatically estimating a movement trajectory from image data. Therefore, an action label may not be attached to the correct movement trajectory data.
  • FIG. 11 is an explanatory view showing an example of error learning camera image data and correct movement trajectory data attached thereto.
  • the left side of FIG. 11 (1101 of FIG. 11) exemplifies image data in which persons (a), (b), (c), (d), (e), and (f) cross each other. 11 of 1102) are correct movement locus data in the world coordinate system of each person. In this case, correct movement trajectory data of each person may be manually provided.
  • the estimation error calculation unit 115 calculates, as an estimation error, the difference between the correct movement trajectory data regarding the person captured in the error learning camera image data and the movement trajectory data of the person automatically estimated by the movement trajectory estimation unit 114.
  • the movement trajectory data of the correct length T frame for a person is (x1, y1), (x2, y2), ..., (xt, yt), ..., (xT, yT) Assume.
  • the movement locus data automatically estimated with respect to the same movement locus is (x1 ', y1'), (x2 ', y2'), ..., (xt ', yt'), ..., (xT Assume that ', yT').
  • the number T of frames may be selected as appropriate.
  • the temporal length of one frame may be selected as appropriate.
  • the error generation model learning unit 116 learns an error generation model capable of generating time series data of the estimation error, using the time series data of the estimation error calculated by the estimation error calculation unit 115 as learning data.
  • an Ergodic HMM Hidden Markov Model
  • stochastically outputs time series data of the estimation error can be used.
  • the Ergodic HMM is an error generation model that can freely transition between states according to the state transition probability "a_ij" as time passes.
  • the ergodic HMM outputs an estimation error in accordance with an output probability distribution “f (e
  • ⁇ i) an output probability distribution specific to the staying state “i” at each time.
  • a multidimensional normal distribution can be used as the output probability distribution.
  • FIG. 12 is an explanatory view showing an example of a two-state ergodic HMM.
  • the parameters of the state transition probability and the output probability distribution are learned using the existing method such as the Baum-Wlch method, using the time series data of the estimation error calculated by the estimation error calculation unit 115 as the ergodic HMM parameters. It can be done.
  • the effect of using an ergodic HMM as an error generation model will be described with reference to FIG.
  • a large estimation error is likely to occur when a plurality of persons overlap in the camera image.
  • the example of the camera image illustrated on the left side of FIG. 13 (1301 in FIG. 13) is an example in which one person is alone in the camera image.
  • a rectangular area indicated by a broken line represents an estimated person area (an area in which it is estimated that a person is photographed).
  • the “X” mark indicates the estimated foot position of the person (the position estimated to be the foot of the person).
  • an example of “with overlap” in the camera image illustrated on the right side of FIG. 13 is an example in which two persons are copied and captured in the camera image.
  • the human region of the person in back is erroneously detected so as to widen in the downward direction of the drawing.
  • the estimated foot position also contains relatively large errors.
  • the estimation error of the position of the person tends to be large.
  • the estimation error in the linear direction connecting the camera and the person becomes large.
  • the nature of the estimation error when estimating the movement trajectory of a person using a camera image may differ between the case where a single person is shown in the camera and the case where a plurality of people are shown overlapping. I understand. Furthermore, in a state in which a single person appears in the camera and in a state in which a plurality of people overlap and appear in the camera, a certain amount of time may continue or be alternately interchanged while maintaining each state ( It is considered that there is a possibility that the state may transition.
  • the ergodic HMM can express such a feature (property) of the estimation error of the movement trajectory. Therefore, by using the ergodic HMM, it is possible to learn a generated model in which the estimation error is modeled with high accuracy (in other words, a generation model capable of generating the estimation error with high accuracy).
  • the two-state Ergodic HMM shown in FIG. 12 may be used. It is expected that learning proceeds to indicate that each of the states s1 and s2 represents either "a state in which the persons do not overlap" or "a state in which the persons overlap". If there is another factor that the tendency of the estimation error of the movement trajectory largely changes, an ergodic HMM in which the number of states is further increased may be used.
  • the second error addition unit 117 generates and outputs movement locus data with errors by adding the estimation error generated by the error generation model to the movement locus data for behavior learning. Specifically, the second error adding unit 117 uses, for example, the movement trajectory data in the movement learning trajectory data for action learning, using an error generation model to generate a time series of estimation errors of the same length as the movement trajectory data. Generate data. The second error addition unit 117 adds the generated estimation error to the movement trajectory data to generate movement trajectory data with errors.
  • the error-added moving trajectory generation unit 110 (first error adding unit 112) in the first embodiment adds a Gaussian noise having a certain specific size of the distribution to the movement learning data for behavior learning.
  • error-generated movement trajectory data is generated.
  • the second error addition unit 117 in the present embodiment generates movement locus data with errors by adding the estimation error generated by the error generation model to the movement locus data for action learning.
  • the second error adding unit 117 in the present embodiment can generate moving trajectory data with errors simulating the estimation error with higher accuracy.
  • FIG. 14 is a flowchart showing an example of the operation (processing procedure) of the action recognition model learning device 100 according to the present embodiment.
  • the action recognition model learning device 100 automatically estimates the movement trajectory of the person in the error learning camera image data (step S301).
  • the movement trajectory estimation unit 114 may automatically estimate the movement trajectory of the person in the image using the error learning camera image data.
  • the method of automatically estimating the movement locus is used when generating movement locus data to be input to the action recognition model at the stage of recognizing the action of a person using the learned action recognition model. It may be the same method as the automatic estimation method.
  • the action recognition model learning device 100 calculates, as an estimation error, the difference between the correct movement trajectory data of the person in the error learning camera image data and the movement trajectory data of the person automatically estimated in step S301 (step S302). ).
  • the correct movement trajectory data of the person in the error learning camera image data is data that accurately represents the movement trajectory of the person in the error learning camera image data.
  • the estimation error calculation unit 115 may execute a process of calculating the estimation error. As described above, the time series data of the estimation error generated by the estimation error calculation unit 115 is used as learning data for learning the error generation model.
  • the action recognition model learning device 100 learns an error generation model that generates a time series of estimation errors of movement trajectories (step S303). More specifically, the error generation model learning unit 116 may execute a process of learning an error generation model. By such processing, the behavior recognition model learning device 100 can learn an error generation model capable of accurately generating an estimation error to be added to the behavior learning movement trajectory data.
  • the action recognition model learning device 100 acquires a movement track from the movement learning track data for action learning (step S304).
  • the action recognition model learning device 100 generates and outputs error track data with an error generated by adding an estimation error generated by the error generation model to the move track acquired from the move track data for action learning (step S305). More specifically, the second error adding unit 117 may execute the above process.
  • the behavior recognition model learning device 100 extracts feature quantities for recognizing a person's behavior from the movement trajectory data with errors generated in step S305 (step S306). Such processing may be similar to that of step S205 in the first embodiment.
  • the action recognition model learning device 100 determines whether or not the processing from step S305 to step S306 has been performed a predetermined number of times on the movement locus acquired from the movement learning trajectory data for action learning (step S307).
  • the action recognition model learning device 100 executes the above-described processing from step S305 to step S306 again on the same movement trajectory. Since the estimation error added by the second error addition unit 117 is generated by a probabilistic generation model (error generation model), the obtained movement locus data with errors and the feature value thereof are generated each time an estimation error is generated. It changes every time. By this iterative process, the behavior recognition model learning device 100 can generate different movement trajectories (movement trajectories with errors) to which various estimation errors are added. Thus, the action recognition model learning device 100 can learn an action recognition model that is more robust against the estimation error of the movement trajectory, using such errored movement trajectory data.
  • a probabilistic generation model error generation model
  • step S307 the action recognition model learning device 100 determines whether or not the processing from step S304 to step S307 is completed for all movement trajectories included in the movement learning trajectory data for action learning (step S308). ). If an unprocessed movement trajectory remains (NO in step S308), the action recognition model learning device 100 executes the above-described processing from step S304 to step S307 on the unprocessed movement trajectory.
  • the action recognition model learning device 100 extracts feature traces extracted from movement trajectories in which various estimation errors are added to all movement trajectories included in movement learning trajectory data for action learning, and movement trajectories
  • the action recognition model is learned using the action label given to (step S309).
  • the behavior recognition model recognizes human behavior based on the movement trajectory of the person.
  • the action recognition model learning device 100 may output the learned action recognition model.
  • the specific learning process in step S309 may be similar to, for example, step S208 (FIG. 8) in the second embodiment.
  • the action recognition model learning apparatus 100 learns an action recognition model capable of recognizing a person's action with high accuracy based on the movement trajectory of the person estimated using the camera image by the above-described processing configuration. Can.
  • the reason is that the action recognition model learning device 100 of this embodiment generates movement locus data in consideration of an estimation error included in a movement locus of a person estimated using a camera image, and generates the generated movement locus with an error. This is because data is used as learning data to learn an action recognition model.
  • the behavior recognition model learning device 100 learns, as a generation model (error generation), a pattern of an estimation error generated when estimating a movement trajectory of a person using a camera image.
  • the action recognition model learning device 100 generates error locus data by disallowing the estimation error generated using the learned generation model (error generation model) to the movement locus included in the movement locus data for action learning. Do.
  • the behavior recognition model learning device 100 can accurately reproduce the estimation error of the movement trajectory that can actually occur when the movement trajectory is estimated from the camera image. Therefore, the behavior recognition model learning device 100 can learn a highly accurate behavior recognition model.
  • the action recognition model learning device 100 uses an ergodic HMM as an error generation model of a movement trajectory.
  • the behavior recognition model learning device 100 is data that reflects the difference in the nature of the estimation error regarding the movement trajectory, and can generate more accurate movement trajectory data with errors. That is, the behavior recognition model learning device 100 can learn a behavior recognition model with higher accuracy.
  • the estimation error regarding a movement trace originates in the presence or absence of the overlap of the person contained in a camera image.
  • movement learning trajectory data for action learning and correct movement trajectory data represent the position of a person in the world coordinate system.
  • similar processing is possible even if the motion learning movement trajectory data and the correct movement trajectory data are replaced with data representing the position of a person in the camera image coordinate system from data in the world coordinate system, The effect of In that case, the movement trajectory estimation unit 114 automatically estimates and outputs the movement trajectory of the person in the error learning camera image data as position data in the camera image.
  • model learning device 10, 100 described in each of the above embodiments is collectively referred to as "model learning device”.
  • Each model learning device described in each of the above embodiments may be configured by one or more dedicated hardware devices.
  • each component shown in the above-mentioned each figure (for example, FIGS. 1A-1C, FIG. 2, FIG. 10) is realized as hardware (an integrated circuit etc. which mounted processing logic) which unified one part or all. May be
  • the components of the model learning device may be implemented as integrated circuits (for example, SoC (System on a Chip) etc.) capable of providing respective functions.
  • SoC System on a Chip
  • data included in the component of the model learning apparatus may be stored in a random access memory (RAM) area or a flash memory area integrated in the SoC.
  • RAM random access memory
  • a communication network including a known communication bus may be adopted as a communication line connecting the components of the model learning apparatus.
  • communication lines connecting the respective components may connect the respective components in a peer-to-peer manner.
  • the model learning device is configured by a plurality of hardware devices
  • the respective hardware devices may be communicably connected by an appropriate communication method (wired, wireless, or a combination thereof).
  • the model learning apparatus is a processing circuit capable of realizing the functions of an errored movement trajectory generation unit (11, 110), a feature extraction unit (12, 120), and an action recognition model learning unit (13, 130). , A communication circuit, a memory circuit, and the like. In the implementation of the circuit configuration for realizing the model learning device, various variations are assumed.
  • the above-described model learning device may be configured by a general-purpose hardware device 1500 as illustrated in FIG. 15 and various software programs (computer programs) executed by the hardware device 1500.
  • the model learning device may be implemented as a system configured by one or more appropriate numbers of hardware devices 1500 and software programs.
  • the processor 1501 (processor) in FIG. 15 is, for example, a general-purpose CPU (central processing unit) or a microprocessor.
  • the processor 1501 may read various software programs stored in the non-volatile storage device 1503 to be described later into the memory 1502 and execute processing in accordance with the software programs.
  • the component of the model learning device in each of the above embodiments can be realized as, for example, a software program executed by the processor 1501.
  • the model learning device can realize, for example, the functions of the error-containing movement trajectory generation unit (11, 110), the feature extraction unit (12, 120), and the action recognition model learning unit (13, 130). It may be realized by the above program. Note that various variations are assumed in the implementation of such a program.
  • the memory 1502 is a memory device (for example, a RAM or the like) that can be referred to by the processor 1501 and stores software programs, various data, and the like.
  • the memory 1502 may be a volatile memory device.
  • an action recognition model, an error generation model, and various data may be read into the memory 1502.
  • the non-volatile storage device 1503 is a non-volatile storage device such as a magnetic disk drive or a semiconductor storage device using a flash memory.
  • the non-volatile storage device 1503 can store various software programs, data, and the like.
  • the model learning device the behavior recognition model, the error generation model, and various data (movement trajectory data for behavior learning, movement trajectory data with error, time series data of estimation error, etc.) are stored in the non-volatile storage device 1503 It is also good.
  • the drive device 1504 is, for example, a device that processes reading and writing of data to a recording medium 1505 described later.
  • the model learning device may read various data recorded in a recording medium 1505 described later via the drive device 1504.
  • the recording medium 1505 is a recording medium capable of recording data, such as an optical disc, a magneto-optical disc, a semiconductor flash memory, and the like.
  • the type of recording medium and the recording method (format) are not particularly limited, and may be appropriately selected.
  • a network interface 1506 is an interface device connected to a communication network.
  • a wired or wireless LAN (Local Area Network) connection interface device or the like may be adopted as the network interface 1506.
  • the model learning device may receive various data from another device connected to the communication network, for example, via the network interface 1506.
  • the input / output interface 1507 is a device that controls input and output with an external device.
  • the external device may be, for example, an input device (eg, a keyboard, a mouse, a touch panel, etc.) capable of receiving an input from a user.
  • the external device may be, for example, an output device capable of presenting various outputs to the user (for example, a monitor screen, a touch panel, etc.).
  • the model learning device may output, for example, the result of determining the action of the person from the movement trajectory of the person through the input / output interface using the action recognition model.
  • the model learning apparatus which has been described by taking the above-described embodiments as an example, supplies, for example, a software program capable of realizing the functions described in the above-described embodiments to the hardware device 1500 illustrated in FIG. It may be realized by doing. More specifically, for example, the technology according to the present disclosure may be realized by the processor 1501 executing a software program supplied to the hardware apparatus 1500. In this case, an operating system operating on the hardware device 1500, middleware such as database management software, network software, etc. may execute part of each process.
  • each unit shown in the above-described drawings may be realized as a software module which is a unit of a function (process) of a software program executed by the above-described hardware.
  • these software modules may be stored in the non-volatile storage device 1503. Then, the processor 1501 may read these software modules into the memory 1502 when executing the respective processing.
  • these software modules may be configured to be able to transmit various data to each other by an appropriate method such as shared memory or inter-process communication. With such a configuration, these software modules are communicably connected to each other.
  • each software program may be recorded on the recording medium 1505.
  • the respective software programs may be stored in the non-volatile storage device 1503 through the drive device 1504 as appropriate at the shipping stage or the operation stage of the communication device or the like.
  • the various software programs may be installed in the hardware apparatus 1500 using an appropriate jig (tool) at a manufacturing stage before shipment of the model learning apparatus, a maintenance stage after shipment, or the like. Also, various software programs may be downloaded from the outside via a communication line such as the Internet. Various general procedures can be employed as a method of supplying software programs.
  • the technology according to the present disclosure may be configured by a code that configures a software program, or a computer readable recording medium in which the code is recorded.
  • the recording medium is not limited to a medium independent of the hardware device 1500, and includes a recording medium (various storages and the like) which is downloaded and stored or temporarily stored the software program transmitted by the LAN or the Internet.
  • model learning device described above or the components of the model learning device are a virtualized environment where the hardware device 1500 illustrated in FIG. 15 is virtualized, and a software program (computer The program may be configured by In this case, the components of the hardware device 1500 illustrated in FIG. 15 are provided as virtual devices in a virtualization environment.
  • the hardware 1500 apparatus relates to the computer related technology related to the present disclosure (a technology for determining the action of an object from a camera image ) Can function as a unique device that can be improved.
  • Behavior recognition model learning apparatus Motion locus
  • Processor 1502 Memory 1503 non-volatile storage device 1504 drive device 1505 recording medium 1506 network interface 1507 input / output interface

Abstract

モデル学習装置は、対象物の行動を表す情報である行動ラベルが付与された、対象物の移動軌跡を表すデータである行動学習用移動軌跡データに対して誤差を付加することで、誤差付き移動軌跡データを生成する誤差付き移動軌跡生成部と、少なくとも、誤差付き移動軌跡データと、行動ラベルとに基づいて作成した学習データを用いて、ある対象物の移動軌跡から、その対象物の行動を認識可能なモデルを学習する行動認識モデル学習部と、を備える。これにより、カメラ画像を用いて推定した対象物の移動軌跡に基づいて、対象物の行動を高精度に認識可能なモデルを提供することができる。

Description

モデル学習装置、モデル学習方法及び記録媒体
 本開示は、対象物の移動の軌跡から対象物の行動を認識するモデルを学習する技術に関する。
 監視カメラ等の画像を用いて、対象物(例えば人物等)の行動を分析する技術が注目されている。例えば、駅やショッピングモールなどでの不審な行動を自動的に効率よく発見することで、事件や事故を未然に防止することが期待されている。
 カメラ等の撮影機器により撮影された画像(カメラ画像)を用いて人物の行動を認識する技術の一例が、特許文献1に記載されている。特許文献1に記載された技術においては、人物が移動した軌跡(移動軌跡)を用いて人物の行動を認識するモデルを、サポートベクトルマシンなどにより、事前に学習する。次に、カメラ画像を分析することで、監視対象者の移動軌跡を表す情報(移動軌跡情報)を取得し、事前学習したモデルと、移動軌跡情報とを用いて、監視対象者の不審な行動を判定する。
 特許文献2には、移動体の移動軌跡データに対して状態を割り当てることで状態遷移モデルを学習し、学習した状態遷移モデルを用いて移動軌跡データの行動を判定する技術が記載されている。
 また、特許文献3には、追跡対象物を含む画像領域に含まれる観測ノイズの影響を抑制しながら、実空間において追跡対象物を追跡する技術が記載されている。
特開2012-128877号公報 特開2009-157770号公報 国際公開第2014/083910号
 しかしながら、上記特許文献1に記載された技術を用いた場合、人物行動の認識精度が低いという問題が生ずる。その理由は、一般にカメラ映像を用いて推定される人物の移動軌跡には推定誤差が含まれ、この推定誤差によって行動認識の誤りが引き起こされるからである。一例として、まっすぐに歩いている「通常歩行」と、ふらふらと蛇行して歩いている「ふらつき歩行」とを、移動軌跡を用いて分類することを想定する。カメラ画像を用いて推定した移動軌跡には推定誤差(揺らぎ)が含まれることから、通常歩行であっても、揺らぎを含む移動軌跡が推定される。このような揺らぎを含む移動軌跡を入力して、歩行態様を分類する場合、通常歩行がふらつき歩行と誤認識(誤判定)されてしまう可能性がある。
 また、特許文献2に記載された技術を用いた場合、生成された特徴量には、推定誤差が含まれる可能性がある。このため、例えば、「ふらつき歩行」の特徴量と、「通常歩行」の特徴量とが同じクラスタに分類される可能性がある。なお、特許文献3に記載された技術は、画像のノイズを除去する技術である。
 本開示に係る技術は、このような事情に鑑みて開発されたものである。即ち、本開示の目的の一つは、対象物(例えば人物等)の移動軌跡に基づいて、対象物の行動を高精度に認識可能な行動認識モデルを学習することができるモデル学習装置(行動認識モデル学習装置)等を提供することである。
 上記目的を達成すべく、本開示の一態様に係るモデル学習装置は、以下のように構成される。即ち、本開示の一態様に係るモデル学習装置は、対象物の行動を表す情報である行動ラベルが付与された、対象物の移動軌跡を表すデータである行動学習用移動軌跡データに対して誤差を付加することで、誤差付き移動軌跡データを生成する誤差付き移動軌跡生成部と、少なくとも、誤差付き移動軌跡データと、行動ラベルとに基づいて作成した学習データを用いて、ある対象物の移動軌跡から、その対象物の行動を認識可能なモデルを学習する行動認識モデル学習部と、を備える。
 本開示の他の一態様に係るモデル学習方法は、対象物の行動を表す情報である行動ラベルが付与された、対象物の移動軌跡を表すデータである行動学習用移動軌跡データに対して誤差を付加することで、誤差付き移動軌跡データを生成し、少なくとも、誤差付き移動軌跡データと、行動ラベルとに基づいて作成した学習データを用いて、ある対象物の移動軌跡から、その対象物の行動を認識可能なモデルを学習することを含む。
 また、同目的は、上記構成を有するモデル学習装置、モデル学習方法等をコンピュータによって実現するコンピュータ・プログラム(モデル学習プログラム)、及び、そのコンピュータ・プログラムが格納されているコンピュータ読み取り可能な記録媒体等によっても達成される。
 即ち、本開示のさらに他の一態様に係るコンピュータ・プログラムは対象物の行動を表す情報である行動ラベルが付与された、対象物の移動軌跡を表すデータである行動学習用移動軌跡データに対して誤差を付加することで、誤差付き移動軌跡データを生成する処理と、少なくとも、誤差付き移動軌跡データと、行動ラベルとに基づいて作成した学習データを用いて、ある対象物の移動軌跡から、その対象物の行動を認識可能なモデルを学習する処理と、をコンピュータに実行させる。また、本開示のさらに他の一態様に係る記録媒体には、上記したコンピュータ・プログラムが記録されてもよい。
 本開示によれば、対象物の移動軌跡に基づいて、対象物の行動を高精度に認識可能な行動認識モデルを学習することができる。
図1Aは、本開示の第1実施形態に係る行動認識モデル学習装置の機能的な構成を例示するブロック図である。 図1Bは、本開示の第1実施形態に係る行動認識モデル学習装置の機能的な構成を例示するブロック図である。 図1Cは、本開示の第2及び第3実施形態に係る行動認識モデル学習装置の機能的な構成を例示するブロック図である。 図2は、本開示の第2実施形態に係る誤差付き移動軌跡生成部の機能的な構成を例示するブロック図である。 図3は、行動学習用移動軌跡データの具体例を示す図である。 図4は、本開示の第2実施形態に係る第一の座標変換部の処理内容を説明する図である。 図5は、本開示の第2実施形態に係る第一の座標変換部の処理内容を説明する図である。 図6は、本開示の第2実施形態に係る第一の誤差付加部の処理内容を説明する図である。 図7は、本開示の第2実施形態に係る第二の座標変換部の処理内容を説明する図である。 図8は、本開示の第2実施形態に係る行動認識モデル学習装置の処理手順の一例を示すフローチャートである。 図9は、本開示の第2実施形態に係る行動認識モデル学習装置の効果を説明する図である。 図10は、本開示の第3実施形態に係る誤差付き移動軌跡生成部の機能的な構成を例示するブロック図である。 図11は、誤差学習用カメラ画像データ、及び、画像データに対応する正解移動軌跡データの具体例を示す図である。 図12は、本開示の第3実施形態に係る誤差生成モデルの具体例を示す図である。 図13は、複数の人物が重なったときに発生する移動軌跡の推定誤差の特徴を説明する図である。 図14は、本開示の第3実施形態に係る行動認識モデル学習装置の処理手順の一例を示すフローチャートである。 図15は、本開示に係る行動認識モデル学習装置を実現可能なハードウェア構成の一例を示す説明図である。
 以下、本開示に係る技術を実施するための形態について、図面を参照して説明する。以下の実施の形態に記載されている、構成、数値、処理の流れ、機能要素などは一例に過ぎず、本開示の技術範囲は以下の記載に限定されるものではない。以下の各実施形態を構成する構成要素の分割(例えば、機能的な単位による分割)は、その実施形態を実現可能な一例である。各実施形態を実現可能な構成は、以下の例示に限定されず、様々な構成が想定され得る。以下の各実施形態を構成する構成要素は、さらに分割されてもよく、また、以下の各実施形態を構成する1以上の構成要素が統合されてもよい。また、以下においては、静止画像、動画像(映像)をまとめて「画像」と記載する。
 <第1実施形態> 
 本開示に係る技術の第1実施形態としての行動認識モデル学習装置10(モデル学習装置)について、図1A、図1Bを用いて説明する。本実施形態における行動認識モデル学習装置10は、対象物の行動の認識に用いられるモデルである行動認識モデルを学習する装置である。本開示に係る技術において、対象物は特に限定されない。対象物として、例えば、人物(人間)、動物、各種移動機器(自動車、列車、航空機、船舶等)等が含まれてよい。以下においては、説明の便宜上、対象物が人間(人物)である場合を具体例として説明するが、本実施形態はこれに限定されるものではない(以下の各実施形態において同様である)。
 図1Aに示すように、行動認識モデル学習装置10は、誤差付き移動軌跡生成部11(誤差付き移動軌跡生成手段)と、行動認識モデル学習部13(行動認識モデル学習手段)とを備える。なお、図1Bに例示するように、行動認識モデル学習装置10は、特徴抽出部12(特徴抽出手段)をさらに備えるよう構成されてよい。
 誤差付き移動軌跡生成部11は、行動ラベルが付与された行動学習用移動軌跡データに対して、画像を用いて移動軌跡を自動推定する際に発生し得る推定誤差を付加することで、誤差付き移動軌跡データを生成する。行動学習用移動軌跡データは、対象物(例えば、人物)の移動軌跡を表すデータである。
 ここで、行動ラベルは、対象物(例えば、人物等)の行動を表す情報である。例えば、対象物として人物を想定する場合、ある人物の行動について、「通常歩行」や、「ふらつき歩行」等が、行動ラベルとして行動学習用移動軌跡データに付与されてよい。画像は、例えば、カメラなどの撮影装置により撮影された画像(動画像及び静止画像の少なくとも一方)であってよい。以下、説明の便宜上、誤差付き移動軌跡生成部11は、カメラにより撮影された画像(カメラ画像)を用いて移動軌跡を自動推定する際に発生し得る推定誤差を、行動学習用移動軌跡データに付加することを想定する(以下の各実施形態において同様である。)。自動推定は、例えば、適切な装置(例えばコンピュータ装置等)等を用いて、カメラ等により撮影した画像に基づいて、対象物の移動軌跡を推定する技術を含んでよい。係る技術の一例として、例えば、下記参考文献(特開2014-238674号公報)に記載された技術を採用してもよいが、本実施形態はこれに限定されず、他の技術を採用してもよい。
 (参考文献)特開2014-238674号公報
 行動認識モデル学習部13は、少なくとも、行動学習用移動軌跡データと行動ラベルとに基づいて作成された学習データを用いて、対象物の移動軌跡に基づいて対象物の行動を認識するモデル(行動認識モデル)を学習する。
 なお、行動認識モデル学習装置10が特徴抽出部12を含む場合、特徴抽出部12は、誤差付き移動軌跡データから、対象物(例えば人物)の行動の認識に用いられる特徴量を抽出(作成)する。この場合、行動認識モデル学習部13は、特徴抽出部12が抽出した特徴量、及び、行動ラベルを用いて、対象物の移動軌跡に基づいて対象物の行動を認識するモデルを学習してもよい。
 本実施形態における行動認識モデル学習装置10によれば、画像を用いて推定した対象物の移動軌跡に基づいて、対象物の行動を高精度に認識可能な行動認識モデルを学習することができる。その理由は、行動認識モデル学習装置10は、行動学習用移動軌跡データ(学習データ)に対して、推定誤差を付加することで、誤差付き移動軌跡データを生成し、その誤差付き移動軌跡データを用いて行動認識モデルの学習処理を実行するからである。これにより、行動認識モデル学習装置10は、画像を用いて移動軌跡を推定する際に発生する推定誤差を含めて、行動認識モデルの学習することが可能である。従って、行動認識モデル学習装置10は、対象物の行動をより高精度に認識可能な行動認識モデルを学習することができる。
 <第2実施形態> 
 以下、本開示の第2実施形態に係る行動認識モデル学習装置について、図1Cから図9を用いて説明する。
 図1C及び図2は、本実施形態に係る行動認識モデル学習装置100の機能的な構成を例示するブロック図である。
 行動認識モデル学習装置100は、図1Cに例示するように、誤差付き移動軌跡生成部110と、特徴抽出部120と、行動認識モデル学習部130とを備えるよう構成されてよい。誤差付き移動軌跡生成部110は、図2に例示するように、第一の座標変換部111(第一の座標変換手段)と、第一の誤差付加部112(第一の誤差付加手段)と、第二の座標変換部113(第二の座標変換手段)とを有するよう構成されてよい。
 本実施形態における誤差付き移動軌跡生成部110は、第1実施形態における誤差付き移動軌跡生成部11と同様の機能を実現可能に構成されてよい。また、特徴抽出部120は、第1実施形態における特徴抽出部12と同様の機能を実現可能に構成されてよい。また、行動認識モデル学習部130は、第1実施形態における行動認識モデル学習部13と同様の機能を実現可能に構成されてよい。以下、行動認識モデル学習装置100を構成するこれらの各構成要素について説明する。
 誤差付き移動軌跡生成部110は、行動学習用移動軌跡データを取得し、カメラ画像を用いた移動軌跡の自動推定において発生し得る推定誤差を付加することで、誤差付き移動軌跡データを生成する。誤差付き移動軌跡生成部110は、第一の座標変換部111と、第一の誤差付加部112と、第二の座標変換部113とを有する。
 行動学習用移動軌跡データは、行動内容を表す情報(以下、行動ラベル)が付与されたデータであって、人物の正しい位置を表す時系列データである。本実施形態においては、行動学習用移動軌跡データが表す人物位置は、実空間における人物の位置を表す。
 図3に、行動学習用移動軌跡データの一例を示す。図3に例示するように、行動学習用移動軌跡データには、1以上の移動軌跡データ((a)から(f))が含まれてよい。以下、行動学習用移動軌跡データに含まれる移動軌跡データを、単に移動軌跡データ又は移動軌跡と記載することがある。
 図3において、(a)、(b)、(c)の移動軌跡には行動ラベルとして「通常歩行」が付与されており、(d)、(e)、(f)の移動軌跡には行動ラベルとして「ふらつき歩行」が付与されている。「通常歩行」の行動ラベルが付与された移動軌跡((a)、(b)、(c))は、比較的軌跡の揺らぎが少ない。「ふらつき歩行」の行動ラベルが付与された移動軌跡((d)、(e)、(f))は、比較的軌跡の揺らぎが多い。
 行動学習用移動軌跡データを得るには、例えば、人物を撮影したカメラ画像データに対して、カメラ画像内の人物の足元位置を人手でラベル付けし、カメラ画像内の位置を実空間内の位置へと座標変換すればよい。この座標変換は、カメラの設置位置、設置角度、レンズ特性などを表すカメラパラメータを用いることで計算可能である。ただし、行動学習用移動軌跡データを得る方法はこれに限られるものではなく、例えば、レーザー測位や地面に設置した感圧センサなど、実空間における人物の位置を正確に測定できる他の方法を用いてもよい。
 行動学習用移動軌跡データの作成者は、例えば、予め人物の行動を撮影したカメラ撮影データを複数用意し、それぞれのカメラ撮影データに対して、上記のような方法でラベルを付して座標変換することで、行動学習用移動軌跡データに含まれる行動軌跡データを作成することができる。行動学習用移動軌跡データは、例えば、行動認識モデル学習装置100に記憶されてもよい。また、行動学習用移動軌跡データは、例えば、行動認識モデル学習装置100とは異なる装置に記憶されてもよく、各種通信回線や記録媒体等を介して、行動認識モデル学習装置100に適宜提供されてもよい。
 第一の座標変換部111は、行動学習用移動軌跡データを、カメラ画像における移動軌跡を表すデータへと変換し、出力する。以下の説明では、実空間における位置を表すための座標系を「世界座標系」、カメラ画像における位置を表すための座標系を「カメラ画像座標系」と表記する。
 図4は、図3の(a)に例示する行動学習用移動軌跡データを、世界座標系に配置した状態を模式的に示す説明図である。このとき、仮想的なカメラも世界座標系に配置されるが、カメラの設置位置及び設置角度は適宜に選択されてよい。例えば、カメラの設置場所に非依存な行動認識モデルを学習する場合には、(仮想的な)カメラは、ランダムな場所に配置されてもよい。
 図4に例示される座標軸は、適宜選択可能である。係る座標軸は、例えば、2次元又は3次元の絶対座標を表す座標軸であってもよく、極座標を表す座標軸であってもよい。また、移動軌跡データは、世界座標系において2次元データとして配置されてもよく、3次元データとして配置されてもよい。
 図5は、第一の座標変換部111による座標変換の処理内容を模式的に示す説明図である。第一の座標変換部111は、世界座標系に配置された移動軌跡を、仮想的なカメラのカメラ画像座標系における移動軌跡のデータへと変換する。この変換は、仮想的なカメラの設置位置、設置角度、レンズ特性などを表すカメラパラメータを用いて計算できる。
 第一の誤差付加部112は、第一の座標変換部111が出力する移動軌跡のデータに、カメラ画像内の人物位置を自動推定する際に発生し得る推定誤差を付加したデータを出力する。第一の誤差付加部112は、例えば、カメラ画像座標系における移動軌跡上の1以上の点に対して、事前に定めた特定の大きさの分散を持つガウスノイズを加える。この処理は、カメラ画像内の人物位置を推定する際に発生する、ランダムな推定誤差を模擬することに相当する。加えるガウスノイズの分散は、カメラと人物との距離に応じて変化させてもよい。また、本実施形態において移動軌跡のデータに加えられるノイズは、ガウスノイズに限定されず、それ以外のノイズが適宜加えられてもよい。
 図6は、第一の誤差付加部112による誤差付加の処理内容を模式的に示す説明図である。第一の誤差付加部112により移動軌跡に誤差が付加されることで、カメラ座標系における移動軌跡に微小な揺らぎが加えられている。
 第二の座標変換部113は、第一の誤差付加部112が出力する移動軌跡のデータを、実空間における移動軌跡を表すデータへと変換することで、誤差付き移動軌跡データを生成し、そのデータを出力する。
 図7は、第二の座標変換部113による座標変換の処理内容を模式的に示す説明図である。第二の座標変換部113は、第一の誤差付加部112により生成されたデータであって、カメラ画像内の人物位置の自動推定において発生する誤差を反映したカメラ座標系のデータから、世界座標系における誤差付き移動軌跡データを生成する。
 特徴抽出部120は、第二の座標変換部113が出力する世界座標系における誤差付き移動軌跡データから、人物の行動を認識する際に用いられる特徴量を抽出する。特徴量としては、例えば、移動軌跡を微分することで得られる速度ベクトル、加速度ベクトルや、それらの時間方向の移動平均などの時系列特徴量が用いられてもよい。これらの特徴量は、人物の行動を認識する用途において有用であることが知られている。なお、特徴量は上記に限定されず、時系列データを表す他の特徴量が採用されてもよい。
 行動認識モデル学習部130は、特徴抽出部120が出力する特徴量、及び、行動学習用移動軌跡データに付与された行動ラベル(具体的には、行動学習用移動軌跡データに含まれる移動軌跡に付与された行動ラベル)を用いて、人物の移動軌跡に基づいて人物行動を認識する行動認識モデルを学習する。行動認識モデル学習部130は、学習されたモデルを出力してもよい。
 行動認識モデルとしては、例えばリカレント型のニューラルネットワーク(RNN:Recurrent Neural Network)が用いられてもよい。ニューラルネットワークは、例えば、時系列特徴量を入力とした分類問題において用いられる。ただし、行動認識モデルはニューラルネットワークに限定されない。例えば、時系列特徴量に対して時間方向の平均、分散、最大値などの統計量を計算することで特徴量の次元数を定めたうえで、行動認識モデルとして、サポートベクトルマシンなどのパターン認識の分野で用いられる各種の識別器が用いられてもよい。
 なお、行動認識モデル学習部130は、学習する行動認識モデルの種類に応じて、周知技術を含む適切な学習アルゴリズムを適宜選択可能である。行動認識モデル学習部130は、例えば、RNN、サポートベクトルマシン等のモデルを学習する学習アルゴリズムとして、本技術分野において一般的に用いられる学習アルゴリズムを採用してもよい。
 図8は、本実施形態に係る行動認識モデル学習装置100の動作の一例を示すフローチャートである。
 行動認識モデル学習装置100は、行動学習用移動軌跡データから移動軌跡を取得し、世界座標系に配置する(ステップS201)。上記したように、この際、誤差付き移動軌跡生成部110が、与えられた行動学習用移動軌跡データから移動軌跡を読み込んで、世界座標系に配置してもよい。
 行動認識モデル学習装置100は、世界座標系に配置された移動軌跡を、仮想的なカメラのカメラ画像座標系における移動軌跡へと変換する(ステップS202)。上記したように、この際、誤差付き移動軌跡生成部110(第一の座標変換部111)が、行動学習用移動軌跡データから取得した移動軌跡を、カメラ画像座標系における移動軌跡を表すデータへと変換してもよい。
 行動認識モデル学習装置100は、カメラ画像座標系において、カメラ画像内の人物位置の自動推定において発生し得る推定誤差を移動軌跡に付加する(ステップS203)。上記したように、この際、誤差付き移動軌跡生成部110(第一の誤差付加部112)が、カメラ画像座標系における移動軌跡を表すデータに、推定誤差(例えば、ガウスノイズ)を付加してもよい。
 行動認識モデル学習装置100は、推定誤差が付加されたカメラ画像座標系における移動軌跡を、世界座標系における移動軌跡へと変換し、誤差付き移動軌跡データとして出力する(ステップS204)。
 行動認識モデル学習装置100は、誤差付き移動軌跡データから、人物行動の認識に用いられる特徴量を抽出する(ステップS205)。上記したように、この際、特徴抽出部120が、誤差付き移動軌跡データから、特徴量を作成してもよい。
 行動認識モデル学習装置100は、行動学習用移動軌跡データから取得した移動軌跡に対して、ステップS202からステップS205までの処理を、所定回数実行したか否かを判定する(ステップS206)。
 これらの処理が所定回数実行されていない場合は(ステップS206においてNO)、同じ移動軌跡に対して、上述したステップS202からステップS205までの処理を再び実行する。この際、第一の誤差付加部112は、例えば、移動軌跡データに対して付加する推定誤差を確率的に変動させてもよい。これにより、第一の誤差付加部112は、得られる誤差付き移動軌跡データ及びその特徴量が毎回変化するよう制御することができる。この際、第一の誤差付加部112は、例えば、毎回確率的にガウスノイズを生成して、移動軌跡データに対して付加してもよい。
 この繰り返し処理によって、第一の誤差付加部112は、様々な推定誤差を持つ移動軌跡を生成することができる。即ち、第一の誤差付加部112は、例えば、一つの移動軌跡データから、複数のパターンの学習データ(推定誤差が付加された移動軌跡データ)を生成することができる。
 これにより、行動認識モデル学習装置100は、様々な推定誤差を想定した学習データを用いて、後述する行動認識モデルを学習することがきる。このため、行動認識モデル学習装置100は、移動軌跡の推定誤差に対してより頑健な行動認識モデルを学習することができる。
 ステップS206においてYESの場合、行動認識モデル学習装置100は、行動学習用移動軌跡データに含まれるすべての移動軌跡に対してステップS201からステップS206の処理が完了したか否かを判定する(ステップS207)。
 未処理の移動軌跡が残っている場合は(ステップS207においてNO)、未処理の移動軌跡に対して上述したステップS201からステップS206までの処理を実行する。
 ステップS207においてYESの場合、行動認識モデル学習装置100は、行動学習用移動軌跡データに含まれるすべての移動軌跡に対して様々な推定誤差を付加した移動軌跡から抽出した特徴量と、各移動軌跡に付与された行動ラベルとを学習データとして用いて、人物の移動軌跡に基づいて人物行動を認識する行動認識モデルを学習する(ステップS208)。この際、行動認識モデル学習部130が、上記のように作成された特徴量を用いて、行動認識モデル(例えば、RNNモデル)を学習してもよい。なお、行動認識モデル学習部130は、学習された行動認識モデルを出力してもよい。
 本実施形態では、上述した構成によって、カメラ画像を用いて推定した人物の移動軌跡に基づいて、人物の行動を高精度に認識可能な行動認識モデルを学習することができる。その理由は、本実施形態の行動認識モデル学習装置100は、カメラ画像を用いて推定される人物の移動軌跡に含まれる推定誤差を考慮して移動軌跡データを生成し、生成した誤差付きの移動軌跡データを学習データとして用いることで、行動認識モデルを学習するからである。
 カメラ画像を用いて人物の移動軌跡を推定する場合、カメラ画像内で人物位置を特定する際に、移動軌跡の推定誤差が発生する。即ち、カメラ画像から推定した人物の移動軌跡には、推定誤差が含まれている。このため、その移動軌跡を入力データとして用いて行動を認識する場合、入力データ(移動軌跡)に含まれる推定誤差が、認識精度に影響する。
 本実施形態における行動認識モデル学習装置100は、人物の移動軌跡を世界座標系からカメラ画像座標系に変換してから、その移動軌跡に推定誤差を付加する。これにより、行動認識モデル学習装置100は、カメラ画像内で人物位置を特定する際に発生する誤差の特徴を直接的に模擬した誤差を、移動軌跡に付加することができる。従って、行動認識モデル学習装置100は、移動軌跡の推定誤差を適切に再現した学習データ(移動軌跡データ)を用いて行動認識モデルを学習することが可能となる。この結果、行動認識モデル学習装置100は、高精度な行動認識モデル(即ち、高い精度で行動を判定可能な行動認識モデル)を学習することができる。
 本実施形態により実現される効果を、図9を参照して具体的に説明する。図9上段(図9の901)は、「通常歩行」または「ふらつき歩行」を行っている人物の世界座標系における正しい(正確な)移動軌跡を示している。しかし、これらの移動軌跡を描いた移動体(人物)を撮影したカメラ画像から、その移動体の移動軌跡を自動推定すると、図9下段(図9の902)のような推定誤差を含む移動軌跡が得られる。
 ここで、例えば、図9上段に例示するような正しい移動軌跡のみを学習データとして用いて学習した行動認識モデルを用いて、カメラ画像から自動推定した移動軌跡を認識することを想定する。この場合、学習された行動認識モデルは、揺らぎを含まないような移動軌跡については、その移動軌跡が示す行動を比較的正確に認識(判定)することができる。一方、このような学習データを用いて学習された行動認識モデルに対して、推定誤差を含む移動軌跡が与えられた場合、行動の認識精度が低下する可能性がある。
 これに対して、本実施形態の行動認識モデル学習装置100は、図9上段の正しい移動軌跡から、図9下段の自動推定した移動軌跡を模擬した移動軌跡を生成し、その生成した移動軌跡(即ち、推定誤差を模擬した移動軌跡)を学習データとして用いる。このため、本実施形態の行動認識モデル学習装置100は、行動を高精度に認識可能なモデルを学習することができる。
 <第3実施形態>
 以下、本開示の第3実施形態に係る行動認識モデル学習装置について、図10から図14を参照して説明する。
 本実施形態に係る行動認識モデル学習装置100は、上記第2実施形態に対して、誤差付き移動軌跡生成部110の処理内容が異なる。その他の構成及び動作は、第2実施形態と同様としてよい。
 図10は、本実施形態に係る誤差付き移動軌跡生成部110の機能的な構成を説明するブロック図である。本実施形態に係る誤差付き移動軌跡生成部110は、移動軌跡推定部114と、推定誤差計算部115と、誤差生成モデル学習部116と、第二の誤差付加部117とを有する。以下、これらの構成要素について説明する。
 移動軌跡推定部114は、誤差学習用カメラ画像データ(後述)を用いて、画像内の人物の移動軌跡を自動推定する。移動軌跡の自動推定手法として、移動軌跡推定部114は、例えば、カメラ画像内における人物領域を検出し、検出した人物領域に基づいて人物の足元位置を推定する。次に、移動軌跡推定部114は、カメラの設置位置、設置角度、レンズ特性などを表すカメラパラメータを用いて、カメラ画像内における足元位置を、実空間内における足元位置に変換することで、実空間における人物の移動軌跡を推定する。なお、移動軌跡推定部114が用いる移動軌跡の自動推定手法は、行動認識モデル学習装置100により学習された行動認識モデルを実際に適用して人物の行動を認識(判定)する場面において人物の移動軌跡を推定する際に用いられる自動推定手法と同一であることが望ましい。即ち、移動軌跡推定部114が用いる移動軌跡の自動推定手法は、人物の行動を認識する際に、学習済みの行動認識モデルに入力される移動軌跡データを生成する自動推定手法と同一の手法であってよい。
 誤差学習用カメラ画像データは、多数の人物が行き交う様子をカメラなどの撮影装置を用いて撮影した画像データである。誤差学習用カメラ画像データ内の各人物に対しては、各人物の正しい移動軌跡を表す正解移動軌跡データが付与されている。
 正解移動軌跡データを得るためには、データの作成者は、例えば、誤差学習用カメラ画像データに対して、カメラ画像内の人物の足元位置を人手でラベル付けし、カメラ画像内の位置を実空間内の位置へと座標変換すればよい。この座標変換は、カメラの設置位置、設置角度、レンズ特性などを表すカメラパラメータを用いることで計算可能である。ただし、正解移動軌跡データを得る方法はこれに限られず、例えば、レーザー測位や地面に設置した感圧センサなど、実空間における人物位置を正確に測定できる他の方法を用いてもよい。
 なお、誤差学習用カメラ画像データ及び正解移動軌跡データは、行動認識モデル学習装置100に対して通信ネットワークや記録媒体等を介して適宜提供されてもよく、行動認識モデル学習装置100に蓄積(記憶)されてもよい。
 なお、誤差学習用カメラ画像データは、行動認識モデルを実際に適用する際(即ち、学習済みの行動認識モデルを用いて、行動を認識(判定)する際)に用いられる画像データが撮影される条件と近い条件で撮影された画像データであることが望ましい。例えば、行動認識モデルを実際に適用する画像データが撮影される場面が、多数の人物で混雑している環境なのであれば、誤差学習用カメラ画像データも多数の人物で混雑している環境で撮影された画像データであることが望ましい。係る画像データの撮影条件として、例えば、撮影される対象物(人物等)の数、移動スピード、撮影時間、撮影場所、環境光の状況、背景、等が考慮されてもよい。
 なお、行動学習用移動軌跡データと、正解移動軌跡データとは、異なるデータであってよい。第2実施形態において述べたとおり、行動学習用移動軌跡データには、行動ラベルが付与されており、行動認識モデルを学習する際に用いられる。一方、正解移動軌跡データは、誤差学習用カメラ画像データに付随するデータである。正解移動軌跡データは、後述するとおり、画像データから移動軌跡を自動推定するときに発生する推定誤差の生成モデルを学習する際に用いられるデータである。従って、正解移動軌跡データには、行動ラベルが付与されていなくともよい。
 図11は、誤差学習用カメラ画像データ、及び、それに付随する正解移動軌跡データの一例を示す説明図である。図11左側(図11の1101)は、人物(a)、(b)、(c)、(d)、(e)、(f)が行き交う画像データを例示しており、図11右側(図11の1102)は、各人物の世界座標系における正しい移動軌跡データである。この場合、各人の正しい移動軌跡データは、人手により付与されてもよい。
 推定誤差計算部115は、誤差学習用カメラ画像データに撮影された人物に関する正解移動軌跡データと、移動軌跡推定部114により自動推定された当該人物の移動軌跡データとの差分を推定誤差として計算する。例えば、ある人物に関する長さTフレームの正解の移動軌跡データが(x1、y1)、(x2、y2)、・・・、(xt、yt)、・・・、(xT、yT)であることを想定する。また、同じ移動軌跡に対して自動推定された移動軌跡データが(x1’、y1’)、(x2’、y2’)、・・・、(xt’、yt’)、・・・、(xT’、yT’)であることを想定する。この場合、推定誤差計算部115が計算する推定誤差(推定誤差ベクトル)の時系列データは、(e1、e2、・・・、et、・・・、eT)=((x1’-x1、y1’-y1)、(x2’-x2、y2’-y2)、・・・、(xt’-xt、yt’-yt)、・・・、(xT’-xT、yT’-yT))と算出される。ここで、フレーム数Tは、適宜選択されてよい。また、1フレームの時間的な長さも、適宜選択されてよい。
 誤差生成モデル学習部116は、推定誤差計算部115が計算した推定誤差の時系列データを学習データとして用いて、推定誤差の時系列データを生成可能な誤差生成モデルを学習する。誤差生成モデルとしては、例えば、推定誤差の時系列データを確率的に出力するエルゴディックHMM(Hidden Markov Model)を用いることができる。
 エルゴディックHMMは、時刻の経過とともに状態遷移確率”a_ij”に従って状態間を自由に遷移できる誤差生成モデルである。エルゴディックHMMは、各時刻において、滞在する状態”i”に固有の出力確率分布”f(e|λi)”に従って推定誤差を出力する。出力確率分布としては、例えば、多次元正規分布を用いることができる。
 図12は、2状態のエルゴディックHMMの例を示す説明図である。エルゴディックHMMのパラメータとして、状態遷移確率及び出力確率分布のパラメータは、推定誤差計算部115が計算した推定誤差の時系列データを学習データとして、Baum-Wlch法などの既存の手法を用いて学習されうる。
 図13を用いて、誤差生成モデルとしてエルゴディックHMMを用いる効果を説明する。カメラ画像を用いて、人物の移動軌跡を自動推定する際、カメラ画像において複数の人物が重なったときに大きな推定誤差が発生しやすい。図13左側(図13の1301)に例示するカメラ画像が「重なり無し」の例は、一人の人物が単独でカメラ画像に写っている例である。破線で示される矩形領域は、推定された人物領域(人物が撮影されていると推定された領域)を表す。また、”X”印は、推定された人物の足元位置(人物の足元であると推定された位置)を表す。画像中の人物が重なっていない場合、人物位置は概ね正しく推定され、移動軌跡の推定誤差は、分散が小さく等方的な正規分布に近くなる。
 一方、図13右側(図13の1302)に例示するカメラ画像が「重なり有り」の例は、二人の人物が重なってカメラ画像に写されている例である。この場合、手前の人物(図13の1302a)の影響により、奥の人物(図13の1302b)の人物領域が図面下方向に広くなるように誤検出されている。その結果として、推定された足元位置も比較的大きな誤差を含んでいる。このように、人物が重なった場合、人物位置の推定誤差が大きくなる傾向にある。さらに、カメラと人物とを結ぶ直線方向の推定誤差が大きくなる性質がある。
 以上より、カメラ画像を用いて人物の移動軌跡を推定する際の推定誤差の性質は、単独の人物がカメラに写っている場合と、複数の人物が重なって写っている場合とで異なることが分かる。さらに、単独の人物がカメラに写っている状態と、複数の人物が重なってカメラに写っている状態は、それぞれの状態を保ったままで、ある程度の時間が継続したり、交互に入れ替わったりする(状態が遷移したりする)可能性もあると考えられる。
 エルゴディックHMMは、移動軌跡の推定誤差が持つこのような特徴(性質)を表現することができる。このため、エルゴディックHMMを用いることで、推定誤差を高い精度でモデル化した生成モデル(換言すると、高い精度で推定誤差を生成可能な生成モデル)を学習できる。人物の重なり有無を表現するためには、例えば、図12に示す2状態のエルゴディックHMMを用いればよい。状態s1,s2のそれぞれが、「人物が重なっていない状態」及び「人物が重なっている状態」のいずれかを表すように学習が進むと期待される。なお、移動軌跡の推定誤差の傾向が大きく変わる他の要因が存在する場合は、さらに状態数を増やしたエルゴディックHMMを用いてもよい。
 第二の誤差付加部117は、行動学習用移動軌跡データに対して、誤差生成モデルが生成する推定誤差を付加することで、誤差付き移動軌跡データを生成し出力する。具体的には、第二の誤差付加部117は、例えば、行動学習用移動軌跡データ内の移動軌跡データに対して、誤差生成モデルを用いて移動軌跡データと同じ長さの推定誤差の時系列データを生成する。第二の誤差付加部117は、生成した推定誤差を、移動軌跡データに付加することで、誤差付き移動軌跡データを生成する。
 即ち、上記第1の実施形態における誤差付き移動軌跡生成部110(第一の誤差付加部112)は、行動学習用移動軌跡データに対して、ある特定の大きさの分散を持つガウスノイズを加えることで、誤差付き移動軌跡データを生成する。これに対し、本実施形態における第二の誤差付加部117は、行動学習用移動軌跡データに対して、誤差生成モデルが生成する推定誤差を付加することで、誤差付き移動軌跡データを生成する。これにより、本実施形態における第二の誤差付加部117は、より高い精度で推定誤差を模擬した誤差付き移動軌跡データを生成することができる。
 以下、本実施形態に係る行動認識モデル学習装置100の動作について説明する。図14は、本実施形態に係る行動認識モデル学習装置100の動作(処理手順)の一例を示すフローチャートである。
 行動認識モデル学習装置100は、誤差学習用カメラ画像データ内の人物の移動軌跡を自動推定する(ステップS301)。この際、移動軌跡推定部114が、誤差学習用カメラ画像データを用いて、画像内の人物の移動軌跡を自動推定してよい。また、上記したように、移動軌跡を自動推定する手法は、学習済みの行動認識モデルを用いて人物の行動を認識する段階で、行動認識モデルに入力される移動軌跡データを生成する際に用いられる自動推定の手法と同一の手法であってよい。
 行動認識モデル学習装置100は、誤差学習用カメラ画像データ内の人物の正解移動軌跡データと、ステップS301において自動推定された当該人物の移動軌跡データとの差分を、推定誤差として計算する(ステップS302)。誤差学習用カメラ画像データ内の人物の正解移動軌跡データとは、誤差学習用カメラ画像データ内の人物の移動軌跡を正確に表したデータである。ステップS302の処理について、より詳細には、推定誤差計算部115が、係る推定誤差を計算する処理を実行してよい。上記したように、推定誤差計算部115により生成された推定誤差の時系列データは、誤差生成モデルを学習するための学習データとして用いられる。
 行動認識モデル学習装置100は、移動軌跡の推定誤差の時系列を生成する誤差生成モデルを学習する(ステップS303)。より詳細には、誤差生成モデル学習部116が、誤差生成モデルを学習する処理を実行してよい。係る処理により、行動認識モデル学習装置100は、行動学習用移動軌跡データに付加される推定誤差を精度よく生成可能な誤差生成モデルを学習することができる。
 行動認識モデル学習装置100は、行動学習用移動軌跡データから移動軌跡を取得する(ステップS304)。
 行動認識モデル学習装置100は、行動学習用移動軌跡データから取得した移動軌跡に、誤差生成モデルが生成する推定誤差を付加することで、誤差付き移動軌跡データを生成し出力する(ステップS305)。より詳細には、第二の誤差付加部117が、上記処理を実行してよい。
 行動認識モデル学習装置100は、ステップS305において生成された誤差付き移動軌跡データから、人物行動を認識するための特徴量を抽出する(ステップS306)。係る処理は、第1実施形態におけるステップS205と同様としてもよい。
 行動認識モデル学習装置100は、行動学習用移動軌跡データから取得した移動軌跡に対して、ステップS305からステップS306までの処理を、所定回数だけ実行したか否かを判定する(ステップS307)。
 所定回数に達していない場合は(ステップS307においてNO)、行動認識モデル学習装置100は、同じ移動軌跡に対して、上述したステップS305からステップS306までの処理を再び実行する。第二の誤差付加部117が付加する推定誤差は、確率的な生成モデル(誤差生成モデル)により生成されるため、得られる誤差付き移動軌跡データ及びその特徴量は、推定誤差を生成する度に毎回変化する。この繰り返し処理によって、行動認識モデル学習装置100は、様々な推定誤差が付加された異なる移動軌跡(誤差付き移動軌跡データ)を生成することができる。これより、行動認識モデル学習装置100は、そのような誤差付き移動軌跡データを用いて、移動軌跡の推定誤差に対してより頑健な行動認識モデルを学習することができる。
 ステップS307においてYESの場合、行動認識モデル学習装置100は、行動学習用移動軌跡データに含まれるすべての移動軌跡に対してステップS304からステップS307の処理が完了したか否かを判定する(ステップS308)。未処理の移動軌跡が残っている場合は(ステップS308においてNO)、行動認識モデル学習装置100は、未処理の移動軌跡に対して上述したステップS304からステップS307までの処理を実行する。
 ステップS308においてYESの場合、行動認識モデル学習装置100は、行動学習用移動軌跡データに含まれるすべての移動軌跡に対して様々な推定誤差を付加した移動軌跡から抽出した特徴量と、各移動軌跡に付与された行動ラベルとを用いて、行動認識モデルを学習する(ステップS309)。行動認識モデルは、人物の移動軌跡に基づいて人物行動を認識する。行動認識モデル学習装置100は、学習した行動認識モデルを出力してもよい。ステップS309における具体的な学習処理は、例えば、第2実施形態におけるステップS208(図8)と同様としてもよい。
 本実施形態における行動認識モデル学習装置100は、上述した処理構成によって、カメラ画像を用いて推定した人物の移動軌跡に基づいて、人物の行動を高精度に認識可能な行動認識モデルを学習することができる。その理由は、本実施形態の行動認識モデル学習装置100は、カメラ画像を用いて推定される人物の移動軌跡に含まれる推定誤差を考慮した移動軌跡データを生成し、生成した誤差付きの移動軌跡データを学習データとして行動認識モデルを学習するからである。
 本実施形態では、行動認識モデル学習装置100は、カメラ画像を用いて人物の移動軌跡を推定するときに発生する推定誤差のパターンを生成モデル(誤差生成)として学習する。行動認識モデル学習装置100は、学習した生成モデル(誤差生成モデル)を用いて生成した推定誤差を、行動学習用移動軌跡データに含まれる移動軌跡に不可することで、誤差付き移動軌跡データを生成する。
 これにより、行動認識モデル学習装置100は、カメラ画像から移動軌跡を推定する際に実際に発生し得る移動軌跡の推定誤差を正確に再現することが可能となる。従って、行動認識モデル学習装置100は、高精度な行動認識モデルを学習することができる。
 行動認識モデル学習装置100は、移動軌跡の誤差生成モデルとしてエルゴディックHMMを用いる。これにより、行動認識モデル学習装置100は、移動軌跡に関する推定誤差の性質の違いを反映したデータであり、より正確な誤差付き移動軌跡データを生成することが可能である。即ち、行動認識モデル学習装置100は、より高精度な行動認識モデルを学習することができる。なお、移動軌跡に関する推定誤差は、カメラ画像に含まれる人物の重なりの有無に起因する。
 上記においては、行動学習用移動軌跡データ及び正解移動軌跡データが、世界座標系における人物位置を表す場合の具体例を説明した。本実施形態においては、行動学習用移動軌跡データ及び正解移動軌跡データを、世界座標系におけるデータから、カメラ画像座標系における人物位置を表すデータに置き換えても、同様の処理が可能であり、同様の効果が得られる。その場合には、移動軌跡推定部114は、誤差学習用カメラ画像データ内の人物の移動軌跡を、カメラ画像における位置データとして自動推定し、出力する。
 <ハードウェア及びソフトウェア・プログラム(コンピュータ・プログラム)の構成> 以下、上記説明した各実施形態及び変形例を実現可能なハードウェア構成について説明する。以下の説明においては、上記各実施形態において説明した各行動認識モデル学習装置(10、100)を、まとめて「モデル学習装置」と記載する。
 上記各実施形態において説明した各モデル学習装置は、1つ又は複数の専用のハードウェア装置により構成されてもよい。その場合、上記各図(例えば、図1A-1C、図2、図10)に示した各構成要素は、一部又は全部を統合したハードウェア(処理ロジックを実装した集積回路等)として実現してもよい。
 例えば、モデル学習装置をハードウェアにより実現する場合、モデル学習装置の構成要素は、それぞれの機能を提供可能な集積回路(例えば、SoC(System on a Chip)等)として実装されてもよい。この場合、例えば、モデル学習装置の構成要素が有するデータは、SoCに統合されたRAM(Random Access Memory)領域やフラッシュメモリ領域に記憶されてもよい。
 また、この場合、モデル学習装置の構成要素を接続する通信回線としては、周知の通信バスを含む通信ネットワークが採用されてもよい。また、各構成要素を接続する通信回線は、それぞれの構成要素間をピアツーピアで接続してもよい。モデル学習装置を複数のハードウェア装置により構成する場合、それぞれのハードウェア装置の間は、適切な通信方法(有線、無線、またはそれらの組み合わせ)により通信可能に接続されていてもよい。
 例えば、モデル学習装置は、誤差付き移動軌跡生成部(11、110)、特徴抽出部(12、120)、行動認識モデル学習部(13、130)の機能を実現可能な処理回路(processing circuitry)、通信回路、及び記憶回路等を用いて実現されてよい。なお、モデル学習装置を実現する回路構成の実装においては、様々なバリエーションが想定される。
 また、上述したモデル学習装置は、図15に例示するような汎用のハードウェア装置1500と、ハードウェア装置1500によって実行される各種ソフトウェア・プログラム(コンピュータ・プログラム)とによって構成されてもよい。この場合、モデル学習装置は、1以上の適切な数のハードウェア装置1500及びソフトウェア・プログラムにより構成されたシステムとして実現されてもよい。
 図15におけるプロセッサ1501(プロセッサ)は、例えば、汎用のCPU(中央処理装置:Central Processing Unit)やマイクロプロセッサである。プロセッサ1501は、例えば、後述する不揮発性記憶装置1503に記憶された各種ソフトウェア・プログラムをメモリ1502に読み出し、そのソフトウェア・プログラムに従って処理を実行してもよい。この場合、上記各実施形態におけるモデル学習装置の構成要素は、例えば、プロセッサ1501により実行されるソフトウェア・プログラムとして実現可能である。
 上記各実施形態におけるモデル学習装置は、例えば、誤差付き移動軌跡生成部(11、110)、特徴抽出部(12、120)、行動認識モデル学習部(13、130)の機能を実現可能な1以上のプログラムにより実現されてよい。なお、係るプログラムの実装においては、様々なバリエーションが想定される。
 メモリ1502は、プロセッサ1501から参照可能な、メモリデバイス(例えば、RAM等)であり、ソフトウェア・プログラムや各種データ等を記憶する。なお、メモリ1502は、揮発性のメモリデバイスであってもよい。上記モデル学習装置において、行動認識モデル、誤差生成モデル、及び各種データ(行動学習用移動軌跡データ、誤差付き移動軌跡データ、推定誤差の時系列データ等)は、メモリ1502に読み込まれてもよい。
 不揮発性記憶装置1503は、例えば磁気ディスクドライブや、フラッシュメモリによる半導体記憶装置のような、不揮発性の記憶装置である。不揮発性記憶装置1503は、各種ソフトウェア・プログラムやデータ等を記憶可能である。上記モデル学習装置において、行動認識モデル、誤差生成モデル、及び各種データ(行動学習用移動軌跡データ、誤差付き移動軌跡データ、推定誤差の時系列データ等)は、不揮発性記憶装置1503に記憶されてもよい。
 ドライブ装置1504は、例えば、後述する記録媒体1505に対するデータの読み込みや書き込みを処理する装置である。モデル学習装置は、例えば、ドライブ装置1504を介して、後述する記録媒体1505に記録された各種データを読み込んでもよい。
 記録媒体1505は、例えば光ディスク、光磁気ディスク、半導体フラッシュメモリ等、データを記録可能な記録媒体である。本開示において、記録媒体の種類及び記録方法(フォーマット)は、特に限定されず、適宜選択されてよい。
 ネットワークインタフェース1506は、通信ネットワークに接続するインタフェース装置である。ネットワークインタフェース1506には、例えば有線及び無線のLAN(Local Area Network)接続用インタフェース装置等を採用してもよい。モデル学習装置は、例えば、ネットワークインタフェース1506を介して、通信ネットワークに接続された他の装置から、各種データを受信してもよい。
 入出力インタフェース1507は、外部装置との間の入出力を制御する装置である。外部装置は、例えば、ユーザからの入力を受けつけ可能な入力機器(例えば、キーボード、マウス、タッチパネル等)であってもよい。また、外部装置は、例えばユーザに対して各種出力を提示可能出力機器であってもよい(例えば、モニタ画面、タッチパネル等)。モデル学習装置は、例えば、行動認識モデルを用いて、ある人物の移動軌跡からその人物の行動を判定した結果を、入出力インタフェースを介して出力してもよい。
 上述した各実施形態を例に説明した本開示におけるモデル学習装置は、例えば、図15に例示するハードウェア装置1500に対して、上記各実施形態において説明した機能を実現可能なソフトウェア・プログラムを供給することにより、実現されてもよい。より具体的には、例えば、ハードウェア装置1500に対して供給されたソフトウェア・プログラムを、プロセッサ1501が実行することによって、本開示に係る技術が実現されてもよい。この場合、ハードウェア装置1500で稼働しているオペレーティングシステムや、データベース管理ソフト、ネットワークソフト等のミドルウェアなどが、各処理の一部を実行してもよい。
 上述した各実施形態において、上記各図に示した各部は、上述したハードウェアにより実行されるソフトウェア・プログラムの機能(処理)の単位である、ソフトウェアモジュールとして実現されてもよい。例えば、上記各部をソフトウェアモジュールとして実現する場合、これらのソフトウェアモジュールは、不揮発性記憶装置1503に記憶されてもよい。そして、プロセッサ1501が、それぞれの処理を実行する際に、これらのソフトウェアモジュールをメモリ1502に読み出してもよい。
 また、これらのソフトウェアモジュールは、共有メモリやプロセス間通信等の適宜の方法により、相互に各種データを伝達できるように構成されてもよい。このような構成により、これらのソフトウェアモジュールは、相互に通信可能に接続される。
 さらに、上記各ソフトウェア・プログラムは、記録媒体1505に記録されてもよい。この場合、上記各ソフトウェア・プログラムは、上記通信装置等の出荷段階、あるいは運用段階等において、適宜ドライブ装置1504を通じて不揮発性記憶装置1503に格納されてもよい。
 各種ソフトウェア・プログラムは、モデル学習装置の出荷前の製造段階、あるいは出荷後のメンテナンス段階等において、適当な治具(ツール)を利用してハードウェア装置1500内にインストールされてもよい。また、各種ソフトウェア・プログラムは、インターネット等の通信回線を介して外部からダウンロードされてもよい。ソフトウェア・プログラムを供給する方法として、各種の一般的な手順を採用することができる。
 このような場合において、本開示に係る技術は、ソフトウェア・プログラムを構成するコード、あるいはコードが記録されたところの、コンピュータ読み取り可能な記録媒体によって構成されてもよい。この場合、記録媒体は、ハードウェア装置1500と独立した媒体に限らず、LANやインターネットなどにより伝送されたソフトウェア・プログラムをダウンロードして記憶又は一時記憶した記録媒体(各種ストレージ等)を含む。
 また、上述したモデル学習装置、あるいは、当該モデル学習装置の構成要素は、図15に例示するハードウェア装置1500を仮想化した仮想化環境と、その仮想化環境において実行されるソフトウェア・プログラム(コンピュータ・プログラム)とによって構成されてもよい。この場合、図15に例示するハードウェア装置1500の構成要素は、仮想化環境における仮想デバイスとして提供される。
 上記のようなハードウェア装置1500を用いて本開示に係るモデル学習装置を構成した場合、係るハードウェア1500装置は、本開示に関連するコンピュータ関連技術(カメラ画像から対象物の行動を判定する技術)を改良可能な特有の装置として機能することができる。
 以上、実施形態(及び実施例)を参照して本願発明を説明したが、本願発明は上記実施形態(及び実施例)に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2017年12月8日に出願された日本出願特願2017-236143を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 10  行動認識モデル学習装置
 11  誤差付き移動軌跡生成部
 12  特徴抽出部
 13  行動認識モデル学習部
 100  行動認識モデル学習装置
 110  誤差付き移動軌跡生成部
 120  特徴抽出部
 130  行動認識モデル学習部
 1501  プロセッサ
 1502  メモリ
 1503  不揮発性記憶装置
 1504  ドライブ装置
 1505  記録媒体
 1506  ネットワークインタフェース
 1507  入出力インタフェース

Claims (10)

  1.  対象物の行動を表す情報である行動ラベルが付与された、対象物の移動軌跡を表すデータである行動学習用移動軌跡データに対して誤差を付加することで、誤差付き移動軌跡データを生成する誤差付き移動軌跡生成手段と、
     少なくとも、前記誤差付き移動軌跡データと、前記行動ラベルとに基づいて作成した学習データを用いて、ある対象物の移動軌跡から、その対象物の行動を認識可能なモデルを学習する行動認識モデル学習手段と、を備える
    モデル学習装置。
  2.  前記誤差付き移動軌跡データから、前記対象物の行動を認識する際に用いられる特徴量を生成する特徴抽出手段をさらに備え、
     前記誤差付き移動軌跡生成手段は、前記行動学習用移動軌跡データに対して、撮影装置により撮影されたカメラ画像を用いて移動軌跡を推定する際に発生する推定誤差を付加することで、前記誤差付き移動軌跡データを生成し、
     行動認識モデル学習手段は、前記特徴抽出手段により生成された前記特徴量と、前記行動ラベルとを用いて作成された前記学習データを用いて前記モデルを学習する
    請求項1に記載のモデル学習装置。
  3.  前記行動学習用移動軌跡データは、実空間における前記対象物の移動軌跡を表すデータであって、
     前記誤差付き移動軌跡生成手段は、
      前記行動学習用移動軌跡データを、カメラ画像における移動軌跡を表すデータへと変換する第一の座標変換手段と、
      前記第一の座標変換手段により変換された移動軌跡のデータに、カメラ画像内の前記対象物の位置を推定する際に発生する推定誤差を付加する第一の誤差付加手段と、
      前記第一の誤差付加手段により前記推定誤差が付加された移動軌跡のデータを、実空間における移動軌跡を表すデータへと変換することで、前記誤差付き移動軌跡データを生成する第二の座標変換手段と、を有する
    請求項2に記載のモデル学習装置。
  4.  前記第一の座標変換手段は、実空間における座標系により表された、前記対象物の移動軌跡を表す前記行動学習用移動軌跡データを、前記対象物を前記撮影装置により撮影したカメラ画像内の座標系であるカメラ座標系における移動軌跡を表すデータへと変換し、
     前記第一の誤差付加手段は、前記カメラ座標系における移動軌跡を表すデータに、前記推定誤差として、ある特定の大きさの分散を持つガウスノイズを付加し、
     前記第二の座標変換手段は、前記カメラ座標系において、前記第一の誤差付加手段により前記推定誤差が付加された移動軌跡のデータを、前記実空間における座標系における移動軌跡を表すデータへと変換する
    請求項3に記載のモデル学習装置。
  5.  前記誤差付き移動軌跡生成手段は、
      前記対象物を撮影したカメラ画像を含むデータである誤差学習用カメラ画像データを用いて、そのカメラ画像内の人物の移動軌跡を推定する移動軌跡推定手段と、
      前記カメラ画像内の前記対象物の正しい移動軌跡を表す正解移動軌跡データと、前記移動軌跡推定手段により推定された当該対象物の移動軌跡を表す移動軌跡データとの差分を前記推定誤差として計算する推定誤差計算手段と、
      前記推定誤差計算手段が算出した前記推定誤差を学習データとして用いて、前記推定誤差の時系列データを生成可能なモデルである誤差生成モデルを学習する誤差生成モデル学習手段と、
      前記行動学習用移動軌跡データに対して、前記誤差生成モデルにより生成された前記推定誤差を付加することで、前記誤差付き移動軌跡データを生成する第二の誤差付加手段と、
    を有する
    請求項2に記載のモデル学習装置。
  6.  前記誤差生成モデルは、前記推定誤差を表すベクトルの時系列データを確率的に出力するエルゴディックHMM(Hidden Markov Model)であり、
     前記誤差生成モデル学習手段は、前記推定誤差計算手段により算出された前記推定誤差の時系列データを用いて、エルゴディックHMMの状態遷移確率及び各状態の出力確率分布のパラメータを学習する
    請求項5に記載のモデル学習装置。
  7.  対象物の行動を表す情報である行動ラベルが付与された、対象物の移動軌跡を表すデータである行動学習用移動軌跡データに対して誤差を付加することで、誤差付き移動軌跡データを生成し、
     少なくとも、前記誤差付き移動軌跡データと、前記行動ラベルとに基づいて作成した学習データを用いて、ある対象物の移動軌跡から、その対象物の行動を認識可能なモデルを学習する
    行動認識モデル学習方法。
  8.  前記行動学習用移動軌跡データに対して、撮影装置により撮影されたカメラ画像を用いて移動軌跡を推定する際に発生する推定誤差を付加することで、前記誤差付き移動軌跡データを生成し、
     生成された前記誤差付き移動軌跡データから、前記対象物の行動を認識する際に用いられる特徴量を生成し、
     生成された前記特徴量と、前記行動ラベルとを用いて作成された前記学習データを用いて前記モデルを学習する
    請求項7に記載の行動認識モデル学習方法。
  9.  対象物の行動を表す情報である行動ラベルが付与された、対象物の移動軌跡を表すデータである行動学習用移動軌跡データに対して誤差を付加することで、誤差付き移動軌跡データを生成する処理と、
     少なくとも、前記誤差付き移動軌跡データと、前記行動ラベルとに基づいて作成した学習データを用いて、ある対象物の移動軌跡から、その対象物の行動を認識可能なモデルを学習する処理と、をコンピュータに実行させる
    モデル学習プログラムを記録する記録媒体。
  10. 前記モデル学習プログラムは、
     前記誤差付き移動軌跡データを生成する処理は、前記行動学習用移動軌跡データに対して、撮影装置により撮影されたカメラ画像を用いて移動軌跡を推定する際に発生する推定誤差を付加することで、前記誤差付き移動軌跡データを生成する処理を含み、
     生成された前記誤差付き移動軌跡データから、前記対象物の行動を認識する際に用いられる特徴量を生成する処理と、
     生成された前記特徴量と、前記行動ラベルとを用いて作成された前記学習データを用いて前記モデルを学習する処理と、をコンピュータに実行させる
    請求項9に記載の記録媒体。
PCT/JP2018/044685 2017-12-08 2018-12-05 モデル学習装置、モデル学習方法及び記録媒体 WO2019111932A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US16/767,767 US11580784B2 (en) 2017-12-08 2018-12-05 Model learning device, model learning method, and recording medium
JP2019558244A JP7031685B2 (ja) 2017-12-08 2018-12-05 モデル学習装置、モデル学習方法及びコンピュータプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-236143 2017-12-08
JP2017236143 2017-12-08

Publications (1)

Publication Number Publication Date
WO2019111932A1 true WO2019111932A1 (ja) 2019-06-13

Family

ID=66751380

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/044685 WO2019111932A1 (ja) 2017-12-08 2018-12-05 モデル学習装置、モデル学習方法及び記録媒体

Country Status (3)

Country Link
US (1) US11580784B2 (ja)
JP (1) JP7031685B2 (ja)
WO (1) WO2019111932A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2020261333A1 (ja) * 2019-06-24 2020-12-30
JP2021039592A (ja) * 2019-09-04 2021-03-11 株式会社東芝 センサシステム、画像センサ、およびセンシング方法
US20210209788A1 (en) * 2020-01-03 2021-07-08 Naver Corporation Method and apparatus for generating data for estimating three-dimensional (3d) pose of object included in input image, and prediction model for estimating 3d pose of object
KR20220020047A (ko) * 2020-08-11 2022-02-18 주식회사 클럽 매장 내 고객동선 및 쇼핑시간 예측방법과 그 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009157770A (ja) * 2007-12-27 2009-07-16 Toshiba Corp 行動判定装置、行動判定方法および行動判定プログラム
JP2012128877A (ja) * 2012-03-19 2012-07-05 Toshiba Corp 不審行動検知システム及び方法
JP2017215861A (ja) * 2016-06-01 2017-12-07 トヨタ自動車株式会社 行動認識装置,学習装置,並びに方法およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101425605B1 (ko) 2008-02-18 2014-08-04 삼성전자주식회사 이벤트 스트럭쳐 시스템 및 그 제어 방법
US8169481B2 (en) * 2008-05-05 2012-05-01 Panasonic Corporation System architecture and process for assessing multi-perspective multi-context abnormal behavior
WO2014083910A1 (ja) 2012-11-30 2014-06-05 日本電気株式会社 対象物追跡システム、対象物追跡方法、画像処理装置およびその制御方法と制御プログラム
JP6331270B2 (ja) 2013-06-06 2018-05-30 日本電気株式会社 情報処理システム、情報処理方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009157770A (ja) * 2007-12-27 2009-07-16 Toshiba Corp 行動判定装置、行動判定方法および行動判定プログラム
JP2012128877A (ja) * 2012-03-19 2012-07-05 Toshiba Corp 不審行動検知システム及び方法
JP2017215861A (ja) * 2016-06-01 2017-12-07 トヨタ自動車株式会社 行動認識装置,学習装置,並びに方法およびプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2020261333A1 (ja) * 2019-06-24 2020-12-30
WO2020261333A1 (ja) * 2019-06-24 2020-12-30 日本電気株式会社 学習装置、交通事象予測システム及び学習方法
JP2021039592A (ja) * 2019-09-04 2021-03-11 株式会社東芝 センサシステム、画像センサ、およびセンシング方法
JP7353875B2 (ja) 2019-09-04 2023-10-02 株式会社東芝 センサシステム、およびセンシング方法
US20210209788A1 (en) * 2020-01-03 2021-07-08 Naver Corporation Method and apparatus for generating data for estimating three-dimensional (3d) pose of object included in input image, and prediction model for estimating 3d pose of object
US11610331B2 (en) * 2020-01-03 2023-03-21 Line Corporation Method and apparatus for generating data for estimating three-dimensional (3D) pose of object included in input image, and prediction model for estimating 3D pose of object
KR20220020047A (ko) * 2020-08-11 2022-02-18 주식회사 클럽 매장 내 고객동선 및 쇼핑시간 예측방법과 그 시스템
KR102493331B1 (ko) * 2020-08-11 2023-02-03 주식회사 클럽 매장 내 고객동선 및 쇼핑시간 예측방법과 그 시스템

Also Published As

Publication number Publication date
JP7031685B2 (ja) 2022-03-08
US20200342215A1 (en) 2020-10-29
US11580784B2 (en) 2023-02-14
JPWO2019111932A1 (ja) 2020-11-19

Similar Documents

Publication Publication Date Title
WO2019111932A1 (ja) モデル学習装置、モデル学習方法及び記録媒体
CN110363058B (zh) 使用单触发卷积神经网络的用于避障的三维对象定位
CN114902294B (zh) 移动增强现实中的细粒度视觉识别
KR20190062171A (ko) 자율 머신에서의 오작동 센서의 딥 러닝 기반의 실시간 검출 및 수정
CN108805170B (zh) 形成用于全监督式学习的数据集
GB2538847A (en) Joint Depth estimation and semantic segmentation from a single image
KR20190054702A (ko) 영상에서 객체의 행동을 인식하는 방법 및 그 장치
JP2014137815A (ja) 歪みのあるカメラ画像を補正するシステム及び方法
CN112200131A (zh) 一种基于视觉的车辆碰撞检测方法、智能终端及存储介质
JP2019066238A (ja) 姿勢推定システム、姿勢推定装置、及び距離画像カメラ
Liu et al. A cloud infrastructure for target detection and tracking using audio and video fusion
JPWO2018235219A1 (ja) 自己位置推定方法、自己位置推定装置および自己位置推定プログラム
Kim et al. 3D human-gesture interface for fighting games using motion recognition sensor
EP3913527A1 (en) Method and device for performing behavior prediction by using explainable self-focused attention
JP6655513B2 (ja) 姿勢推定システム、姿勢推定装置、及び距離画像カメラ
JP2021144359A (ja) 学習装置、推定装置、学習方法、及びプログラム
US20220237884A1 (en) Keypoint based action localization
Bicho et al. Markerless multi-view-based multi-user head tracking system for virtual reality applications
Rajendran et al. Study on machine learning and deep learning methods for human action recognition
US20240119628A1 (en) Automatic generation of 'as-run' results in a three dimensional model using augmented reality
JP7286091B2 (ja) 推定システム、推定装置および推定方法
KR102650594B1 (ko) 낮은 공간 지터, 낮은 레이턴시 및 저전력 사용을 갖는 객체 및 키포인트 검출 시스템
KR102664916B1 (ko) 익스플레이너블 셀프-포커스드 어텐션을 이용하여 행동 예측을 수행하는 방법 및 장치
US11738464B2 (en) Robotic geometric camera calibration and monitoring alert configuration and testing
Hagenus et al. A survey on robustness in trajectory prediction for autonomous vehicles

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18885293

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019558244

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18885293

Country of ref document: EP

Kind code of ref document: A1