WO2019235116A1 - 移動状況解析装置、移動状況解析方法及びプログラム - Google Patents

移動状況解析装置、移動状況解析方法及びプログラム Download PDF

Info

Publication number
WO2019235116A1
WO2019235116A1 PCT/JP2019/018276 JP2019018276W WO2019235116A1 WO 2019235116 A1 WO2019235116 A1 WO 2019235116A1 JP 2019018276 W JP2019018276 W JP 2019018276W WO 2019235116 A1 WO2019235116 A1 WO 2019235116A1
Authority
WO
WIPO (PCT)
Prior art keywords
video data
data
unit
movement
sensor data
Prior art date
Application number
PCT/JP2019/018276
Other languages
English (en)
French (fr)
Inventor
山本 修平
浩之 戸田
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2020523573A priority Critical patent/JP6939998B2/ja
Priority to US15/733,870 priority patent/US11494918B2/en
Priority to EP19815731.5A priority patent/EP3783565B1/en
Publication of WO2019235116A1 publication Critical patent/WO2019235116A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • the present invention relates to a movement situation analysis apparatus, a movement situation analysis method, and a program.
  • Non-Patent Document 1 As a technique for automatically recognizing a user's movement status from sensor information, there is a technique for estimating a user's moving means from GPS position information and speed information (Non-Patent Document 1). In addition, development of a technique for analyzing walking, jogging, ascending / descending of stairs, etc., using information such as acceleration acquired from a smartphone has been undertaken (Non-Patent Document 2).
  • the conventional method uses only sensor information, the user's movement status cannot be recognized in consideration of video information. For example, when trying to grasp the user's movement status from wearable sensor data, even if he understands that he is walking, the details are as if he was window shopping or crossing a pedestrian crossing. It is difficult to automatically recognize the situation of a simple user from only sensor data.
  • the present invention has been made in view of the above points, and an object thereof is to improve the accuracy of movement situation recognition.
  • the moving state analysis apparatus for each frame constituting the first video data imaged in the moving process of the first moving body, from the image data related to the frame, A detection unit for detecting an area; the first video data; the characteristics of the first sensor data measured for the first moving body corresponding to the imaging of the first video data; Learning to learn a DNN model that inputs video data and sensor data and outputs the probability of each moving situation based on the detection result of the object region and information indicating the moving situation of the first video data Part.
  • the accuracy of movement status recognition can be improved.
  • FIG. 10 It is a figure which shows the hardware structural example of the movement condition recognition apparatus 10 in embodiment of this invention. It is a figure which shows the function structural example of the movement condition recognition apparatus 10 in a learning phase. It is a figure which shows the function structural example of the movement condition recognition apparatus 10 in a recognition phase. It is a flowchart for demonstrating an example of the process sequence which the movement condition recognition apparatus 10 performs in a learning phase. It is a figure which shows the structural example of video data DB121. It is a figure which shows the structural example of sensor data DB122. It is a figure which shows the structural example of annotation DB124. It is a flowchart for demonstrating an example of the process sequence which the movement condition recognition apparatus 10 performs in a recognition phase.
  • 5 is a flowchart for explaining an example of a processing procedure executed by an object detection unit 13; It is a figure which shows the example of an object detection result.
  • FIG. 1 is a diagram illustrating a hardware configuration example of a movement situation recognition apparatus 10 according to an embodiment of the present invention.
  • 1 includes a drive device 100, an auxiliary storage device 102, a memory device 103, a CPU 104, an interface device 105, and the like that are mutually connected by a bus B.
  • a program for realizing processing in the movement status recognition apparatus 10 is provided by a recording medium 101 such as a CD-ROM.
  • a recording medium 101 such as a CD-ROM.
  • the program is installed from the recording medium 101 to the auxiliary storage device 102 via the drive device 100.
  • the program need not be installed from the recording medium 101 and may be downloaded from another computer via a network.
  • the auxiliary storage device 102 stores the installed program and also stores necessary files and data.
  • the memory device 103 reads the program from the auxiliary storage device 102 and stores it when there is an instruction to start the program.
  • the CPU 104 executes a function related to the movement status recognition device 10 according to a program stored in the memory device 103.
  • the interface device 105 is used as an interface for connecting to a network.
  • FIG. 2 is a diagram illustrating a functional configuration example of the movement situation recognition apparatus 10 in the learning phase.
  • the movement situation recognition apparatus 10 includes a video data preprocessing unit 11, a sensor data preprocessing unit 12, an object detection unit 13, a spatial feature embedding unit 14, a DNN model construction unit 15, and a movement situation recognition model learning unit 16. Have. Each of these units is realized by a process that the CPU 104 causes one or more programs installed in the movement status recognition apparatus 10 to execute.
  • the movement status recognition apparatus 10 also uses the video data DB 121, sensor data DB 122, object detection model DB 123, annotation DB 124, DNN model DB 125, and the like in the learning phase.
  • Each DB Data Base
  • the movement situation recognition device 10 outputs a movement situation recognition DNN (Deep Neural Network) model using information stored in each DB.
  • DNN Deep Neural Network
  • the video data DB 121 stores one or more video data.
  • one piece of video data is moving image data captured in the course of movement of the vehicle by a camera (for example, a drive recorder) mounted on the vehicle.
  • the sensor data DB 122 stores sensor data measured by various sensors in a vehicle equipped with a camera that captures video data.
  • the video data DB 121 and the sensor data DB 122 store video data or sensor data in association with a common data ID so that the correspondence between the corresponding video data and sensor data can be grasped.
  • Corresponding video data and sensor data refer to video data and sensor data measured in the same vehicle and in the same period. For example, a pair of video data and sensor data is input by the system operator, and an ID that uniquely identifies the pair is assigned as a data ID to the input video data and sensor data, and the video data is stored in the video data DB 121.
  • the sensor data may be stored in the sensor data DB 122.
  • the object detection model DB 123 stores a model structure and parameters of a trained (learned) object detection model.
  • the object detection means that a general name (object name) of an object shown in one image is detected together with a boundary region where the object is shown.
  • a known model such as SVM learned with an image feature quantity such as HOG or DNN such as YOLO can be used.
  • HOG is detailed in “Dalal, Navneet and Triggs, Bill: Histograms of Oriented Gradients for Human Detection. In Proc. Of Computer Vision and Pattern Recognition 2005, pp. For YOLO, “J. Redmon, S. Divvala, R. Girshick and A. Farhadi: You Only Look Once: Unified, Real-Time Object Detection, Proc. Of Computer Vision and Pattern Recognition 79, pp.7- 788, 2016. ”
  • the annotation DB 124 stores an annotation name for each data ID.
  • the annotation name is assumed to be, for example, a character string that describes the situation with respect to the video data, and corresponds to “car near miss”, “bicycle near hat”, or the like.
  • the annotation name for each data ID may be input by the system operator, and the input result may be stored in the annotation DB 124.
  • FIG. 3 is a diagram illustrating a functional configuration example of the movement status recognition device 10 in the recognition phase.
  • the same parts as those of FIG. 3 are identical parts as those of FIG. 3
  • the movement state recognition apparatus 10 includes a video data preprocessing unit 11, a sensor data preprocessing unit 12, an object detection unit 13, a spatial feature embedding unit 14, and a movement state recognition unit 17.
  • the movement status recognition unit 17 is realized by a process in which the CPU 104 executes one or more programs installed in the movement status recognition device 10.
  • the movement situation recognition apparatus 10 also uses the object detection model DB 123 and the DNN model DB 125 in the recognition phase.
  • the movement status recognition apparatus 10 outputs the recognition result for the input video data and the input sensor data using the information stored in each DB.
  • the input video data is, for example, video data different from the video data stored in the video data DB 121, and is captured in the same or different vehicle as the vehicle that captured the video data stored in the video data DB 121.
  • the input sensor data refers to sensor data measured in the same vehicle as the vehicle that captured the input video data and measured in the same period as the imaging period of the video data.
  • FIG. 4 is a flowchart for explaining an example of a processing procedure executed by the movement situation recognition device 10 in the learning phase.
  • step S100 the video data preprocessing unit 11 acquires each video data from the video data DB 121, and executes preprocessing on each video data.
  • FIG. 5 is a diagram illustrating a configuration example of the video data DB 121.
  • the video data DB 121 stores video data in association with a data ID to be associated with sensor data.
  • the video data is stored, for example, in a file compressed in the Mpeg4 format or the like.
  • the video data with different data IDs is, for example, video data with different captured vehicles or video data with different imaging periods.
  • each video data is converted into a format that is easy to handle by the DNN model.
  • the data generated by the preprocessing is referred to as “preprocessed video data”. Details of the preprocessing of the video data will be described later.
  • the sensor data preprocessing unit 12 acquires each sensor data from the sensor data DB 122 and performs preprocessing on each sensor data. (S110).
  • FIG. 6 is a diagram illustrating a configuration example of the sensor data DB 122.
  • Each sensor data is given a unique series ID and stored in association with a data ID for associating video data.
  • Each sensor data includes elements such as date and time, latitude and longitude, X-axis acceleration, and Y-axis acceleration.
  • each sensor data is converted into a format (a “feature vector” described later) that is easy for the DNN model to handle.
  • the data generated by the preprocessing is referred to as “preprocessed sensor data”. Details of sensor data preprocessing will be described later.
  • the object detection unit 13 receives the preprocessed video data from the video data preprocessing unit 11, and uses the object detection model stored in the object detection model DB 123 from the preprocessed video data.
  • the object name and area of each object included in the video data are detected (S120). Details of this processing will be described later.
  • the spatial feature embedding unit 14 receives the object detection result from the object detection unit 13, and generates spatial feature embedding data of the object detection result (S130). Details of processing and details of spatial feature embedding data will be described later.
  • the DNN model construction unit 15 constructs a DNN model (S140). Details of the DNN model will be described later.
  • the movement state recognition model learning unit 16 pre-processes the video data from the video data pre-processing unit 11, the sensor data pre-processed from the sensor data pre-processing unit 12, and the spatial feature embedding data from the spatial feature embedding unit 14.
  • the DNN model construction unit 15 receives the DNN model and the annotation data from the annotation DB 124, learns the DNN model, and outputs the DNN model as a learning result to the DNN model DB 125 (S150).
  • FIG. 7 is a diagram illustrating a configuration example of the annotation DB 124. As shown in FIG. 7, the annotation name for each data ID is stored in the annotation DB 124.
  • FIG. 8 is a flowchart for explaining an example of a processing procedure executed by the movement status recognition device 10 in the recognition phase.
  • step S200 the video data preprocessing unit 11 receives video data as an input, and executes preprocessing similar to that in step S100 for the video data.
  • preprocessed video data the data generated by the preprocessing is referred to as “preprocessed video data”.
  • the sensor data preprocessing unit 12 receives the sensor data as an input, and executes preprocessing similar to that in step S110 for the sensor data (S210).
  • the data generated by the preprocessing is referred to as “preprocessed sensor data”.
  • the object detection unit 13 receives the preprocessed video data from the video data preprocessing unit 11, and uses the object detection model stored in the object detection model DB 123 from the preprocessed video data.
  • the object name and area of each object included in the video data are detected (S220).
  • the spatial feature embedding unit 14 receives the object detection result from the object detection unit 13, and generates spatial feature embedding data of the object detection result (S230).
  • the spatial feature embedding data is an example of data indicating characteristics of a region (region in a video (image)) in which each object appears.
  • the movement status recognition unit 17 pre-processes video data from the video data pre-processing unit 11, sensor data pre-processed from the sensor data pre-processing unit 12, spatial feature embedding data from the spatial feature embedding unit 14, DNN.
  • the trained DNN model is received from the model DB 125, the movement situation recognition result is calculated based on these, and the calculation result is output (S240).
  • FIG. 9 is a flowchart for explaining an example of a processing procedure executed by the video data preprocessing unit 11.
  • the processing procedure of FIG. 9 is executed for each data ID in the learning phase, and is executed for one input video data in the recognition phase.
  • step S300 the video data pre-processing unit 11 acquires video data to be processed (hereinafter referred to as “target video data”).
  • target video data is video data related to the processing target data ID in the video data group stored in the video data DB 121.
  • the video data to be processed is one input video data.
  • the video data preprocessing unit 11 converts the image data in each frame of the target video data into image data expressed by pixel values of a predetermined vertical size ⁇ predetermined horizontal size ⁇ 3 channels (RGB) ( S310).
  • the predetermined vertical size may be 100 pixels
  • the predetermined horizontal size may be 200 pixels.
  • FIG. 10 is a diagram illustrating an example of image data in each frame generated from video data. As shown in FIG. 10, each image data is associated with a data ID associated with the original video data, a frame number related to the image data in the video data, and time stamp information of the frame in the video data.
  • the video data preprocessing unit 11 samples the frames of the target video data at a constant frame interval (N frame interval) in order to reduce redundant data (S320). As a result, some frames are removed.
  • the video data preprocessing unit 11 normalizes each pixel value of the image data in each frame of the gear in order to make it easy to handle the sampled image data of each frame in the DNN model (S330). For example, normalization is performed by dividing each pixel value by the maximum value that the pixel can take so that the range of each pixel value falls within the range of 0 to 1.
  • the video data preprocessing unit 11 outputs the video data expressed as the image data series including the image data of each frame normalized in step S330, and the date / time information of each frame after sampling the video data. (S340).
  • the video data is video data preprocessed for the target video data.
  • the date / time information of each frame can be obtained by adding the time stamp (FIG. 10) of the frame to the imaging start date / time (not shown in FIG. 5) stored for each video data in the video data DB 121. it can.
  • the output destination is the object detection unit 13 and the movement state recognition model learning unit 16.
  • the output destination is the object detection unit 13 and the movement status recognition unit 17.
  • FIG. 11 is a flowchart for explaining an example of a processing procedure executed by the sensor data preprocessing unit 12.
  • the processing procedure of FIG. 11 is executed for each data ID in the learning phase, and is executed for the input sensor data in the recognition phase.
  • step S400 the sensor data pre-processing unit 12 acquires sensor data to be processed (hereinafter referred to as “target sensor data”).
  • target sensor data is sensor data corresponding to the processing target data ID in the sensor data group stored in the sensor data DB 122.
  • the sensor data to be processed is the input sensor data.
  • the sensor data preprocessing unit 12 normalizes each measured value in each sensor data to be processed in order to make the DNN model easy to handle the sensor data (S410). For example, the sensor data preprocessing unit 12 normalizes the latitude, longitude, X-axis acceleration, and Y-axis acceleration so that the average value of all sensor data to be processed is 0 and the standard deviation is 1.
  • the sensor data pre-processing unit 12 generates a result obtained by combining the respective values normalized with respect to each sensor data as a feature vector of each sensor data (S420). For example, if the measurement values included in the sensor data are four of latitude, longitude, X-axis acceleration, and Y-axis acceleration, the feature vector is normalized latitude, normalized longitude, normalized X It consists of axial acceleration and normalized Y-axis acceleration. Each feature vector is associated with corresponding sensor data.
  • the sensor data preprocessing unit 12 outputs the feature vector of each sensor data and the date / time information of each feature vector (S430).
  • the date / time information of each feature vector is the value of “date / time” stored in the sensor data DB 122 for the sensor data that is the source of the feature vector.
  • the output destination is the movement situation recognition model learning unit 16.
  • the output destination is the movement status recognition unit 17.
  • FIG. 12 is a flowchart for explaining an example of a processing procedure executed by the object detection unit 13.
  • step S500 the object detection unit 13 receives the preprocessed video data from the video data preprocessing unit 11.
  • the object detection unit 13 acquires a learned object detection model (model structure and parameters) from the object detection model DB 123 (S510).
  • the object detection unit 13 performs object detection processing on the image data related to the frame for each frame of the preprocessed video data (S520).
  • FIG. 13 is a diagram illustrating an example of the object detection result.
  • the object detection result includes the data ID of the video data to which the frame belongs, the frame number of the frame, the date / time information of the frame, It includes information such as a name representing the object and coordinates (left end, upper end, right end, lower end) representing the boundary region where the object is detected in the image data.
  • the object detection unit 13 outputs the object detection result (FIG. 13) to the spatial feature embedding unit 14 (S530).
  • FIG. 14 is a flowchart for explaining an example of a processing procedure executed by the spatial feature embedding unit 14.
  • step S600 the spatial feature embedding unit 14 receives the object detection result from the object detection unit 13.
  • the spatial feature embedding unit 14 executes a spatial feature embedding process in the grid space for an object included in the object detection result in accordance with a predefined grid size (S610). As a result of the spatial feature embedding process, spatial feature embedding data is generated.
  • FIG. 15 is a diagram illustrating an example of spatial feature embedding data.
  • the spatial feature embedding data is generated for each frame. That is, step S610 is executed for each set of objects having the same frame number in FIG.
  • One spatial feature embedding data has a structure of vertical grid ⁇ horizontal grid ⁇ detectable number of objects. Details of the spatial feature embedding process will be described later.
  • the spatial feature embedding unit 14 outputs each spatial feature embedded data for each frame and date / time information corresponding to each spatial feature embedded data (S620).
  • the date / time information corresponding to the spatial feature embedded data can be specified based on the imaging start date / time of the video data and the time stamp of FIG.
  • the output destination is the movement situation recognition model learning unit 16.
  • the output destination is the movement status recognition unit 17.
  • FIG. 16 is a flowchart for explaining an example of the processing procedure of the spatial feature embedding process.
  • the processing procedure of FIG. 16 is executed for each frame of the object detection result (FIG. 13) (for each record having a common frame number).
  • step S700 the space feature embedding unit 14 initializes an embedding destination data structure and related variables.
  • the vertical is represented as H and the horizontal is represented as W.
  • H and W are common about each image data.
  • the vertical grid size defined in advance is represented by Gh
  • the horizontal grid size is represented by Gw
  • the number of object types that can be detected in the learned object detection model is represented by O.
  • Initialization is performed with a matrix G ⁇ R Gh ⁇ Gw ⁇ O ⁇ 0 of the embedding destination.
  • the unit width Sh of the vertical grid of the grid structure into which the spatial features are embedded is obtained as Sh ⁇ H / Gh
  • the unit width of the horizontal grid Sw is obtained as Sw ⁇ W / Gw.
  • the spatial feature embedding unit 14 receives the object detection result of the processing target frame (S710).
  • a set of objects detected from one frame to be processed is represented as ⁇ o 1 , o 2 ,..., O N ⁇ .
  • N is the number of objects detected from the frame, and varies depending on the frame.
  • the spatial feature embedding unit 14 the index i (top ⁇ i ⁇ bottom) , j (left ⁇ j ⁇ right), k ⁇ o n.
  • the score of the grid gi , j, k is calculated as follows (S730).
  • the grid gi , j, k is the smallest unit of the embedding destination matrix G.
  • three types of score calculation formulas are shown. Calculation Example 1) The number of appearances of an object k is counted for each grid gi , j, k .
  • g i, j, k ⁇ g i, j, k + (height ⁇ width) / (H ⁇ W), height ⁇ o k. bottom-o k . top, width ⁇ o k. right-o k. left G obtained by calculating g i, j, k in this way is the spatial feature embedding data of the frame.
  • FIG. 17 is a diagram illustrating an example of the structure of a DNN model constructed by the DNN model construction unit 15.
  • the DNN model includes, as inputs, preprocessed video data, preprocessed sensor data corresponding to the video data (that is, a feature vector of the sensor data), and a space generated based on the video data.
  • the feature embedding data is received, and the probability of each movement situation is obtained as an output.
  • the DNN network includes a convolution layer A, a total coupling layer A, a convolution layer B, a total coupling layer B, a total coupling layer C, a long-short-term-memory (LSTM), and a total coupling. It is composed of units such as layer D.
  • the convolution layer A extracts features from an image matrix of one frame (that is, an image group of 3 channels).
  • the convolution layer A for example, convolves an image with a 3 ⁇ 3 filter or extracts a maximum value in a specific short form (maximum pooling).
  • the convolutional layer includes a known network structure such as AlexNet (“Krizhevsky, A., Sutskever, I. and Hinton, G. E .: ImageNet Classification with Deep Convolutional Neural Networks, pp.1106-1114,1142012.”) It is also possible to use pre-learned parameters.
  • the fully connected layer A further abstracts the features obtained from the convolutional layer A.
  • the total coupling layer A performs nonlinear transformation of the input feature amount using, for example, a sigmoid function or a ReLu function.
  • the convolution layer B extracts features from the spatial feature embedding data of the object detection result.
  • the convolution layer B performs the same process as the convolution layer A. That is, the convolution layer B, for example, convolves the spatial feature embedding data of the object detection result with a 3 ⁇ 3 filter, or extracts the maximum value in the specific short form (maximum pooling).
  • the fully connected layer B further abstracts the features obtained from the convolutional layer B. Similar to the total connection layer A, the total connection layer B performs nonlinear conversion on the input feature amount.
  • the fully connected layer C abstracts the feature vector of the sensor data to the same level as the image feature obtained from the fully connected layer A. Similar to the total coupling layer A, the total coupling layer C performs nonlinear transformation on the input feature vector.
  • the abstraction to the same level as the image feature means that the scale of each dimension value of the sensor data feature vector (range from the upper limit to the lower limit) and the number of dimensions of the feature vector are set to each of the vector indicating the image feature. Matching the scale of a dimension value or the number of dimensions of a vector indicating the image feature.
  • LSTM further abstracts three abstract features output from the fully connected layer A, the fully connected layer B, and the fully connected layer C as series features. Specifically, the LSTM sequentially receives feature series data output from the all connected layers A, all connected layers B, and all connected layers C, and circulates the abstract data in the past, Perform nonlinear transformation repeatedly.
  • LSTM has a well-known network structure (“Felix ⁇ ⁇ ⁇ A. ⁇ Gers, Nicol N. Schraudolph, and Juergen Schmidhuber: Learning precise timing with LSTM recurrent networks. Journal of Machine Learning Research, vol.3 -143, 2002. ”).
  • the fully connected layer D drops the sequence features abstracted by the LSTM into a vector of dimensions of the number of types of target moving situations, and calculates a probability vector for each moving situation.
  • the fully connected layer D calculates a probability vector for each moving situation by performing non-linear transformation using a softmax function or the like so that the sum of all the elements of the input feature value becomes 1.
  • the output layer outputs a probability vector for each movement situation. For example, information such as “Non-missing hat: 10%, car-missing hat: 5%, bicycle-missing hat: 70%, bike-missing hat: 5%, pedestrian near-miss: 5%, other: 5%” is output.
  • the DNN model since the structure of the DNN model is not influenced by the video data and the sensor data, the DNN model may be built in advance and stored in the database.
  • FIG. 18 is a flowchart for explaining an example of a processing procedure executed by the movement situation recognition model learning unit 16.
  • step S800 the movement state recognition model learning unit 16 determines the pre-processed video data based on the date / time information of each frame of the pre-processed video data, the date / time information of the sensor data, and the date / time information of the spatial feature embedded data.
  • the image data of the frame, the feature vector of the sensor data, and the spatial feature embedded data are associated with 1: 1: 1. For example, data having the same date / time information or data having the closest timing indicated by the date / time information is associated. Note that data that has no counterpart to be associated may be removed from the correspondence target.
  • the movement state recognition model learning unit 16 receives a network structure (DNN model) as shown in FIG. 17 from the DNN model construction unit 15 (S810).
  • the movement state recognition model learning unit 16 initializes model parameters of each unit in the network (DNN model) (S820). For example, each model parameter is initialized with a random number from 0 to 1.
  • the movement situation recognition model learning unit 16 preprocesses the video data, the feature vector obtained by the preprocessing on the sensor data corresponding to the video data, the spatial feature embedded data based on the video data, and the video
  • the model parameter is updated using the annotation name corresponding to the data (S830).
  • An annotation name corresponding to video data refers to an annotation name stored in the annotation DB in association with the same data ID as the video data.
  • the movement state recognition model learning unit 16 performs the image data, the feature vector, and the spatial feature embedded data for each set of the image data, the feature vector, and the spatial feature embedded data associated in step 800.
  • the model parameter of the DNN model is calculated using the annotation name associated with the same data ID as the video data to which the image data belongs and stored in the annotation DB 124. More specifically, the movement situation recognition model learning unit 16 performs, for each group, a probability vector of an output obtained for the image data, the feature data, and the spatial feature embedded data, and a binary vector obtained from the annotation name. And the model parameters are optimized using a known technique such as backpropagation so that the cross-entropy error between the probability vector and the binary vector is minimized.
  • the movement situation recognition model learning unit 16 outputs a movement situation recognition DNN model (network structure and model parameters), and stores the output result in the DNN model DB 125 (S840).
  • FIG. 19 is a diagram illustrating an example of model parameters. As shown in FIG. 19, parameters are stored as matrices and vectors in each layer. In addition, for the output layers 1, 2, and 3, the annotation name (text indicating the movement status) corresponding to each element number of the probability vector for each movement status calculated in the all connection layers D is stored. .
  • FIG. 20 is a flowchart for explaining an example of a processing procedure executed by the movement status recognition unit 17.
  • step S900 the movement status recognition unit 17 receives preprocessed video data from the video data preprocessing unit 11, receives preprocessed sensor data from the sensor data preprocessing unit 12, and embeds spatial features in the object detection result. Data is received from the spatial feature embedding unit 14.
  • the movement situation recognition unit 17 acquires a learned movement situation recognition DNN model from the DNN model DB 125 (S910).
  • the movement situation recognition unit 17 uses the movement situation recognition DNN model to calculate the probability for each movement situation from the video data, sensor data, and spatial feature embedded data received in step S900 (S920).
  • the movement status recognition unit 17 outputs the annotation name related to the movement status with the highest probability (S930).
  • the present embodiment is applied to video data and measurement data that are captured with respect to movement of a person. May be.
  • the video data is first-person video data acquired through a glassware worn by a certain person
  • the sensor data is sensor data acquired by a wearable sensor formed by the person. Also good.
  • the video data which imaged a certain person from the third person viewpoint, and the sensor data acquired from the sensor around the certain person may be applied to this embodiment.
  • this Embodiment may be applied regarding mobile bodies other than a vehicle and a person.
  • a convolutional layer that can handle image features that are effective for moving situation recognition
  • a fully connected layer that can abstract features at an appropriate level of abstraction
  • a moving situation recognition DNN model that includes LSTM that can efficiently abstract sequence data
  • the detection boundary area of the object detection result in the grid space and using it as input data, it becomes possible to consider the detection position of the object and recognize the movement status with high accuracy.
  • the number of detected objects, the area ratio of the detection area, the center of gravity of the detection area, and the like can be taken into account according to the calculation method at the time of embedding the spatial feature, and the movement state can be recognized with high accuracy.
  • the calculation cost can be reduced as compared with the method of handling all the objects as input data. .
  • the movement status recognition device 10 is an example of a movement status analysis device.
  • the video data stored in the video data DB 121 is an example of first video data.
  • the sensor data stored in the sensor data DB 122 is an example of first sensor data.
  • the video data input in the recognition phase is an example of second video data.
  • the sensor data input in the recognition phase is an example of second sensor data.
  • the object detection unit 13 is an example of a detection unit.
  • the movement situation recognition model learning unit 16 is an example of a learning unit.
  • the movement status recognition unit 17 is an example of a calculation unit.
  • the spatial feature embedding unit 14 is an example of a generation unit.
  • the annotation name is an example of information indicating the movement status.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

移動状況解析装置は、第1の移動体の移動過程において撮像された第1の映像データを構成するフレームごとに、当該フレームに係る画像データから物体と当該物体の領域を検出する検出部と、前記第1の映像データと、前記第1の映像データの撮像に対応して前記第1の移動体に関して計測された第1のセンサデータの特徴と、前記物体及び当該物体の領域の検出結果と、前記第1の映像データに係る移動状況を示す情報とに基づいて、映像データ及びセンサデータを入力とし各移動状況の確率を出力とするDNNモデルを学習する学習部と、を有することで、移動状況認識の精度を向上させる。

Description

移動状況解析装置、移動状況解析方法及びプログラム
 本発明は、移動状況解析装置、移動状況解析方法及びプログラムに関する。
 映像撮像デバイスの小型化や、GPSやジャイロセンサなどの省電力化に伴い、ユーザの行動を、映像、位置情報や加速度などの多様なデータとして容易に記録できるようになった。これらのデータからユーザの行動を詳細に分析することは、様々な用途に役立つ。例えば、グラスウェア等を通じて取得された一人称視点の映像と、ウェアラブルセンサで取得された加速度データ等を利用して、ウインドウショッピングしている状況や、横断歩道を渡っている状況等を自動認識し分析できれば、サービスのパーソナライズ化等、様々な用途で役立てられる。
 従来、センサ情報からユーザの移動状況を自動認識する技術として、GPSの位置情報や速度情報からユーザの移動手段を推定する技術が存在する(非特許文献1)。また、スマートフォンから取得される加速度等の情報を用いて、徒歩やジョギング、階段の昇降等を分析する技術の開発も取組まれている(非特許文献2)。
Zheng, Y., Liu, L., Wang, L., and Xie, X.: Learning transportation mode from raw GPS data for geographic applications on the web. In Proc. of World Wide Web 2008, pp. 247-256, 2008. Jennifer R. Kwapisz, Gary M. Weiss, Samuel A. Moore: Activity Recognition using Cell Phone Accelerometers, Proc. of SensorKDD 2010.
 しかしながら、上記従来の方法は、センサ情報のみを利用しているため、映像情報を考慮したユーザの移動状況認識を行うことができなかった。例えば、ウェアラブルセンサのデータから、ユーザの移動状況を把握しようとした場合、歩いていることは理解したとしても、ウインドウショッピングしている状況か、横断歩道を渡っている状況かのように、詳細なユーザの状況をセンサデータのみから自動認識することは困難である。
 一方で、映像データとセンサデータの入力を組み合わせて、機械学習技術の一つであるSVM(Support Vector Machine)などの単純な分類モデルを用いても、映像データとセンサデータの情報の抽象度合が異なることが原因で、高精度な移動状況認識が困難であった。
 本発明は、上記の点に鑑みてなされたものであって、移動状況認識の精度を向上させることを目的とする。
 そこで上記課題を解決するため、移動状況解析装置は、第1の移動体の移動過程において撮像された第1の映像データを構成するフレームごとに、当該フレームに係る画像データから物体と当該物体の領域を検出する検出部と、前記第1の映像データと、前記第1の映像データの撮像に対応して前記第1の移動体に関して計測された第1のセンサデータの特徴と、前記物体及び当該物体の領域の検出結果と、前記第1の映像データに係る移動状況を示す情報とに基づいて、映像データ及びセンサデータを入力とし各移動状況の確率を出力とするDNNモデルを学習する学習部と、を有する。
 移動状況認識の精度を向上させることができる。
本発明の実施の形態における移動状況認識装置10のハードウェア構成例を示す図である。 学習フェーズにおける移動状況認識装置10の機能構成例を示す図である。 認識フェーズにおける移動状況認識装置10の機能構成例を示す図である。 学習フェーズにおいて移動状況認識装置10が実行する処理手順の一例を説明するためのフローチャートである。 映像データDB121の構成例を示す図である。 センサデータDB122の構成例を示す図である。 アノテーションDB124の構成例を示す図である。 認識フェーズにおいて移動状況認識装置10が実行する処理手順の一例を説明するためのフローチャートである。 映像データ前処理部11が実行する処理手順の一例を説明するためのフローチャートである。 映像データから生成した各フレームにおける画像データの例を示す図である。 センサデータ前処理部12が実行する処理手順の一例を説明するためのフローチャートである。 物体検出部13が実行する処理手順の一例を説明するためのフローチャートである。 物体検出結果の例を示す図である。 空間特徴埋め込み部14が実行する処理手順の一例を説明するためのフローチャートである。 空間特徴埋め込みデータの例を示す図である。 空間特徴の埋め込み処理の処理手順の一例を説明するためのフローチャートである。 DNNモデル構築部15によって構築されるDNNモデルの構造の一例を示す図である。 移動状況認識モデル学習部16が実行する処理手順の一例を説明するためのフローチャートである。 モデルパラメータの一例を示す図である。 移動状況認識部17が実行する処理手順の一例を説明するためのフローチャートである。
 以下、図面に基づいて本発明の実施の形態を説明する。図1は、本発明の実施の形態における移動状況認識装置10のハードウェア構成例を示す図である。図1の移動状況認識装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、CPU104、及びインタフェース装置105等を有する。
 移動状況認識装置10での処理を実現するプログラムは、CD-ROM等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
 メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従って移動状況認識装置10に係る機能を実行する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。
 図2は、学習フェーズにおける移動状況認識装置10の機能構成例を示す図である。学習フェーズにおいて、移動状況認識装置10は、映像データ前処理部11、センサデータ前処理部12、物体検出部13、空間特徴埋め込み部14、DNNモデル構築部15及び移動状況認識モデル学習部16を有する。これら各部は、移動状況認識装置10にインストールされた1以上のプログラムが、CPU104に実行させる処理により実現される。移動状況認識装置10は、また、学習フェーズにおいて、映像データDB121、センサデータDB122、物体検出モデルDB123、アノテーションDB124及びDNNモデルDB125等を利用する。これら各DB(Data Base)は、例えば、補助記憶装置102、又は移動状況認識装置10にネットワークを介して接続可能な記憶装置等を用いて実現可能である。
 学習フェーズにおいて、移動状況認識装置10は、各DBに記憶された情報を利用して移動状況認識DNN(Deep Neural Network)モデルを出力する。
 映像データDB121には、1以上の映像データが記憶されている。本実施の形態において、1つの映像データは、車両に搭載されたカメラ(例えば、ドライブレコーダ等)によって、当該車両の移動過程において撮像された動画データであるとする。
 センサデータDB122には、映像データを撮像したカメラを搭載した車両における各種センサによって計測されたセンサデータが記憶されている。
 なお、映像データDB121及びセンサデータDB122には、対応する映像データ及びセンサデータの対応付けが把握可能なように共通のデータIDに関連付けられて映像データ又はセンサデータが記憶されている。対応する映像データ及びセンサデータとは、同一車両及び同一期間において撮像された映像データ及び計測されたセンサデータをいう。例えば、システム運用者によって映像データ及びセンサデータのペアが入力され、当該ペアを一意に特定するIDをデータIDとして、入力された映像データ及びセンサデータに付与し、映像データを映像データDB121に格納し、センサデータをセンサデータDB122に格納してもよい。
 物体検出モデルDB123には、訓練済み(学習済み)の物体検出モデルのモデル構造とパラメータとが記憶されている。ここで、物体検出とは、1枚の画像中に写っている物体の一般的な名称(物体名)をその物体の写っている境界領域と共に検出することをいう。物体検出モデルには、HOGなどの画像特徴量で学習されたSVMや、YOLOなどのDNNなど、公知のモデルを利用することも可能である。なお、HOGについては、「Dalal, Navneet and Triggs, Bill: Histograms of Oriented Gradients for Human Detection. In Proc. of Computer Vision and Pattern Recognition 2005, pp. 886-893, 2005.」に詳しい。また、YOLOについては、「J. Redmon, S. Divvala, R. Girshick and A. Farhadi: You Only Look Once: Unified, Real-Time Object Detection, Proc. of Computer Vision and Pattern Recognition 2016, pp. 779-788, 2016.」に詳しい。
 アノテーションDB124には、各データIDに対するアノテーション名が格納されている。ここで、アノテーション名とは、例えば、映像データに対する状況を説明した文字列が想定され、「車ヒヤリハット」や「自転車ヒヤリハット」等が該当する。アノテーションDB124についても、映像データDB121やセンサデータDB122と同様、例えば、システム運用者によって各データIDに対するアノテーション名が入力され、その入力結果がアノテーションDB124に格納されるようにしてもよい。
 一方、図3は、認識フェーズにおける移動状況認識装置10の機能構成例を示す図である。図3中、図2と同一部分には同一符号を付し、その説明は省略する。
 認識フェーズにおいて、移動状況認識装置10は、映像データ前処理部11、センサデータ前処理部12、物体検出部13、空間特徴埋め込み部14及び移動状況認識部17を有する。移動状況認識部17は、移動状況認識装置10にインストールされた1以上のプログラムが、CPU104に実行させる処理により実現される。移動状況認識装置10は、また、認識フェーズにおいて、物体検出モデルDB123及びDNNモデルDB125を利用する。
 認識フェーズにおいて、移動状況認識装置10は、各DBに記憶された情報を利用して、入力される映像データ及び入力されるセンサデータに対する認識結果を出力する。入力される映像データとは、例えば、映像データDB121に記憶されている映像データとは異なる映像データであって、映像データDB121に記憶されている映像データを撮像した車両と同一又は異なる車両において撮像された映像データをいう。また、入力されるセンサデータとは、入力される映像データを撮像した車両と同一車両において計測され、当該映像データの撮像期間と同一期間において計測されたセンサデータをいう。
 なお、学習フェーズと認識フェーズとにおいて、異なるコンピュータが用いられてもよい。
 以下、移動状況認識装置10が実行する処理手順について説明する。図4は、学習フェーズにおいて移動状況認識装置10が実行する処理手順の一例を説明するためのフローチャートである。
 ステップS100において、映像データ前処理部11は、映像データDB121から各映像データを取得し、各映像データについて前処理を実行する。
 図5は、映像データDB121の構成例を示す図である。図5に示されるように、映像データDB121には、センサデータと紐付けるためのデータIDに対応付けられて映像データが記憶されている。映像データは、例えば、Mpeg4形式などで圧縮されたファイルに格納されている。なお、データIDが異なる映像データは、例えば、撮像した車両が異なる映像データ又は撮像期間が異なる映像データである。
 前処理の結果、各映像データは、DNNモデルが扱いやすい形式に変換される。以下、前処理によって生成されたデータを「前処理された映像データ」という。なお、映像データの前処理の詳細は後述する。
 続いて、センサデータ前処理部12は、センサデータDB122から各センサデータを取得し、各センサデータについて前処理を実行する。(S110)。
 図6は、センサデータDB122の構成例を示す図である。各センサデータは、固有の系列IDが付与され、映像データを紐付けるためのデータIDに対応付けられて記憶されている。各センサデータは、日時、緯度経度、X軸加速度及びY軸加速度等の要素を含む。
 前処理の結果、各センサデータは、DNNモデルが扱いやすい形式(後述の「特徴ベクトル」)に変換される。以下、前処理によって生成されたデータを「前処理されたセンサデータ」という。なお、センサデータの前処理の詳細は後述する。
 続いて、物体検出部13は、映像データ前処理部11から前処理された映像データを受け取り、物体検出モデルDB123に記憶されている物体検出モデルを用いて、前処理された映像データから、当該映像データに含まれる各物体の物体名及び領域を検出する(S120)。当該処理の詳細は後述する。
 続いて、空間特徴埋め込み部14は、物体検出部13から物体検出結果を受け取り、当該物体検出結果の空間特徴埋め込みデータを生成する(S130)。処理の詳細及び空間特徴埋め込みデータの詳細は後述する。
 続いて、DNNモデル構築部15は、DNNモデルを構築する(S140)。DNNモデルの詳細は後述する。
 続いて、移動状況認識モデル学習部16は、映像データ前処理部11から前処理された映像データ、センサデータ前処理部12から前処理されたセンサデータ、空間特徴埋め込み部14から空間特徴埋め込みデータ、DNNモデル構築部15からDNNモデル、アノテーションDB124からアノテーションデータを受け取り、DNNモデルを学習し、学習結果としてのDNNモデルをDNNモデルDB125に出力する(S150)。
 図7は、アノテーションDB124の構成例を示す図である。図7に示されるように、アノテーションDB124には、各データIDに対するアノテーション名が記憶されている。
 図8は、認識フェーズにおいて移動状況認識装置10が実行する処理手順の一例を説明するためのフローチャートである。
 ステップS200において、映像データ前処理部11は、入力として映像データを受け取り、当該映像データについて、ステップS100と同様の前処理を実行する。以下、前処理によって生成されたデータを「前処理された映像データ」という。
 続いて、センサデータ前処理部12は、入力としてセンサデータを受け取り、当該センサデータについて、ステップS110と同様の前処理を実行する(S210)。以下、前処理によって生成されたデータを「前処理されたセンサデータ」という。
 続いて、物体検出部13は、映像データ前処理部11から前処理された映像データを受け取り、物体検出モデルDB123に記憶されている物体検出モデルを用いて、前処理された映像データから、当該映像データに含まれる各物体の物体名及び領域を検出する(S220)。
 続いて、空間特徴埋め込み部14は、物体検出部13から物体検出結果を受け取り、当該物体検出結果の空間特徴埋め込みデータを生成する(S230)。空間特徴埋め込みデータの詳細については後述するが、空間特徴埋め込みデータは、各物体が出現する領域(映像(画像)における領域)の特徴を示すデータの一例である。
 続いて、移動状況認識部17は、映像データ前処理部11から前処理された映像データ、センサデータ前処理部12から前処理されたセンサデータ、空間特徴埋め込み部14から空間特徴埋め込みデータ、DNNモデルDB125から学習済みのDNNモデルを受け取り、これらに基づいて移動状況認識結果を計算し、計算結果を出力する(S240)。
 続いて、図4のステップS100及び図8のステップS200の詳細について説明する。図9は、映像データ前処理部11が実行する処理手順の一例を説明するためのフローチャートである。図9の処理手順は、学習フェーズの場合、データIDごとに実行され、認識フェーズの場合、入力された1つの映像データについて実行される。
 ステップS300において、映像データ前処理部11は、処理対象の映像データ(以下、「対象映像データ」という。)を取得する。学習フェーズの場合、処理対象の映像データは、映像データDB121に記憶されている映像データ群のうち、処理対象のデータIDに係る映像データである。認識フェーズの場合、処理対象の映像データは、入力された1つの映像データである。
 続いて、映像データ前処理部11は、対象映像データの各フレームに画像データを、所定の縦サイズ×所定の横サイズ×3チャネル(RGB)の画素値で表現された画像データに変換する(S310)。例えば、所定の縦のサイズが100画素とされ、所定の横のサイズが200画素とされてもよい。
 図10は、映像データから生成した各フレームにおける画像データの例を示す図である。図10に示されるように、各画像データは元の映像データに対応付くデータID、当該映像データにおける当該画像データに係るフレームの番号、当該映像データにおける当該フレームのタイムスタンプの情報に関連付けられる。
 なお、認識フェーズにおいて、データIDは不要である。認識フェーズでは、映像データと当該映像データに対応するセンサデータとが入力されるため、映像データとセンサデータとの対応関係は明確だからである。
 続いて、映像データ前処理部11は、冗長なデータを削減するために、対象映像データのフレームについて、一定フレーム間隔(Nフレーム間隔)でサンプリングする(S320)。その結果、一部のフレームが除去される。
 続いて、映像データ前処理部11は、サンプリングされた各フレームの画像データをDNNモデルにおいて扱いやすくするために、当ギア各フレームにおける画像データの各画素値を正規化する(S330)。例えば、各々の画素値の範囲が0~1の範囲に収まるように、画素の取りうる最大値で各画素値を除算することで正規化が行われる。
 続いて、映像データ前処理部11は、ステップS330において正規化された各フレームの画像データからなる画像データ系列として表現された映像データ、及び当該映像データのサンプリング後の各フレームの日時情報を出力する(S340)。当該映像データが、対象映像データについて前処理された映像データである。また、各フレームの日時情報は、映像データDB121において映像データごとに記憶されている撮像開始日時(図5では非図示)に、当該フレームのタイムスタンプ(図10)を加算することで得ることができる。なお、学習フェーズの場合、出力先は物体検出部13及び移動状況認識モデル学習部16である。認識フェーズの場合、出力先は物体検出部13及び移動状況認識部17である。
 続いて、図4のステップS110及び図8のステップS210の詳細について説明する。図11は、センサデータ前処理部12が実行する処理手順の一例を説明するためのフローチャートである。図11の処理手順は、学習フェーズの場合、データIDごとに実行され、認識フェーズの場合、入力されたセンサデータについて実行される。
 ステップS400において、センサデータ前処理部12は、処理対象のセンサデータ(以下、「対象センサデータ」という。)を取得する。学習フェーズの場合、処理対象のセンサデータは、センサデータDB122に記憶されているセンサデータ群のうち、処理対象のデータIDに対応するセンサデータである。認識フェーズの場合、処理対象のセンサデータは、入力されたセンサデータである。
 続いて、センサデータ前処理部12は、センサデータをDNNモデルが扱いやすくするために、処理対象の各センサデータにおける各計測値を正規化する(S410)。例えば、センサデータ前処理部12は、緯度、経度、X軸加速度及びY軸加速度のそれぞれについて、処理対象の全センサデータの平均値が0、標準偏差が1になるように正規化する。
 続いて、センサデータ前処理部12は、各センサデータについて正規化された各々の値を結合した結果を、各センサデータの特徴ベクトルとして生成する(S420)。例えば、センサデータに含まれる計測値が、緯度、経度、X軸加速度及びY軸加速度の4つであれば、特徴ベクトルは、正規化された緯度、正規化された経度、正規化されたX軸加速度及び正規化されたY軸加速度から構成される。なお、各特徴ベクトルは、対応するセンサデータに関連付けられる。
 続いて、センサデータ前処理部12は、各センサデータの特徴ベクトル、各特徴ベクトルの日時情報を出力する(S430)。各特徴ベクトルの日時情報とは、当該特徴ベクトルの元となるセンサデータについてセンサデータDB122に記憶されている「日時」の値である。なお、学習フェーズの場合、出力先は移動状況認識モデル学習部16である。認識フェーズの場合、出力先は移動状況認識部17である。
 続いて、図4のステップS120及び図8のステップS220の詳細について説明する。図12は、物体検出部13が実行する処理手順の一例を説明するためのフローチャートである。
 ステップS500において、物体検出部13は、映像データ前処理部11から前処理された映像データを受け取る。
 続いて、物体検出部13は、物体検出モデルDB123から学習済みの物体検出モデル(モデル構造及びパラメータ)を取得する(S510)。
 続いて、物体検出部13は、物体検出モデルを用いて、前処理された映像データのそれぞれのフレームごとに、当該フレームに係る画像データについて物体検出処理を実行する(S520)。
 図13は、物体検出結果の例を示す図である。図13に示されるように、物体検出結果は、各フレームに係る画像データから検出された物体ごとに、当該フレームが属する映像データのデータID、当該フレームのフレーム番号、当該フレームの日時情報、当該物体を表す名称、当該画像データにおいて当該物体が検出された境界領域を表す座標(左端、上端、右端、下端)等の情報を含む。
 続いて、物体検出部13は、物体検出結果(図13)を空間特徴埋め込み部14に出力する(S530)。
 続いて、図4のステップS130及び図8のステップS230の詳細について説明する。図14は、空間特徴埋め込み部14が実行する処理手順の一例を説明するためのフローチャートである。
 ステップS600において、空間特徴埋め込み部14は、物体検出部13から物体検出結果を受け取る。
 続いて、空間特徴埋め込み部14は、予め定義されたグリッドサイズに従い、物体検出結果に含まれる物体についてグリッド空間への空間特徴の埋め込み処理を実行する(S610)。空間特徴埋め込み処理の結果、空間特徴埋め込みデータが生成される。
 図15は、空間特徴埋め込みデータの例を示す図である。図15に示されるように、空間特徴埋め込みデータは、フレームごとに生成される。すなわち、ステップS610は、図13においてフレーム番号が共通する物体の集合ごとに実行される。1つの空間特徴埋め込みデータは、縦グリッド×横グリッド×検出可能な物体数の構造を有する。なお、空間特徴の埋め込み処理の詳細については後述する。
 続いて、空間特徴埋め込み部14は、フレームごとの各空間特徴埋め込みデータと、各空間特徴埋め込みデータに対応する日時情報とを出力する(S620)。空間特徴埋め込みデータに対応する日時情報は、映像データの撮像開始日時と、図15のタイムスタンプとに基づいて特定可能である。なお、学習フェーズの場合、出力先は移動状況認識モデル学習部16である。認識フェーズの場合、出力先は移動状況認識部17である。
 続いて、ステップS610の詳細について説明する。図16は、空間特徴の埋め込み処理の処理手順の一例を説明するためのフローチャートである。図16の処理手順は、物体検出結果(図13)のフレームごと(フレーム番号が共通するレコードごと)に実行される。
 ステップS700において、空間特徴埋め込み部14は、埋め込み先のデータ構造、関連する変数を初期化する。
 ここでは、前処理された映像データの各フレームの画像データの画像サイズについて、縦をH、横をWと表す。なお、各画像データの画像サイズは、前処理によって共通化されているため、各画像データについて、H及びWは共通である。また、事前に定義された縦のグリッドサイズをGh、横のグリッドサイズをGw、学習済み物体検出モデルにおいて検出可能な物体種類数をOと表す。埋め込み先の行列G∈RGh×Gw×O←0で初期化する。また、空間特徴の埋め込み先のグリッド構造の縦グリッドの単位幅ShをSh←H/Gh、横グリッドSwの単位幅をSw←W/Gwで得る。
 続いて、空間特徴埋め込み部14は、処理対象のフレームの物体検出結果を受け取る(S710)。ここで、処理対象の一つのフレームから検出された物体の集合を{o,o,…,o}と表す。Nは、当該フレームから検出された物体数で、フレームによって変動する。検出可能な各物体の名称を識別するIDをo.id∈[1,2,…,O]、当該フレームから検出された各物体の境界領域を表す左端、上端、右端、下端の座標をそれぞれ、o.left、o.top、o.right、o.bottomで表す。
 続いて、空間特徴埋め込み部14は、処理対象のフレームの画像データから検出された各物体n∈[1,2,…,N]について、定義したグリッドサイズにおける、左端インデックスleft、上端インデックスtop、右端インデックスright、下端インデックスbottomを、
Figure JPOXMLDOC01-appb-M000001
とそれぞれ計算する(S720)。
 続いて、空間特徴埋め込み部14は、インデックスi(top≦i≦bottom)、j(left≦j≦right)、k←o.idについて、グリッドgi,j,kのスコアを以下のように計算する(S730)。なお、グリッドgi,j,kは、埋め込み先の行列Gの最小単位である。ここでは、3種類のスコア計算式を示す。
計算例1)物体kの出現数をグリッドgi,j,kごとにカウントする。
i,j,k←gi,j,k+1
計算例2)物体kの出現位置をグリッドgi,j,kごとにガウスカーネルで考慮する。
i,j,k←gi,j,k+exp (-|i-m|)+exp (-|j-c|),m←(top+bottom)/2,c←(left+right)/2
計算例3)物体kの境界領域の画像サイズに対する面積比をグリッドgi,j,kごとに考慮する。
i,j,k←gi,j,k+(height×width)/(H×W),height←o.bottom-o.top,width←o.right-o.left
 このようにgi,j,kが計算されることで得られるGが、当該フレームの空間特徴埋め込みデータである。
 続いて、図4のステップS140において構築(生成)されるDNNモデルについて説明する。図17は、DNNモデル構築部15によって構築されるDNNモデルの構造の一例を示す図である。
 DNNモデルは、入力として、前処理された映像データ、及び当該映像データに対応する、前処理されたセンサデータ(すなわち、当該センサデータの特徴ベクトル)、及び当該映像データに基づいて生成された空間特徴埋め込みデータを受け取り、出力として各移動状況の確率を獲得する。図17に示されるように、DNNのネットワークは、畳み込み層A、全結合層A、畳み込み層B、全結合層B、全結合層C、LSTM(Long-short-term-memory)、及び全結合層D等のユニットから構成される。
 畳み込み層Aは、1フレームの画像行列(すなわち、3チャネルの画像群)から特徴を抽出する。畳み込み層Aは、例えば、画像を3×3のフィルタで畳み込んだり、特定短形内の最大値を抽出(最大プーリング)したりする。畳み込み層には、AlexNet(「Krizhevsky, A., Sutskever, I. and Hinton, G. E.: ImageNet Classification with Deep Convolutional Neural Networks, pp.1106-1114, 2012.」))等公知のネットワーク構造や事前学習済みパラメータを利用することも可能である。
 全結合層Aは、畳み込み層Aから得られる特徴を更に抽象化する。全結合層Aは、例えば、シグモイド関数やReLu関数などを利用して、入力の特徴量を非線形変換する。
 畳み込み層Bは、物体検出結果の空間特徴埋め込みデータから特徴を抽出する。畳み込み層Bも、畳み込み層Aと同様の処理を行う。すなわち、畳み込み層Bは、例えば、物体検出結果の空間特徴埋め込みデータを3×3のフィルタで畳み込んだり、特定短形内の最大値を抽出(最大プーリング)したりする。
 全結合層Bは、畳み込み層Bから得られる特徴を更に抽象化する。全結合層Bは、全結合層Aと同様に、入力される特徴量を非線形変換する。
 全結合層Cは、センサデータの特徴ベクトルを、全結合層Aから得られる画像特徴と同等レベルに抽象化する。全結合層Cは、全結合層Aと同様に、入力の特徴ベクトルを非線形変換する。なお、画像特徴と同等レベルに抽象化するとは、センサデータの特徴ベクトルの各次元の値のスケール(上限から下限までの範囲)、及び当該特徴ベクトルの次元数を、画像特徴を示すベクトルの各次元の値のスケール、又は当該画像特徴を示すベクトルの次元数に合わせることをいう。
 LSTMは、全結合層A、全結合層B及び全結合層Cから出力される、3つの抽象化された特徴を更に系列特徴として抽象化する。具体的には、LSTMは、全結合層A、全結合層B及び全結合層Cから出力される特徴の系列データを順次受け取り、過去の抽象化された情報を循環させながら、当該系列データを繰り返し非線形変換する。LSTMには忘却ゲートが搭載された公知のネットワーク構造(「Felix A. Gers, Nicol N. Schraudolph, and Juergen Schmidhuber: Learning precise timing with LSTM recurrent networks. Journal of Machine Learning Research, vol. 3, pp.115-143, 2002.」)を利用することもできる。
 全結合層Dは、LSTMによって抽象化された系列特徴を、対象とする移動状況の種類数の次元のベクトルに落とし込み、各移動状況に対する確率ベクトルを計算する。全結合層Dは、ソフトマックス関数などを利用して入力の特徴量の全要素の総和が1になるように非線形変換することで、各移動状況に対する確率ベクトルを計算する。
 出力層は、各移動状況に対する確率ベクトルを出力する。例えば、「非ヒヤリハット:10%,車ヒヤリハット:5%,自転車ヒヤリハット:70%,バイクヒヤリハット:5%,歩行者ヒヤリハット:5%,その他:5%」といった情報が出力される。
 なお、DNNモデルの構造は、映像データ及びセンサデータから影響を受けるものではないため、DNNモデルは、予め構築されてデータベースに記憶されていてもよい。
 続いて、図4のステップS150の詳細について説明する。図18は、移動状況認識モデル学習部16が実行する処理手順の一例を説明するためのフローチャートである。
 ステップS800において、移動状況認識モデル学習部16は、前処理された映像データの各フレームの日時情報、センサデータの日時情報、空間特徴埋め込みデータの日時情報に基づいて、前処理された映像データのフレームの画像データ、センサデータの特徴ベクトル、及び空間特徴埋め込みデータを、1:1:1に対応付ける。例えば、日時情報が一致するデータ同士、又は日時情報が示すタイミングが最も近いデータ同士が対応付けられる。なお、対応付く相手が無いデータは、対応付けの対象から除去されてよい。
 続いて、移動状況認識モデル学習部16は、DNNモデル構築部15から図17に示すようなネットワーク構造(DNNモデル)を受け取る(S810)。
 続いて、移動状況認識モデル学習部16は、ネットワーク(DNNモデル)における各ユニットのモデルパラメータを初期化する(S820)。例えば、各モデルパラメータが、0から1の乱数で初期化される。
 続いて、移動状況認識モデル学習部16は、前処理された映像データ、当該映像データに対応するセンサデータに対する前処理によって得られた特徴ベクトル、当該映像データに基づく空間特徴埋め込みデータ、及び当該映像データに対応するアノテーション名を用いてモデルパラメータを更新する(S830)。映像データに対応するアノテーション名とは、映像データと同一のデータIDに対応付けられてアノテーションDBに記憶されているアノテーション名をいう。
 具体的には、移動状況認識モデル学習部16は、ステップ800において対応付けられた画像データ、特徴ベクトル、及び空間特徴埋め込みデータの組ごとに、当該画像データ、当該特徴ベクトル、当該空間特徴埋め込みデータ、及び当該画像データが属する映像データと同じデータIDに対応付けられてアノテーションDB124に記憶されているアノテーション名を用いて、DNNモデルのモデルパラメータを計算する。より詳しくは、移動状況認識モデル学習部16は、当該組ごとに、当該画像データ、当該特徴データ、及び当該空間特徴埋め込みデータに対して得られる出力の確率ベクトルと、アノテーション名から得られるバイナリベクトルとを求め、確率ベクトルとバイナリベクトルとのクロスエントロピー誤差が最小になるように、バックプロパゲーションなど公知の技術を利用して、モデルパラメータを最適化する。
 続いて、移動状況認識モデル学習部16は、移動状況認識DNNモデル(ネットワーク構造及びモデルパラメータ)を出力し、出力された結果をDNNモデルDB125に格納する(S840)。
 図19は、モデルパラメータの一例を示す図である。図19に示されるように、各層において行列やベクトルとしてパラメータが格納されている。また、出力層1、2、3に対しては、全結合層Dで計算された、各移動状況に対する確率ベクトルの各要素番号と対応するアノテーション名(移動状況を示すテキスト)が格納されている。
 続いて、図8のステップS240の詳細について説明する。図20は、移動状況認識部17が実行する処理手順の一例を説明するためのフローチャートである。
 ステップS900において、移動状況認識部17は、前処理された映像データを映像データ前処理部11から受け取り、前処理されたセンサデータをセンサデータ前処理部12から受け取り、物体検出結果の空間特徴埋め込みデータを空間特徴埋め込み部14から受け取る。
 続いて、移動状況認識部17は、DNNモデルDB125から学習済みの移動状況認識DNNモデルを取得する(S910)。
 続いて、移動状況認識部17は、当該移動状況認識DNNモデルを用いて、ステップS900において受け取った映像データ、センサデータ及び空間特徴埋め込みデータから各移動状況に対する確率を計算する(S920)。
 続いて、移動状況認識部17は、確率の最も高い移動状況に係るアノテーション名を出力する(S930)。
 なお、本実施の形態では、映像データ及び計測データが、車両において撮像又は計測される例について説明したが、人の移動に関して撮像される映像データ及び計測データに対して本実施の形態が適用されてもよい。この場合、映像データは、或る人が装着しているグラスウェア等を通じて取得された一人称視点の映像データであり、センサデータは、当該人が形態するウェアラブルセンサで取得されたセンサデータであってもよい。又は、第三者視点から或る人を撮像した映像データと、当該或る人の周囲のセンサから取得されたセンサデータとが本実施の形態に適用されてもよい。また、車両及び人以外の移動体に関して本実施の形態が適用されてもよい。
 上述したように、本実施の形態によれば、センサデータに加え映像データを利用したモデルを構築・学習し、得られたモデルを移動状況認識に利用することで、従来認識できなかった移動状況を認識可能になる。その結果、移動状況認識の精度を向上させることができる。
 また、移動状況認識のために効果的な画像特徴を扱える畳み込み層、適切な抽象度で特徴を抽象化できる全結合層、系列データを効率的に抽象化できるLSTMを備えた移動状況認識DNNモデルによって、高精度にユーザの移動状況を認識可能になる。
 また、移動状況認識のために効果的な物体検出結果を入力データとして利用することで、高精度にユーザの移動状況を認識可能になる。
 また、物体検出結果の検出境界領域をグリッド空間に特徴埋め込みして入力データとして利用することで、物体の検出位置を考慮することが可能になり、高精度に移動状況を認識可能になる。また、空間特徴埋め込みの際の計算方法に応じて物体の検出数、検出領域の面積比、検出領域の重心などを考慮することが可能になり、高精度に移動状況を認識可能になる。
 更に、物体検出結果おける検出された全ての物体を1つの空間特徴埋め込みされた構造データとして利用することで、全ての物体を各々入力データとして扱う方法に比べて、計算コストの低減が可能になる。
 なお、本実施の形態において、移動状況認識装置10は、移動状況解析装置の一例である。映像データDB121に記憶されている映像データは、第1の映像データの一例である。センサデータDB122に記憶されているセンサデータは、第1のセンサデータの一例である。認識フェーズにおいて入力される映像データは、第2の映像データの一例である。認識フェーズにおいて入力されるセンサデータは、第2のセンサデータの一例である。物体検出部13は、検出部の一例である。移動状況認識モデル学習部16は、学習部の一例である。移動状況認識部17は、計算部の一例である。空間特徴埋め込み部14は、生成部の一例である。アノテーション名は、移動状況を示す情報の一例である。
 以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
 本出願は、2018年6月4日に出願された日本国特許出願第2018-107057号に基づきその優先権を主張するものであり、同日本国特許出願の全内容を参照することにより本願に援用する。
10     移動状況認識装置
11     映像データ前処理部
12     センサデータ前処理部
13     物体検出部
14     空間特徴埋め込み部
15     DNNモデル構築部
16     移動状況認識モデル学習部
17     移動状況認識部
100    ドライブ装置
101    記録媒体
102    補助記憶装置
103    メモリ装置
104    CPU
105    インタフェース装置
121    映像データDB
122    センサデータDB
123    物体検出モデルDB
124    アノテーションDB
125    DNNモデルDB
B      バス

Claims (7)

  1.  第1の移動体の移動過程において撮像された第1の映像データを構成するフレームごとに、当該フレームに係る画像データから物体と当該物体の領域を検出する検出部と、
     前記第1の映像データと、前記第1の映像データの撮像に対応して前記第1の移動体に関して計測された第1のセンサデータの特徴と、前記物体及び当該物体の領域の検出結果と、前記第1の映像データに係る移動状況を示す情報とに基づいて、映像データ及びセンサデータを入力とし各移動状況の確率を出力とするDNNモデルを学習する学習部と、
    を有することを特徴とする移動状況解析装置。
  2.  前記検出部は、第2の移動体の移動過程において撮像された第2の映像データを構成するフレームごとに、当該フレームに係る画像データから物体と当該物体の領域を検出し、
     前記第2の映像データと、前記第2の映像データの撮像に対応して前記第2の移動体に関して計測された第2のセンサデータと、前記第2の映像データを構成するフレームに係る画像データから検出された物体及び当該物体の領域の検出結果とを前記DNNモデルに入力して、前記第2の映像データについて、各移動状況の確率を計算する計算部、
    を有することを特徴とする請求項1記載の移動状況解析装置。
  3.  前記検出部による前記物体及び当該物体の領域の検出結果に基づいて、各物体が出現する領域の特徴を示すデータを生成する生成部を有し、
     前記学習部は、前記生成部が前記第1の映像データに関して生成したデータに基づいて、前記DNNモデルを学習し、
     前記計算部は、前記生成部が前記第2の映像データに関して生成したデータに基づいて、各移動状況の確率を計算する、
    ことを特徴とする請求項2記載の移動状況解析装置。
  4.  第1の移動体の移動過程において撮像された第1の映像データを構成するフレームごとに、当該フレームに係る画像データから物体と当該物体の領域を検出する検出手順と、
     前記第1の映像データと、前記第1の映像データの撮像に対応して前記第1の移動体に関して計測された第1のセンサデータの特徴と、前記物体及び当該物体の領域の検出結果と、前記第1の映像データに係る移動状況を示す情報とに基づいて、映像データ及びセンサデータを入力とし各移動状況の確率を出力とするDNNモデルを学習する学習手順と、
    をコンピュータが実行することを特徴とする移動状況解析方法。
  5.  前記検出手順は、第2の移動体の移動過程において撮像された第2の映像データを構成するフレームごとに、当該フレームに係る画像データから物体と当該物体の領域を検出し、
     前記第2の映像データと、前記第2の映像データの撮像に対応して前記第2の移動体に関して計測された第2のセンサデータと、前記第2の映像データを構成するフレームに係る画像データから検出された物体及び当該物体の領域の検出結果とを前記DNNモデルに入力して、前記第2の映像データについて、各移動状況の確率を計算する計算手順、
    をコンピュータが実行することを特徴とする請求項4記載の移動状況解析方法。
  6.  前記検出手順による前記物体及び当該物体の領域の検出結果に基づいて、各物体が出現する領域の特徴を示すデータを生成する生成手順を有し、
     前記学習手順は、前記生成手順が前記第1の映像データに関して生成したデータに基づいて、前記DNNモデルを学習し、
     前記計算手順は、前記生成手順が前記第2の映像データに関して生成したデータに基づいて、各移動状況の確率を計算する、
    ことを特徴とする請求項5記載の移動状況解析方法。
  7.  請求項4乃至6いずれか一項記載の移動状況解析方法をコンピュータに実行させることを特徴とするプログラム。
PCT/JP2019/018276 2018-06-04 2019-05-07 移動状況解析装置、移動状況解析方法及びプログラム WO2019235116A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020523573A JP6939998B2 (ja) 2018-06-04 2019-05-07 移動状況解析装置、移動状況解析方法及びプログラム
US15/733,870 US11494918B2 (en) 2018-06-04 2019-05-07 Moving state analysis device, moving state analysis method, and program
EP19815731.5A EP3783565B1 (en) 2018-06-04 2019-05-07 Moving state analysis device, moving state analysis method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-107057 2018-06-04
JP2018107057 2018-06-04

Publications (1)

Publication Number Publication Date
WO2019235116A1 true WO2019235116A1 (ja) 2019-12-12

Family

ID=68770727

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/018276 WO2019235116A1 (ja) 2018-06-04 2019-05-07 移動状況解析装置、移動状況解析方法及びプログラム

Country Status (4)

Country Link
US (1) US11494918B2 (ja)
EP (1) EP3783565B1 (ja)
JP (1) JP6939998B2 (ja)
WO (1) WO2019235116A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7427328B2 (ja) 2020-01-24 2024-02-05 Jrcモビリティ株式会社 特徴量の評価装置および評価装置方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11955001B2 (en) * 2021-09-27 2024-04-09 GridMatrix, Inc. Traffic near miss collision detection

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014235737A (ja) * 2013-05-31 2014-12-15 トヨタ自動車株式会社 シーン推定方法およびシーン推定装置
JP2018041319A (ja) * 2016-09-08 2018-03-15 日本電信電話株式会社 移動状況学習装置、移動状況認識装置、方法、及びプログラム
JP2018107057A (ja) 2016-12-28 2018-07-05 東芝ライテック株式会社 照明装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10083233B2 (en) * 2014-09-09 2018-09-25 Microsoft Technology Licensing, Llc Video processing for motor task analysis
US9953216B2 (en) * 2015-01-13 2018-04-24 Google Llc Systems and methods for performing actions in response to user gestures in captured images
KR102390876B1 (ko) * 2015-03-27 2022-04-26 삼성전자주식회사 가속도 센서를 이용하여 사용자의 활동을 인식하는 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014235737A (ja) * 2013-05-31 2014-12-15 トヨタ自動車株式会社 シーン推定方法およびシーン推定装置
JP2018041319A (ja) * 2016-09-08 2018-03-15 日本電信電話株式会社 移動状況学習装置、移動状況認識装置、方法、及びプログラム
JP2018107057A (ja) 2016-12-28 2018-07-05 東芝ライテック株式会社 照明装置

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
DALAL, NAVNEETTRIGGS, BILL: "Histograms of Oriented Gradients for Human Detection", PROC. OF COMPUTER VISION AND PATTERN RECOGNITION 2005, 2005, pages 886 - 893, XP010817365, DOI: 10.1109/CVPR.2005.177
J. REDMONS. DIVVALAR. GIRSHICKA. FARHADI: "You Only Look Once: Unified, Real-Time Object Detection", PROC. OF COMPUTER VISION AND PATTERN RECOGNITION 2016, 2016, pages 779 - 788
JENNIFER R. KWAPISZGARY M. WEISSSAMUEL A. MOORE: "Activity Recognition using Cell Phone Accelerometers", PROC. OF SENSORKDD, 2010
KRIZHEVSKY, A.SUTSKEVER, IHINTON, G. E., IMAGENET CLASSIFICATION WITH DEEP CONVOLUTIONAL NEURAL NETWORKS, 2012, pages 1106 - 1114
See also references of EP3783565A4
TFELIX A. GERSNICOL N. SCHRAUDOLPHJUERGEN SCHMIDHUBER: "Learning precise timing with LSTM recurrent networks", JOURNAL OF MACHINE LEARNING RESEARCH, vol. 3, 2002, pages 115 - 143, XP058112275, DOI: 10.1162/153244303768966139
YAMAMOTO, SHUHEI ET AL.: "Near-miss Scene Detection from Event Recorder Data Using Video and Sensor", IPSJ JOURNAL, vol. 10, no. 4, 2017, pages 26 - 30, XP009523776 *
ZHENG, Y.LIU, L.WANG, L.XIE, X.: "Learning transportation mode from raw GPS data for geographic applications on the web", PROC. OF WORLD WIDE WEB 2008, 2008, pages 247 - 256, XP058289328, DOI: 10.1145/1367497.1367532

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7427328B2 (ja) 2020-01-24 2024-02-05 Jrcモビリティ株式会社 特徴量の評価装置および評価装置方法

Also Published As

Publication number Publication date
EP3783565A1 (en) 2021-02-24
EP3783565A4 (en) 2021-06-30
EP3783565B1 (en) 2022-12-07
US20210225008A1 (en) 2021-07-22
JPWO2019235116A1 (ja) 2021-06-17
JP6939998B2 (ja) 2021-09-22
US11494918B2 (en) 2022-11-08

Similar Documents

Publication Publication Date Title
CN108460338B (zh) 人体姿态估计方法和装置、电子设备、存储介质、程序
JP6529470B2 (ja) 移動状況学習装置、移動状況認識装置、方法、及びプログラム
WO2018219198A1 (zh) 一种人机交互方法、装置及人机交互终端
WO2021143101A1 (zh) 人脸识别方法和人脸识别装置
CN106570522B (zh) 物体识别模型的建立方法及物体识别方法
JP2016062610A (ja) 特徴モデル生成方法及び特徴モデル生成装置
CN110555481A (zh) 一种人像风格识别方法、装置和计算机可读存储介质
JP6857547B2 (ja) 移動状況認識モデル学習装置、移動状況認識装置、方法、及びプログラム
WO2019208793A1 (ja) 移動状況認識モデル学習装置、移動状況認識装置、方法、及びプログラム
CN112801015A (zh) 一种基于注意力机制的多模态人脸识别方法
CN110222572A (zh) 跟踪方法、装置、电子设备及存储介质
CN110222718A (zh) 图像处理的方法及装置
CN114049512A (zh) 模型蒸馏方法、目标检测方法、装置及电子设备
CN112215831B (zh) 一种用于人脸图像质量的评价方法和系统
WO2019235116A1 (ja) 移動状況解析装置、移動状況解析方法及びプログラム
CN113269010B (zh) 一种人脸活体检测模型的训练方法和相关装置
CN113449548A (zh) 更新物体识别模型的方法和装置
KR20220010560A (ko) 이미지 내에서 대상체에 의해 수행되는 동작을 결정하기 위한 시스템 및 방법
CN111476144B (zh) 行人属性识别模型确定方法、装置及计算机可读存储介质
CN111178370B (zh) 车辆检索方法及相关装置
WO2023179593A1 (zh) 数据处理方法及装置
JP7176626B2 (ja) 移動状況学習装置、移動状況認識装置、モデル学習方法、移動状況認識方法、及びプログラム
CN116434173A (zh) 道路图像检测方法、装置、电子设备及存储介质
CN111796663B (zh) 场景识别模型更新方法、装置、存储介质及电子设备
US20210182686A1 (en) Cross-batch memory for embedding learning

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19815731

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020523573

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2019815731

Country of ref document: EP

Effective date: 20201120

NENP Non-entry into the national phase

Ref country code: DE