WO2020240727A1 - 学習装置、推論装置、制御方法及び記憶媒体 - Google Patents

学習装置、推論装置、制御方法及び記憶媒体 Download PDF

Info

Publication number
WO2020240727A1
WO2020240727A1 PCT/JP2019/021240 JP2019021240W WO2020240727A1 WO 2020240727 A1 WO2020240727 A1 WO 2020240727A1 JP 2019021240 W JP2019021240 W JP 2019021240W WO 2020240727 A1 WO2020240727 A1 WO 2020240727A1
Authority
WO
WIPO (PCT)
Prior art keywords
inference
image data
unit
moving image
feature
Prior art date
Application number
PCT/JP2019/021240
Other languages
English (en)
French (fr)
Inventor
周平 吉田
真 寺尾
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2019/021240 priority Critical patent/WO2020240727A1/ja
Priority to US17/608,201 priority patent/US11908177B2/en
Priority to JP2021521648A priority patent/JP7243821B2/ja
Publication of WO2020240727A1 publication Critical patent/WO2020240727A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • the present invention relates to a technical field of a learning device, an inference device, a control method, and a storage medium related to learning of feature extraction for moving image data.
  • Non-Patent Document 1 discloses a moving image recognition method using a three-dimensional convolutional neural network as a recognition processing method for moving image data. Further, Non-Patent Document 2 describes a feature extraction unit and a video recognition unit composed of a three-dimensional convolutional neural network based on a video recognition loss calculated from the result of video recognition in a learning model that inputs video data. Techniques for performing learning are disclosed.
  • Non-Patent Document 1 and Non-Patent Document 2 are based on the premise that sufficient video data for learning that has been correctly answered can be prepared, and are effective when the number of video data for learning that has been correctly answered is limited. No learning method is disclosed in Non-Patent Document 1 and Non-Patent Document 2.
  • An object of the present invention is to provide a learning device, an inference device, a control method, and a storage medium capable of suitably performing learning of moving image recognition in view of the above-mentioned problems.
  • One aspect of the learning device is a learning device, in which, when moving image data is input, a moving image feature amount which is a feature amount related to the moving image data is extracted, and when still image data is input, the stationary state is described.
  • a feature extraction unit that is learned to extract a still image feature amount that is a feature amount related to image data, a first inference unit that performs a first inference that is an inference about the moving image data based on the moving image feature amount, and the above.
  • Learning to perform learning of the feature extraction unit based on the results of the second inference unit that performs the second inference, which is the inference about the still image data, and the first inference and the second inference based on the still image feature amount. It has a part and.
  • One aspect of the control method is a control method executed by a learning device, and when moving image data is input, a moving image feature amount which is a feature amount related to the moving image data is extracted and still image data is input.
  • the still image feature amount which is the feature amount related to the still image data is extracted
  • the first inference which is the inference about the moving image data is performed based on the moving image feature amount
  • the still image feature amount is based on the still image feature amount.
  • a second inference which is an inference regarding image data, is performed, and based on the results of the first inference and the second inference, learning is performed to extract the moving image feature amount and the still image feature amount.
  • One aspect of the storage medium is to extract a moving image feature amount which is a feature amount related to the moving image data when the moving image data is input, and to use a feature amount related to the still image data when the still image data is input.
  • the first inference unit that performs the first inference that is the inference about the moving image data based on the moving image feature amount, and the still image feature amount.
  • the computer functions as a learning unit that learns the feature extraction unit based on the results of the second inference unit that performs the second inference, which is the inference regarding the still image data, and the first inference and the second inference. It is a storage medium for storing programs.
  • the feature extraction unit by learning the feature extraction unit using still image data in addition to the moving image data, it is possible to preferably learn the feature extraction unit that extracts the feature amount effective for moving image recognition.
  • the outline configuration of the learning system is shown. It is a schematic diagram which shows the functional structure of the learning apparatus which concerns on 1st Embodiment.
  • the block block diagram of the feature extraction part is shown.
  • a first configuration example of the feature conversion layer is shown.
  • a second configuration example of the feature conversion layer is shown.
  • B) A third configuration example of the feature conversion layer is shown.
  • This is an example of a flowchart showing the procedure of the second inference loss calculation process.
  • FIG. 1 shows a schematic configuration of the learning system 100 in the embodiment.
  • the learning system 100 preferably executes learning of a learning model that infers (recognizes) moving image data.
  • the learning system 100 includes a learning device 10 and a storage device 20.
  • the learning device 10 learns a learning model related to inference of video data.
  • the learning model may be a learning model based on a neural network, another type of learning model such as a support vector machine, or a learning model in which these are combined.
  • Examples of inference of video data include detection of a person performing a specific action such as a suspicious action, identification of an action performed by the person, detection of a sign of an accident, and the like.
  • the storage device 20 includes a moving image data storage unit 21, a still image data storage unit 22, a first correct answer data storage unit 23, a second correct answer data storage unit 24, a feature extraction unit information storage unit 25, and a first inference. It has a unit information storage unit 26 and a second inference unit information storage unit 27.
  • the storage device 20 may be an external storage device such as a hard disk connected or built in the learning device 10, or a storage medium such as a flash memory, and may be a server device that performs data communication with the learning device 10. And so on. Further, the storage device 20 is composed of a plurality of storage devices, and each of the above-mentioned storage units may be distributed and held.
  • the moving image data storage unit 21 stores moving image data which is learning data used for learning the learning model. Each moving image data stored in the moving image data storage unit 21 is associated with the correct answer data stored in the first correct answer data storage unit 23, which will be described later.
  • the still image data storage unit 22 stores still image data, which is learning data used for learning the learning model. Each still image data stored in the still image data storage unit 22 is associated with correct answer data stored in the second correct answer data storage unit 24, which will be described later.
  • the image data and the still image data for each image (frame) constituting the moving image data are data having values in the three-dimensional space formed by the vertical and horizontal directions of the image and the channel direction, respectively. ..
  • the channel direction for example, in the case of an RGB image, at least channels corresponding to the respective colors of R, G, and B are provided, and in the case of an image in which distance information is included for each pixel, the distance information is provided. At least the corresponding channels are provided.
  • the first correct answer data storage unit 23 stores the correct answer data for the moving image data stored in the moving image data storage unit 21.
  • the correct answer data is data indicating a result to be inferred when the target moving image data is input, and is associated with the target moving image data stored in the moving image data storage unit 21.
  • the storage device 20 may store the moving image data to which the corresponding correct answer data is added in the moving image data storage unit 21.
  • the second correct answer data storage unit 24 stores the correct answer data for the still image data stored in the still image data storage unit 22.
  • the correct answer data is data indicating a result to be inferred when the target still image data is input, and is associated with the target still image data stored in the still image data storage unit 22.
  • the storage device 20 may store the still image data to which the corresponding correct answer data is added in the still image data storage unit 22 instead of having the second correct answer data storage unit 24.
  • the feature extraction unit information storage unit 25 stores information on parameters necessary for the feature extraction unit (feature extraction unit 31 in FIG. 2) to function, which will be described later.
  • the first inference unit information storage unit 26 stores information on parameters necessary for functioning the first inference unit (first inference unit 32 in FIG. 2), which will be described later.
  • the second inference unit information storage unit 27 stores information on parameters necessary for functioning the second inference unit (second inference unit 34 in FIG. 2), which will be described later.
  • the learning device 10 includes a processor 11, a memory 12, and an interface 13 as hardware.
  • the processor 11, the memory 12, and the interface 13 are connected via the data bus 19.
  • the processor 11 executes a predetermined process by executing the program stored in the memory 12.
  • the processor 11 is a processor such as a CPU (Central Processing Unit) and a GPU (Graphics Processing Unit).
  • the memory 12 is composed of various types of memory such as a RAM (Random Access Memory), a ROM (Read Only Memory), and a flash memory. Further, the memory 12 stores a program for executing a process related to learning executed by the learning device 10. Further, the memory 12 is used as a working memory and temporarily stores information and the like acquired from the storage device 20.
  • the memory 12 may function as a storage device 20 or a part of the storage device 20. In this case, instead of the storage device 20, the memory 12 has a moving image data storage unit 21, a still image data storage unit 22, a first correct answer data storage unit 23, a second correct answer data storage unit 24, and a feature extraction unit information storage unit 25. , At least one of the first inference unit information storage unit 26 and the second inference unit information storage unit 27 may be stored.
  • the storage device 20 may function as the memory 12 of the learning device 10.
  • the interface 13 is a communication interface for transmitting and receiving data to and from the storage device 20 by wire or wirelessly based on the control of the processor 11, and corresponds to a network adapter or the like.
  • the learning device 10 and the storage device 20 may be connected by a cable or the like.
  • the interface 13 is an interface compliant with USB, SATA (Serial AT Attainment), etc. for exchanging data with the storage device 20, in addition to a communication interface for data communication with the storage device 20.
  • the hardware configuration of the learning device 10 is not limited to the configuration shown in FIG.
  • the learning device 10 may further include a display unit such as a display, an input unit such as a keyboard and a mouse, and a sound output unit such as a speaker.
  • the learning device 10 may be composed of a plurality of devices. In this case, each of these devices exchanges information necessary for each device to execute a predeterminedly assigned process.
  • FIG. 2 is a schematic diagram showing a functional configuration of the learning device 10.
  • the processor 11 of the learning device 10 includes a feature extraction unit 31, a first inference unit 32, a first inference loss calculation unit 33, a second inference unit 34, and a second inference loss calculation unit. It has 35 and an update unit 36.
  • the feature extraction unit 31 executes a feature extraction process on the moving image data stored in the moving image data storage unit 21 and the still image data stored in the still image data storage unit 22. Specifically, the feature extraction unit 31 extracts the moving image feature amount “Fm”, which is the feature amount related to the moving image data Dm, from the moving image data Dm when the moving image data “Dm” is input from the moving image data storage unit 21. .. Further, when the still image data "Ds" is input from the still image data storage unit 22, the feature extraction unit 31 converts the still image feature amount "Fs”, which is a feature amount related to the still image data Ds, into the still image data Ds. Extract from.
  • the feature extraction unit 31 extracts the moving image feature amount “Fm”, which is the feature amount related to the moving image data Dm
  • the feature extraction unit 31 is a learning model trained to extract the moving image feature amount Fm from the input moving image data Dm and to extract the still image feature amount Fs from the input still image data Ds. is there. Further, the feature extraction unit 31 has parameters common to the extraction of the moving image feature amount Fm and the extraction of the still image feature amount Fs. Then, this parameter is suitably updated in both the learning using the moving image data Dm and the learning using the still image data Ds.
  • the feature extraction unit 31 is configured by learning a learning model such as a convolutional neural network.
  • the feature extraction unit 31 is not limited to the learning model based on the neural network, and may function based on other types of learning models such as a support vector machine. A specific configuration example of the feature extraction unit 31 will be described later.
  • the feature extraction unit information storage unit 25 stores information on parameters necessary for the feature extraction unit 31 to function. For example, when the feature extraction unit 31 has a configuration based on a neural network, the feature extraction unit information storage unit 25 contains the layer structure of the feature extraction unit 31, the neuron structure of each layer, the number of filters and the filter size in each layer, and each filter. Contains information on various parameters such as the weight of each element of.
  • the first inference unit 32 makes inferences about actions or events (also referred to as “first inference") based on the moving image feature amount Fm supplied from the feature extraction unit 31, and is the result of the first inference.
  • the inference result "Rm" is output.
  • the first inference unit 32 outputs information indicating the probability that each operation or event to be detected or identified by the first inference has occurred as the first inference result Rm as the first inference result Rm.
  • the first inference unit 32 is a learning model trained to output the first inference result Rm based on the moving image feature amount Fm supplied from the feature extraction unit 31.
  • the first inference unit 32 may adopt a learning model based on a neural network such as a convolutional neural network, or may adopt another kind of learning model such as a support vector machine.
  • the first inference unit information storage unit 26 stores information on parameters necessary for the first inference unit 32 to function.
  • the first inference loss calculation unit 33 refers to the first inference by the first inference unit 32 based on the first inference result Rm and the correct answer data corresponding to the moving image data Dm acquired from the first correct answer data storage unit 23.
  • the first inference loss "Lm" which is a loss, is calculated.
  • the loss function used for the first inference loss Lm may be any loss function used in machine learning such as cross entropy and mean squared error. Then, the first inference loss calculation unit 33 supplies the calculated first inference loss Lm to the update unit 36.
  • the second inference unit 34 makes inferences related to the identification of the object (also referred to as "second inference") based on the still image feature amount Fs supplied from the feature extraction unit 31, and is the result of the second inference.
  • the second inference result "Rs" is output.
  • the second inference unit 34 outputs information indicating the probability that an object or event to be recognized by the second inference exists or occurs as the second inference result Rs as the second inference result Rs.
  • the second inference unit 34 is a learning model trained to output the second inference result Rs based on the still image feature amount Fs supplied from the feature extraction unit 31.
  • the second inference unit 34 may adopt a learning model based on a neural network such as a convolutional neural network, or may adopt another kind of learning model such as a support vector machine.
  • the second inference unit information storage unit 27 stores information on parameters necessary for the second inference unit 34 to function.
  • the second inference loss calculation unit 35 is based on the second inference result Rs and the correct answer data corresponding to the still image data Ds acquired from the second correct answer data storage unit 24, and the second inference by the second inference unit 34.
  • the second inference loss "Ls" which is the loss against the above, is calculated.
  • the loss function used for the second inference loss Ls may be any loss function used in machine learning. Then, the second inference loss calculation unit 35 supplies the calculated second inference loss Ls to the update unit 36.
  • the update unit 36 is based on the first inference loss Lm supplied from the first inference loss calculation unit 33 and the second inference loss Ls supplied from the second inference loss calculation unit 35, and the feature extraction unit 31, the first Each parameter of the inference unit 32 and the second inference unit 34 is updated.
  • the update unit 36 changes the parameters of the feature extraction unit 31, the first inference unit 32, and the second inference unit 34 so that the first inference loss Lm and the second inference loss Ls decrease, and after the change.
  • the parameters of each unit are stored in the feature extraction unit information storage unit 25, the first inference unit information storage unit 26, and the second inference unit information storage unit 27, respectively.
  • the update unit 36 has the feature extraction unit 31, the first inference unit 32, and the first inference loss so that the sum of the first inference loss Lm and the second inference loss Ls is minimized.
  • Each parameter of the calculation unit 33 is determined.
  • the update unit 36 performs a process of determining the parameters of the feature extraction unit 31 and the first inference unit 32 so that the first inference loss Lm is minimized, and the second inference loss Ls is minimized. The process of determining the parameters of the feature extraction unit 31 and the first inference loss calculation unit 33 is executed independently of each other.
  • the update unit 36 performs a process of determining the parameters of the feature extraction unit 31 and the first inference unit 32 so that the first inference loss Lm is minimized so that the second inference loss Ls is minimized.
  • the process of determining the parameters of the feature extraction unit 31 and the first inference loss calculation unit 33 may be performed before or after the process.
  • An algorithm for determining each parameter so as to minimize the first inference loss Lm and the second inference loss Ls based on the first example or the second example is used in machine learning such as gradient descent method and error back propagation method. It may be any learning algorithm used.
  • FIG. 3 shows a block configuration diagram of the feature extraction unit 31.
  • the feature extraction unit 31 includes one or a plurality of feature conversion layers 40.
  • the feature extraction unit 31 has N feature conversion layers 40 (first to Nth feature conversion layers) as constituent elements (N is an integer).
  • the first feature conversion layer When the moving image data Dm and the still image data Ds are input, the first feature conversion layer performs each feature conversion so that the feature amount for each frame (for each image) is represented by the same feature space.
  • the feature amounts of the moving image data Dm and the still image data Ds after the feature conversion are supplied to the second feature conversion layer.
  • the feature amounts corresponding to the moving image data Dm and the still image data Ds supplied from the feature conversion layer provided in the previous stage are represented by the same feature space for each image.
  • Each feature conversion is performed in this manner, and the feature amounts of the moving image data Dm and the still image data Ds after the feature conversion are supplied to the feature conversion layer in the subsequent stage.
  • the Nth feature conversion layer performs feature conversion on the feature amounts corresponding to the moving image data Dm and the still image data Ds supplied from the N-1 feature, respectively, and the moving image feature which is the feature amount after the feature conversion.
  • the amount Fm and the still image feature amount Fs are output.
  • the feature extraction unit 31 may include at least one feature conversion layer 40.
  • each feature conversion layer 40 may have the same structure, or may have a different structure for each feature conversion layer 40.
  • FIG. 4 shows a first configuration example of the feature conversion layer 40.
  • the feature conversion layer 40 according to the first configuration example shown in FIG. 4 includes an image feature conversion block 41, a time series feature conversion block 42, and a point feature conversion block 43.
  • the image feature conversion block 41 performs feature conversion for each image (that is, in the spatial direction) with respect to the input moving image data Dm, still image data Ds, or these feature amounts. Specifically, when the feature amount of the moving image data Dm or the moving image data Dm is input, the image feature conversion block 41 features the moving image data Dm or the feature amount of the moving image data Dm for each frame (that is, for each image). Perform the conversion. Further, the image feature conversion block 41 also performs feature conversion for the feature amount of the still image data Ds or the still image data Ds even when the feature amount of the still image data Ds or the still image data Ds is input.
  • the image feature conversion block 41 is composed of, for example, a two-dimensional convolutional neural network that is learned to perform feature conversion for each image.
  • the four-dimensional space in which the moving image data Dm input to the image feature conversion block 41 or the feature amount thereof is represented is expressed as “H ⁇ W ⁇ C ⁇ T” based on the data length of each dimension.
  • “H” indicates the data length (image size) in the vertical direction of the image
  • "W” indicates the data length in the horizontal direction of the image
  • “C” indicates the data length (number of channels) in the channel direction.
  • “T” indicates the data length (number of frames) in the time direction.
  • the image feature conversion block 41 converts the moving image data Dm in the space “H ⁇ W ⁇ C ⁇ T” or its feature amount into the feature amount in the space “H1 ⁇ W1 ⁇ C1 ⁇ T”.
  • H1 is the vertical data length of the image after the feature conversion by the image feature conversion block 41
  • W1 is the horizontal data length of the image after the feature conversion by the image feature conversion block 41
  • C1 indicates the data length (number of channels) in the channel direction of the image after the feature conversion by the image feature conversion block 41. In this way, the image feature conversion block 41 performs feature conversion in each direction except the time direction with respect to the moving image data Dm or the feature amount thereof input to the image feature conversion block 41.
  • the image feature conversion block 41 executes feature conversion in each direction other than the time direction for the input moving image data Dm and still image data Ds.
  • the time-series feature conversion block 42 performs feature conversion in the time direction with respect to the feature amount of the moving image data Dm input from the image feature conversion block 41.
  • the image feature conversion block 41 is composed of, for example, a one-dimensional convolutional neural network that is learned to perform feature conversion in the time direction.
  • the time-series feature conversion block 42 uses the feature amount of the moving image data Dm of the space “H1 ⁇ W1 ⁇ C1 ⁇ T” supplied from the image feature conversion block 41 as the space “H1 ⁇ W1 ⁇ C2 ⁇ T1”. It is converted into the feature amount of.
  • C2 is the data length (number of channels) in the channel direction after feature conversion by the time series feature conversion block 42
  • T1 is the data length (frame) in the time direction after feature conversion by the time series feature conversion block 42. Number) is shown.
  • the time-series feature conversion block 42 performs feature conversion in the time direction and the channel direction with respect to the feature amount of the moving image data Dm input to the image feature conversion block 41.
  • the point feature conversion block 43 performs point feature conversion with respect to the feature amount of the still image data Ds input from the image feature conversion block 41.
  • the image feature conversion block 41 is composed of, for example, a 0-dimensional convolutional neural network that is learned to perform feature conversion in the channel direction of each pixel.
  • the point feature conversion block 43 uses the feature amount of the still image data Ds of the space “H1 ⁇ W1 ⁇ C1” supplied from the image feature conversion block 41 as the feature amount of the space “H1 ⁇ W1 ⁇ C2”. Convert to.
  • the number of channels C2 of the feature amount of the still image data Ds after the feature conversion by the point feature conversion block 43 is the same as the number of channels C2 of the feature amount of the moving image data Dm after the feature conversion by the time series feature conversion block 42. It has become.
  • the point feature conversion block 43 is represented by the same feature space as the feature amount for each image of the moving image data Dm feature-converted by the time-series feature conversion block 42, so that the feature amount of the still image data Ds is represented. Perform the conversion of.
  • the point feature conversion block 43 has the same data length (that is, the same number of channels) in the channel direction as the feature amount of the moving image data Dm converted by the time series feature conversion block 42, so that the still image data Ds Convert features.
  • the feature quantities output from the time-series feature conversion block 42 and the point feature conversion block 43 are input to the image feature conversion block 41 of the feature conversion layer 40 in the subsequent stage as feature quantities of the same format.
  • Feature conversion is preferably performed by the image feature conversion block 41. Therefore, the feature conversion layer 40 can perform feature conversion on the moving image data Dm and the still image data Ds by the common image feature conversion block 41.
  • the image feature conversion block 41 is not limited to the convolutional neural network, and may be an arbitrary learning model that is trained to perform feature conversion for each image.
  • the time-series feature conversion block 42 is not limited to the convolutional neural network, and may be any learning model trained to perform feature conversion in the time direction and the channel direction.
  • the point feature conversion block 43 is not limited to the convolutional neural network, and may be any learning model trained to perform feature conversion in the channel direction.
  • the convolutional neural network has a large amount of parameters, and in order to learn these parameters, a large amount of moving image data Dm in which correct answer data is linked. Is required. Further, in general, when the learning data is small, the correlation irrelevant to the recognition included in the learning data is learned, and the recognition accuracy is not sufficient.
  • the feature conversion layer 40 includes an image feature conversion block 41 that commonly executes feature conversion related to moving image data Dm and feature conversion related to still image data Ds.
  • the image feature conversion block 41 preferably learns the parameters in both the learning using the moving image data Dm and the learning using the still image data Ds. Therefore, even if the number of moving image data Dm and its correct answer data is insufficient for the number required for learning to achieve sufficient recognition accuracy, the learning device 10 uses the still image data Ds. By the learning used, the image feature conversion block 41 and the like can be learned, and the parameters of the image feature conversion block 41 can be learned with high accuracy.
  • FIG. 5A shows a second configuration example of the feature conversion layer 40.
  • the feature conversion layer 40 according to the second configuration example shown in FIG. 5A is different from the feature conversion layer 40 according to the first configuration example in that the point feature conversion block 43A is provided in front of the image feature conversion block 41. ..
  • the point feature conversion block 43A performs point feature conversion on the input moving image data Dm, still image data Ds, or these feature amounts.
  • the image feature conversion block 41 is composed of, for example, a 0-dimensional convolutional neural network that is learned to perform feature conversion in the channel direction of each pixel.
  • the point feature conversion block 43A performs feature conversion in the channel direction for the input moving image data Dm or its feature amount and the still image data Ds or its feature amount, and obtains the feature amount after the feature conversion as an image feature. It is supplied to the conversion block 41.
  • the vertical, horizontal, and channel direction data lengths of the feature amount for each image of the moving image data Dm input to the image feature conversion block 41 are still images input to the image feature conversion block 41. It becomes the same as each data length in the vertical direction, the horizontal direction, and the channel direction of the image of the data Ds.
  • the feature conversion layer 40 according to the second configuration example like the feature conversion layer 40 according to the first configuration example, transfers the feature amounts of the same format to the moving image data Dm and the still image data Ds into the image feature conversion block 41. You can enter it. Therefore, the feature conversion layer 40 according to the second configuration example can suitably perform feature conversion for the moving image data Dm or the still image data Ds by the common image feature conversion block 41.
  • FIG. 5B shows a third configuration example of the feature conversion layer 40.
  • the feature conversion layer 40 according to the third configuration example shown in FIG. 5 (B) includes two point feature conversion blocks 43B and a point feature conversion block 43C in place of the point feature conversion block 43. It is different from the feature conversion layer 40 according to the above.
  • the point feature conversion block 43B and the point feature conversion block 43C perform point feature conversion with respect to the feature amount of the input still image data Ds, respectively.
  • the time-series feature conversion block 42 converts the feature amount of the moving image data Dm of "H1 x W1 x C1 x T" into the feature amount of "H1 x W1 x C2 x T1", and the image feature conversion block 41 points. It is assumed that the feature amount of the still image data Ds of "H1 x W1 x C1" is input to the feature conversion block 43B.
  • the point feature conversion block 43B converts the feature amount of the still image data Ds of "H1 x W1 x C1" into the feature amount of "H1 x W1 x C1 ⁇ ", and the point feature conversion block 43C is the point feature.
  • the feature amount of "H1 x W1 x C1 ⁇ ” input from the conversion block 43B is converted into the feature amount of "H1 x W1 x C2".
  • "C1 ⁇ " indicates the data length (number of channels) in the channel direction after feature conversion by the point feature conversion block 43B.
  • the number of channels C2 of the feature amount of the still image data Ds after the feature conversion by the point feature conversion block 43C is the same as the number of channels C2 of the feature amount of the moving image data Dm after the feature conversion by the time series feature conversion block 42. It has become.
  • the point feature conversion block 43B and the point feature conversion block 43C according to the third configuration example have the same format as the feature amount for each image of the moving image data Dm feature-converted by the time-series feature conversion block 42. , The feature amount of the still image data Ds is converted. Therefore, also in the third configuration example, as in the first and second configuration examples, the feature conversion layer 40 performs feature conversion for both the moving image data Dm and the still image data Ds by the common image feature conversion block 41. Can be done.
  • the feature extraction unit 31 has a layer structure including at least one feature conversion layer 40, which is a layer having an image feature conversion block 41, a time series feature conversion block 42, and a point feature conversion block 43. Have.
  • FIG. 6 is an example of a flowchart showing an outline of learning processing executed by the learning device 10.
  • the learning device 10 determines whether or not learning should be continued (step S11). Then, when the learning device 10 determines that the learning should be continued (step S11; Yes), the learning device 10 proceeds to the process in step S12. For example, when the learning device 10 detects a user input that specifies the moving image data Dm and the still image data Ds to be learned, or performs learning among the moving image data Dm and the still image data Ds designated as the learning target. If there is something that has not been done, it is judged that learning should be continued. On the other hand, when it is determined that the learning should not be continued (step S11; No), the learning device 10 ends the processing of the flowchart. The learning device 10 learns, for example, when it detects a user input to the effect that learning should be completed, or when learning using all the moving image data Dm and still image data Ds designated as learning targets is completed. Judge that should not be continued.
  • the feature extraction unit 31, the first inference unit 32, and the first inference loss calculation unit 33 of the learning device 10 calculate the first inference loss Lm based on the moving image data Dm stored in the moving image data storage unit 21.
  • the first inference loss calculation process is executed (step S12).
  • the first inference loss calculation process will be described later with reference to FIG.
  • the feature extraction unit 31, the second inference unit 34, and the second inference loss calculation unit 35 of the learning device 10 calculate the second inference loss Ls based on the still image data Ds stored in the still image data storage unit 22.
  • the second inference loss calculation process which is the process to be performed, is executed (step S13). The second inference loss calculation process will be described later with reference to FIG.
  • the update unit 36 of the learning device 10 has the feature extraction unit 31 and the first inference unit 32 based on the first inference loss Lm calculated in step S12 and the second inference loss Ls calculated in step S13.
  • the parameters related to the second inference unit 34 are updated (step S14).
  • the update unit 36 updates the parameters stored in the feature extraction unit information storage unit 25, the first inference unit information storage unit 26, and the second inference unit information storage unit 27, respectively.
  • the update unit 36 has the feature extraction unit 31, the first inference unit 32, and the second inference unit so that the sum of the first inference loss Lm and the second inference loss Ls is minimized.
  • Each parameter of 34 is determined.
  • the update unit 36 performs a process of determining the parameters of the feature extraction unit 31 and the first inference unit 32 so that the first inference loss Lm is minimized, and the second inference loss Ls is minimized.
  • the process of determining the parameters of the feature extraction unit 31 and the second inference unit 34 is executed independently of each other.
  • FIG. 7 is an example of a flowchart showing a procedure of the first inference loss calculation process executed by the learning device 10 in step S12 of FIG.
  • the learning device 10 inputs the moving image data Dm stored in the moving image data storage unit 21 into the feature extraction unit 31 (step S21).
  • the storage device 20 is a server device or the like
  • the learning device 10 inputs the moving image data Dm received from the server device to the feature extraction unit 31.
  • the feature extraction unit 31 of the learning device 10 converts the input moving image data Dm into the moving image feature amount Fm based on the parameters stored in the feature extracting unit information storage unit 25 (step S22). Then, the first inference unit 32 of the learning device 10 outputs the first inference result Rm from the moving image feature amount Fm output by the feature extraction unit 31 based on the parameters stored in the first inference unit information storage unit 26 ( Step S23). Then, the first inference loss calculation unit 33 of the learning device 10 calculates the first inference loss Lm based on the first inference result Rm output by the first inference unit 32 (step S24).
  • the first inference loss calculation unit 33 is based on, for example, the correct answer data stored in the first correct answer data storage unit 23 and corresponding to the moving image data Dm input in step S21, and the first inference result Rm.
  • the first inference loss Lm is calculated by using a predetermined loss function.
  • FIG. 8 is an example of a flowchart showing a procedure of the second inference loss calculation process executed by the learning device 10 in step S13 of FIG.
  • the feature extraction unit 31 of the learning device 10 inputs the still image data Ds stored in the still image data storage unit 22 into the feature extraction unit 31 (step S31).
  • the storage device 20 is a server device or the like
  • the learning device 10 inputs the still image data Ds received from the server device to the feature extraction unit 31.
  • the feature extraction unit 31 of the learning device 10 converts the input still image data Ds into the still image feature amount Fs based on the parameters stored in the feature extraction unit information storage unit 25 (step S32). Then, the second inference unit 34 of the learning device 10 outputs the second inference result Rs from the still image feature amount Fs output by the feature extraction unit 31 based on the parameters stored in the second inference unit information storage unit 27. (Step S33). Then, the second inference loss calculation unit 35 of the learning device 10 calculates the second inference loss Ls based on the second inference result Rs output by the second inference unit 34 (step S34).
  • the second inference loss calculation unit 35 is based on the correct answer data stored in the second correct answer data storage unit 24 and corresponding to the still image data Ds input in step S31, and the second inference result Rs.
  • the second inference loss Ls is calculated by using a predetermined loss function.
  • the learning device 10 executed the first inference loss calculation process before the second inference loss calculation process, but the second inference loss calculation process preceded the first inference loss calculation process. May be executed. Further, the learning device 10 has a process of an update unit 36 based on the first inference loss Lm obtained by the first inference loss calculation process and an update unit based on the second inference loss Ls obtained by the second inference loss calculation process. The processing of 36 may be executed at an independent timing.
  • FIG. 9 is a modified example of a flowchart showing an outline of the learning process executed by the learning device 10.
  • the learning device 10 executes the second inference loss calculation process before the first inference loss calculation process, and updates the parameters based on the loss obtained by the process immediately after each process. Is running independently.
  • the learning device 10 determines whether or not learning should be continued (step S41). Then, when it is determined that the learning should be continued (step S41; Yes), the learning device 10 executes the second inference loss calculation process (step S42). Then, the update unit 36 of the learning device 10 updates each parameter of the feature extraction unit 31 and the second inference unit 34 based on the second inference loss Ls obtained by the second inference loss calculation process (step S43). .. In other words, the update unit 36 updates each parameter stored in the feature extraction unit information storage unit 25 and the second inference unit information storage unit 27.
  • the learning device 10 executes the first inference loss calculation process (step S44). Then, the update unit 36 of the learning device 10 updates each parameter of the feature extraction unit 31 and the first inference unit 32 based on the first inference loss Lm obtained by the first inference loss calculation process (step S45). .. In other words, the update unit 36 updates each parameter stored in the feature extraction unit information storage unit 25 and the first inference unit information storage unit 26.
  • Person motion identification diagram 10 is a schematic diagram showing a functional configuration of a learning device 10A that performs learning for identifying a person motion.
  • the processor 11 of the learning device 10A includes a feature extraction unit 31, a person motion identification unit 32A, a person motion identification loss calculation unit 33A, a posture estimation unit 34A, a posture estimation loss calculation unit 35A, and an update unit 36. .. Further, the moving image data storage unit 21 and the first correct answer data storage unit 23 store the moving image data Dm, which is learning data for identifying the person's movement, and the correct answer data, respectively, and the still image data storage unit 22 and the second correct answer data storage unit 22 and the second. The correct answer data storage unit 24 stores still image data Ds, which is learning data for posture estimation, and the correct answer data, respectively.
  • the feature extraction unit 31 generates a moving image feature amount Fm for the input moving image data Dm, and generates a still image feature amount Fs for the input still image data Ds. Then, the feature extraction unit 31 supplies the generated moving image feature amount Fm to the person motion identification unit 32A, and supplies the generated still image feature amount Fs to the posture estimation unit 34A.
  • the feature extraction unit 31 has one or more feature conversion layers 40 (see FIG. 3).
  • the feature conversion layer 40 has, for example, the configuration shown in any of FIGS. 4 or 5 (A) and 5 (B) described above.
  • the person movement identification unit 32A corresponds to the first inference unit 32 in FIG. 2, and outputs the person movement identification result "Rma" based on the moving image feature amount Fm input from the feature extraction unit 31.
  • the person motion identification unit 32A outputs information indicating the probability of each person motion to be identified as the person motion identification result Rma.
  • the person motion identification unit 32A is a learning model learned to output the person motion identification result Rma based on the moving image feature amount Fm supplied from the feature extraction unit 31.
  • the first inference unit information storage unit 26 stores the parameter information necessary for operating the person motion identification unit 32A.
  • the person movement identification loss calculation unit 33A corresponds to the first inference loss calculation unit 33 in FIG. 2, and is used as the person movement identification result Rma and the correct answer data of the moving image data Dm acquired from the first correct answer data storage unit 23. Based on this, the person motion identification loss "Lma”, which is the loss for the person motion identification result Rma, is calculated. Then, the person motion identification loss calculation unit 33A supplies the person motion identification loss Lma to the update unit 36.
  • the posture estimation unit 34A corresponds to the second inference unit 34 in FIG. 2, performs posture estimation processing of a person based on the still image feature amount Fs supplied from the feature extraction unit 31, and performs posture estimation results for the posture estimation processing. Output "Rsa".
  • the posture estimation unit 34A outputs information indicating the probability for each posture to be estimated as the posture estimation result RSA.
  • the posture estimation unit 34A is a learning model learned to output the posture estimation result RSA based on the still image feature amount Fs supplied from the feature extraction unit 31.
  • the second inference unit information storage unit 27 stores information on parameters necessary for the posture estimation unit 34A to function.
  • the attitude estimation loss calculation unit 35A corresponds to the second inference loss calculation unit 35 in FIG. 2, and is based on the attitude estimation result RSA and the correct answer data of the still image data Ds acquired from the second correct answer data storage unit 24. , Attitude estimation result Attitude estimation loss “Lsa”, which is a loss with respect to RSA, is calculated. Then, the posture estimation loss calculation unit 35A supplies the calculated posture estimation loss Lsa to the update unit 36.
  • the update unit 36 is based on the person motion identification loss Lma supplied from the person motion identification loss calculation unit 33A and the posture estimation loss Lsa supplied from the posture estimation loss calculation unit 35A, and the feature extraction unit 31 and the person motion identification unit 31. Each parameter of 32A and the posture estimation unit 34A is determined. Then, the update unit 36 stores the determined parameters of each unit in the feature extraction unit information storage unit 25, the first inference unit information storage unit 26, and the second inference unit information storage unit 27, respectively.
  • the learning device 10A learns the posture estimation that needs to pay attention to the person area as well as the person movement identification at the same time as learning the person movement identification by the moving image data Dm by using the still image data Ds. To do.
  • the learning device 10A uses both the moving image data Dm and the still image data Ds to learn the feature extraction unit 31 that extracts the feature amount related to the person area even when the learning data of the moving image is small. It can be preferably carried out.
  • FIG. 11 is a schematic diagram showing a functional configuration of a learning device 10B that performs learning for detecting human behavior.
  • the processor 11 of the learning device 10B includes a feature extraction unit 31, a person behavior detection unit 32B, a person behavior detection loss calculation unit 33B, a person detection unit 34B, a person detection loss calculation unit 35B, and an update unit 36. .. Further, the moving image data storage unit 21 and the first correct answer data storage unit 23 store the moving image data Dm, which is learning data for detecting human behavior, and the correct answer data, respectively, and the still image data storage unit 22 and the second correct answer data storage unit 22 and the second.
  • the correct answer data storage unit 24 stores still image data Ds, which is learning data for detecting a person, and the correct answer data, respectively.
  • the feature extraction unit 31 generates a moving image feature amount Fm for the input moving image data Dm, and generates a still image feature amount Fs for the input still image data Ds. Then, the feature extraction unit 31 supplies the generated moving image feature amount Fm to the person behavior detection unit 32B, and supplies the generated still image feature amount Fs to the person detection unit 34B.
  • the feature extraction unit 31 has one or more feature conversion layers 40 (see FIG. 3).
  • the feature conversion layer 40 has, for example, the configuration shown in any of FIGS. 4 or 5 (A) and 5 (B) described above.
  • the person behavior detection unit 32B corresponds to the first inference unit 32 in FIG. 2, and outputs the person behavior detection result "Rmb" based on the moving image feature amount Fm input from the feature extraction unit 31.
  • the person behavior detection unit 32B outputs information on the presence / absence of detection of a person and the behavior estimated when the detected person exists as the person behavior detection result Rmb.
  • the human behavior detection unit 32B is a learning model learned to output the human behavior detection result Rmb based on the moving image feature amount Fm supplied from the feature extraction unit 31.
  • the first inference unit information storage unit 26 stores information on parameters necessary for the human behavior detection unit 32B to function.
  • the person behavior detection loss calculation unit 33B corresponds to the first inference loss calculation unit 33 in FIG. 2, and is a loss with respect to the person behavior detection result Rmb based on the person behavior detection result Rmb input from the person behavior detection unit 32B.
  • the behavior detection loss "Lmb" is calculated. Then, the person behavior detection loss calculation unit 33B supplies the person behavior detection loss Lmb to the update unit 36.
  • the person detection unit 34B corresponds to the second inference unit 34 in FIG. 2, performs a process of detecting a person based on the still image feature amount Fs supplied from the feature extraction unit 31, and performs a process of detecting a person, and the person detection result “Rsb” for the process is performed. Is output.
  • the person behavior detection unit 32B outputs information regarding the presence / absence of detection of a person as a person detection result Rsb as a person detection result Rsb.
  • the person detection unit 34B is a learning model learned to output the person detection result Rsb based on the still image feature amount Fs supplied from the feature extraction unit 31.
  • the second inference unit information storage unit 27 stores information on parameters necessary for the person detection unit 34B to function.
  • the person detection loss calculation unit 35B corresponds to the second inference loss calculation unit 35 in FIG. 2, and is a still image acquired from the person detection result Rsb supplied from the person detection unit 34B and the second correct answer data storage unit 24. Based on the correct answer data of the data Ds, the person detection loss "Lsb", which is a loss with respect to the person detection result Rsb, is calculated. Then, the person detection loss calculation unit 35B supplies the calculated person detection loss Lsb to the update unit 36.
  • the update unit 36 is a feature extraction unit 31 and a person behavior detection unit based on the person behavior detection loss Lmb supplied from the person behavior detection loss calculation unit 33B and the person detection loss Lsb supplied from the person detection loss calculation unit 35B. Each parameter of 32B and the person detection unit 34B is determined. Then, the update unit 36 stores the determined parameters of each unit in the feature extraction unit information storage unit 25, the first inference unit information storage unit 26, and the second inference unit information storage unit 27, respectively.
  • the learning device 10B learns the person behavior detection by the moving image data Dm and at the same time learns the person detection that needs to pay attention to the person area as well as the person behavior detection by using the still image data Ds. To do.
  • the learning device 10B uses both the moving image data Dm and the still image data Ds to learn the feature extraction unit 31 that extracts the feature amount related to the person area even when the learning data of the moving image is small. It can be preferably carried out.
  • the learning device 10 is not limited to the application examples shown in FIGS. 10 and 11, and the learning device 10 combines the inference using the moving image data Dm with various inferences using the still image data Ds to obtain the feature extraction unit 31. You may study.
  • the learning device 10 may execute various inferences such as image classification processing and semantic segmentation on the still image data Ds in which an object of the same type as the moving image data Dm is displayed.
  • FIG. 12 is a schematic diagram showing a functional configuration in the learning process of the learning device 10C according to the second embodiment.
  • the learning device 10C according to the second embodiment is different from the learning device 10 of the first embodiment in that the processing result of the second inference unit 34 for the still image data Ds is used for the processing of the first inference unit 32.
  • the feature extraction unit 31, the first inference loss calculation unit 33, the second inference loss calculation unit 35, and the update unit 36 perform the same processing as in the first embodiment, and thus the description thereof will be omitted.
  • the second inference unit 34C of the learning device 10C is a still image feature amount extracted from the still image data Ds by the feature extraction unit 31 as in the second inference unit 34 of the first embodiment.
  • the second inference result Rs is output based on Fs.
  • the update unit 36 sets each parameter of the feature extraction unit 31 and the second inference unit 34C so as to minimize the second inference loss Ls calculated by the second inference loss calculation unit 35 based on the second inference result Rs. Update.
  • the learning device 10C supplies the moving image feature amount Fm with respect to the moving image data Dm to the first inference unit 32C, and the feature extraction unit 31 supplies an image (frame) constituting the moving image data Dm.
  • the still image feature amount Fs which is the feature amount for each), is supplied to the second inference unit 34C.
  • the second inference unit 34C calculates the second inference result Rs based on the still image feature amount Fs supplied from the feature extraction unit 31, and the calculated second inference result Rs is combined with the first inference unit 32C. 2 Supply to the inference loss calculation unit 35, respectively. Further, the first inference unit 32C calculates the first inference result Rm based on the moving image feature amount Fm supplied from the feature extraction unit 31 and the second inference result Rs supplied from the second inference unit 34C. Then, the first inference unit 32C supplies the calculated first inference result Rm to the first inference loss calculation unit 33.
  • the second inference unit 34C calculates the second inference result Rs based on the still image feature amount Fs supplied from the feature extraction unit 31, and transfers the calculated second inference result Rs to the second inference loss calculation unit 35. Supply.
  • the update unit 36 has a first inference loss Lm calculated by the first inference loss calculation unit 33 from the first inference result Rm and a second inference loss calculated by the second inference loss calculation unit 35 from the second inference result Rs. Based on Ls, each parameter of the feature extraction unit 31, the first inference unit 32C, and the second inference unit 34C is updated.
  • the first inference unit 32C integrates the second inference result Rs supplied from the second inference unit 34C with the moving image feature amount Fm supplied from the feature extraction unit 31, and receives the integrated moving image feature amount Fm as an input. 1 Output the inference result Rm.
  • the first inference unit 32C is trained so as to input the moving image feature amount Fm in which the second inference result Rs is integrated and output the first inference result Rm.
  • the second inference result Rs is a mask image indicating the classification of each region or each pixel in the image
  • the first inference unit 32C is the channel direction with respect to the moving image feature amount Fm for each image. Increase the data length of (ie increase the number of channels). Then, the first inference unit 32C stores the second inference result Rs generated based on the same image in the expanded new channel with respect to the moving image feature amount Fm for each image. For example, assuming that the number of channels of the moving image feature amount Fm is "Ca" and the number of channels of the second inference result Rs is "Cb", the first inference unit 32C integrates the second inference result Rs into the moving image feature amount Fm. Then, the moving image feature amount Fm in which the number of channels is "Ca + Cb" is generated.
  • the first inference unit 32C when the second inference result Rs is a mask image that specifies the area of an object or a person to be action-detected in the moving image recognition, the first inference unit 32C has a moving image feature amount Fm for each image. , Mask processing is performed using the second inference result Rs generated based on the same image. According to this example, the first inference unit 32C can suitably generate the moving image feature amount Fm based on the second inference result Rs without increasing the data length in the channel direction.
  • FIG. 13 is a schematic diagram showing a functional configuration in the inference processing of the learned learning device 10C. In FIG. 13, only the components of the learning device 10C related to the inference process are shown.
  • the learned learning device 10C functions as an inference device.
  • the moving image data taken by the camera or the like is input to the feature extraction unit 31 via the interface 13.
  • the feature extraction unit 31 refers to the parameters of the feature extraction unit information storage unit 25, extracts the moving image feature amount Fm from the input moving image data, and extracts the moving image feature amount Fm from each image constituting the moving image feature amount Fm. Extract Fs.
  • the feature extraction unit 31 supplies the extracted moving image feature amount Fm to the first inference unit 32C, and supplies the extracted still image feature amount Fs to the second inference unit 34C.
  • the second inference unit 34C calculates the second inference result Rs from the still image feature amount Fs based on the parameters stored in the second inference unit information storage unit 27, and obtains the calculated second inference result Rs.
  • the first inference unit 32C calculates the first inference result Rm based on the moving image feature amount Fm supplied from the feature extraction unit 31 and the second inference result Rs supplied from the second inference unit 34C, and the first inference result Rm is calculated. 1 Output the inference result Rm.
  • the learning device 10C according to the second embodiment suitably improves the inference accuracy of the first inference unit 32 by using the inference result of the second inference unit 34C for the inference of the first inference unit 32. Can be made to.
  • the learning device 10C according to the second embodiment is suitable for any application example of the learning of person motion identification and posture estimation shown in FIG. 10 and the learning of person behavior detection and person detection shown in FIG. Applies.
  • FIG. 14 is an example of a flowchart showing the procedure of inference processing of the learned learning device 10C.
  • the learning device 10C acquires the moving image data to be inferred, and inputs the moving image data to the feature extraction unit 31 (step S51). Then, the feature extraction unit 31 uses the parameters stored in the feature extraction unit information storage unit 25 to generate the moving image feature amount Fm and the still image feature amount Fs based on the input moving image data (step S52). In this case, the feature extraction unit 31 generates the still image feature amount Fs corresponding to each image by performing the same processing as the processing for the still image data Ds for each image constituting the input moving image data.
  • the second inference unit 34C outputs the second inference result Rs from the still image feature amount Fs using the parameters stored in the second inference unit information storage unit 27 (step S53).
  • the first inference unit 32C refers to the parameters stored in the first inference unit information storage unit 26, and the moving image feature amount Fm supplied from the feature extraction unit 31 and the second inference unit 34C are supplied.
  • the first inference result Rm is output from the two inference results Rs (step S54).
  • the first inference unit 32C considers the second inference result Rs by integrating the information of the second inference result Rs of each corresponding image with the moving image feature amount Fm of each image of the moving image data, for example.
  • the moving image feature amount Fm is generated, and the first inference result Rm is output based on the moving image feature amount Fm.
  • the first inference unit 32C can obtain an accurate moving image inference result that reflects the inference result of the second inference unit 34C that infers each image.
  • the first inference unit 32C does not output the first inference result Rm based on the moving image feature amount Fm output by the feature extraction unit 31 and the second inference result Rs output by the second inference unit 34C, but instead outputs the feature extraction unit.
  • the first inference result Rm may be output based on the moving image feature amount Fm and the still image feature amount Fs output by 31.
  • the first inference unit 32C integrates the still image feature amount Fs supplied from the feature extraction unit 31 with the moving image feature amount Fm supplied from the feature extraction unit 31, for example, and integrates the moving image feature amount Fm. Is used as an input to output the first inference result Rm.
  • the first inference unit 32C sets the still image feature amount Fs. By integrating with the moving image feature amount Fm, the moving image feature amount Fm having the number of channels of "Ca + Cc" is generated. Then, the first inference unit 32C learns so as to input the moving image feature amount Fm in which the still image feature amount Fs is integrated and output the first inference result Rm.
  • FIG. 15 shows a schematic configuration of the learning device 10D according to the third embodiment.
  • the learning device 10D includes a feature extraction unit 31D, a first inference unit 32D, a second inference unit 34D, and a learning unit 36D.
  • the learning device 10D extracts the moving image feature amount Fm which is the feature amount related to the moving image data Dm when the moving image data Dm is input, and when the still image data Ds is input, the feature related to the still image data Ds. It is learned to extract still image feature quantities Fs, which are quantities.
  • the first inference unit 32D performs the first inference regarding the moving image data Dm based on the moving image feature amount Fm.
  • the second inference unit 34D performs the second inference regarding the still image data Ds based on the still image feature amount Fs.
  • the learning unit 36D learns the feature extraction unit 31D based on the results of the first inference and the second inference.
  • the learning unit 36D is composed of, for example, the first inference loss calculation unit 33, the second inference loss calculation unit 35, and the update unit 36 shown in FIG. 2 or FIG.
  • the learning device 10D learns the feature extraction unit 31D using the still image data Ds in addition to the moving image data Dm, thereby extracting a feature amount effective for inference to the moving image data. 31D can be preferably learned.
  • the feature extraction unit extracts the still image feature amount by using a parameter common to the extraction of the moving image feature amount.
  • the learning device according to Appendix 1, wherein the learning unit updates the parameters based on the results of the first inference and the second inference.
  • the feature extraction unit An image feature conversion block, which is a feature conversion related to an image, applied to the moving image data or the feature amount of the moving image data and the feature amount of the still image data or the still image data.
  • a time-series feature conversion block which is a time-series feature conversion applied to the moving image data or the feature amount of the moving image data
  • a point feature conversion block that is a feature conversion for each point in an image, which is applied to at least the still image data or the feature amount of the still image data.
  • Appendix 4 The learning device according to Appendix 3, wherein the feature extraction unit has a layer structure in which a layer having the image feature conversion block, the time series feature conversion block, and the point feature conversion block is stacked.
  • the time-series feature conversion block converts the feature amount of the moving image data in the time-series direction and the channel direction.
  • the feature amount of the still image data is converted so that the point feature conversion block has the same number of channels as the feature amount of the moving image data converted by the time series feature conversion block, according to Appendix 3 or 4.
  • Learning device
  • the learning unit A first inference loss calculation unit that calculates a first inference loss for the first inference based on the result of the first inference and correct answer data for the first inference.
  • a second inference loss calculation unit that calculates a second inference loss for the second inference based on the result of the second inference and correct answer data for the second inference.
  • An update unit that updates the parameters of the feature extraction unit based on the first inference loss and the second inference loss.
  • Appendix 7 The learning device according to any one of Appendix 1 to 6, wherein the feature extraction unit extracts a feature amount related to an object commonly existing in the moving image data and the still image data as the still image feature amount. ..
  • Appendix 9 A feature extraction unit learned by the learning device according to any one of Appendix 1 to 8.
  • the first inference unit that makes the first inference about the input video data, An inference device that has.
  • Appendix 11 The feature extraction unit learned by the learning device described in Appendix 10 and The first inference unit that makes the first inference about the input video data, A second inference unit that performs a second inference regarding the still image data based on a still image feature amount extracted by the feature extraction unit from the still image data constituting the moving image data is provided. The first inference unit performs the first inference based on the moving image feature amount extracted by the feature extraction unit from the moving image data and the result of the second inference. Inference device.
  • Appendix 12 It is a control method executed by the learning device.
  • a moving image feature amount which is a feature amount related to the moving image data
  • still image data when still image data is input, a still image feature amount which is a feature amount related to the still image data is extracted.
  • the first inference which is the inference about the moving image data
  • the second inference which is the inference regarding the still image data
  • learning is performed to extract the moving image feature amount and the still image feature amount.

Abstract

学習装置10Dは、動画データDmが入力された場合に、当該動画データDmに関する特徴量である動画特徴量Fmを抽出し、静止画データDsが入力された場合に、当該静止画データDsに関する特徴量である静止画特徴量Fsを抽出するように学習される。第1推論部32Dは、動画特徴量Fmに基づき、動画データDmに関する第1推論を行う。第2推論部34Dは、静止画特徴量Fsに基づき、静止画データDsに関する第2推論を行う。学習部36Dは、第1推論と第2推論との結果に基づき、特徴抽出部31Dの学習を行う。

Description

学習装置、推論装置、制御方法及び記憶媒体
 本発明は、動画データに対する特徴抽出の学習に関する学習装置、推論装置、制御方法及び記憶媒体の技術分野に関する。
 動画データを対象とする認識処理の手法として、3次元畳み込みニューラルネットワークを用いた動画認識手法が非特許文献1に開示されている。また、非特許文献2には、動画データを入力とする学習モデルにおいて、動画認識の結果から算出される動画認識損失に基づき、3次元畳み込みニューラルネットワークから構成される特徴抽出部と動画認識部の学習を実行する手法が開示されている。
J. Carreira, A. Zisserman, "Quo vadis, action recognition? a new model and the kineticsdataset," inproceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp.6299-6308. Du Tran, Lubomir Bourdev, Rob Fergus, Lorenzo Torresani, Manohar Paluri, "Learning Spatiotemporal Features with 3D Convolutional Networks", ICCV2015, 2015, pp. 4489-4497.
 一般的に、学習データが少ないと、学習データに含まれる認識と無関係の相関を学習してしまい、認識精度が十分な精度とはならない。一方、学習データとする動画データ及び正解データの生成に掛かる負担は一般的に大きく、動画認識における学習に十分な学習データを用意するのが困難な場合がある。非特許文献1及び非特許文献2の手法では、正解付けされた学習用の動画データが十分に用意できることを前提としており、正解付けされた学習用の動画データの数が制限される場合に有効な学習方法については、非特許文献1及び非特許文献2には何ら開示されていない。
 本発明の目的は、上述した課題を鑑み、動画認識の学習を好適に実行可能な学習装置、推論装置、制御方法及び記憶媒体を提供することを主な課題とする。
 学習装置の一の態様は、学習装置であって、動画データが入力された場合に、前記動画データに関する特徴量である動画特徴量を抽出し、静止画データが入力された場合に、前記静止画データに関する特徴量である静止画特徴量を抽出するように学習される特徴抽出部と、前記動画特徴量に基づき、前記動画データに関する推論である第1推論を行う第1推論部と、前記静止画特徴量に基づき、前記静止画データに関する推論である第2推論を行う第2推論部と、前記第1推論と前記第2推論との結果に基づき、前記特徴抽出部の学習を行う学習部と、を有する。
 制御方法の一の態様は、学習装置が実行する制御方法であって、動画データが入力された場合に、前記動画データに関する特徴量である動画特徴量を抽出し、静止画データが入力された場合に、前記静止画データに関する特徴量である静止画特徴量を抽出し、前記動画特徴量に基づき、前記動画データに関する推論である第1推論を行い、前記静止画特徴量に基づき、前記静止画データに関する推論である第2推論を行い、前記第1推論と前記第2推論との結果に基づき、前記動画特徴量及び前記静止画特徴量を抽出する処理の学習を行う。
 記憶媒体の一の態様は、動画データが入力された場合に、前記動画データに関する特徴量である動画特徴量を抽出し、静止画データが入力された場合に、前記静止画データに関する特徴量である静止画特徴量を抽出するように学習される特徴抽出部と、前記動画特徴量に基づき、前記動画データに関する推論である第1推論を行う第1推論部と、前記静止画特徴量に基づき、前記静止画データに関する推論である第2推論を行う第2推論部と、前記第1推論と前記第2推論との結果に基づき、前記特徴抽出部の学習を行う学習部としてコンピュータを機能させるプログラムを格納する記憶媒体である。
 本発明によれば、動画データに加えて静止画データを用いて特徴抽出部の学習を行うことで、動画認識に有効な特徴量を抽出する特徴抽出部を好適に学習することができる。
学習システムの概略構成を示す。 第1実施形態に係る学習装置の機能的な構成を示す概要図である。 特徴抽出部のブロック構成図を示す。 特徴変換層の第1構成例を示す。 (A)特徴変換層の第2構成例を示す。(B)特徴変換層の第3構成例を示す。 学習処理の概要を示すフローチャートの一例である。 第1推論損失計算処理の手順を示すフローチャートの一例である。 第2推論損失計算処理の手順を示すフローチャートの一例である。 学習処理の概要を示すフローチャートの変形例である。 人物動作識別のための学習を行う学習装置の機能的な構成を示す概要図である。 人物行動検出のための学習を行う学習装置の機能的な構成を示す概要図である。 第2実施形態に係る学習装置の学習処理に関する機能的な構成を示す概要図である。 第2実施形態に係る学習装置の推論処理に関する機能的な構成を示す概要図である。 推論処理の手順を示すフローチャートの一例である。 第3実施形態に係る学習装置の概略構成を示す。
 以下、図面を参照しながら、学習装置、推論装置、制御方法及び記憶媒体の実施形態について説明する。
 <第1実施形態>
 (1)全体構成
 図1は、実施形態における学習システム100の概略構成を示す。学習システム100は、動画データに対して推論(認識)を行う学習モデルの学習を好適に実行する。学習システム100は、学習装置10と、記憶装置20とを有する。
 学習装置10は、動画データの推論に関する学習モデルの学習を行う。ここで、学習モデルは、ニューラルネットワークに基づく学習モデルであってもよく、サポートベクターマシーンなどの他の種類の学習モデルであってもよく、これらを組み合わせた学習モデルであってもよい。動画データの推論の例は、不審行動等の特定の動作を行う人物の検知、人物が実行中の動作の識別、事故の予兆検知などが含まれる。
 記憶装置20は、動画データ記憶部21と、静止画データ記憶部22と、第1正解データ記憶部23と、第2正解データ記憶部24と、特徴抽出部情報記憶部25と、第1推論部情報記憶部26と、第2推論部情報記憶部27と、を有する。なお、記憶装置20は、学習装置10に接続又は内蔵されたハードディスクなどの外部記憶装置であってもよく、フラッシュメモリなどの記憶媒体であってもよく、学習装置10とデータ通信を行うサーバ装置などであってもよい。また、記憶装置20は、複数の記憶装置から構成され、上述した各記憶部を分散して保有してもよい。
 動画データ記憶部21は、学習モデルの学習に用いる学習データである動画データを記憶する。動画データ記憶部21に記憶される各動画データは、後述する第1正解データ記憶部23に記憶される正解データと関連付けられている。静止画データ記憶部22は、学習モデルの学習に用いる学習データである静止画データを記憶する。静止画データ記憶部22に記憶される各静止画データは、後述する第2正解データ記憶部24に記憶される正解データと関連付けられている。なお、動画データを構成する画像(フレーム)毎の画像データと静止画データとは、夫々、画像の縦方向及び横方向と、チャンネル方向とにより形成される3次元空間において値を有するデータである。なお、チャンネル方向には、例えば、RGB画像の場合には、R、G、Bの夫々の色に対応するチャンネルが少なくとも設けられ、画素毎に距離情報が含まれる画像の場合には、距離情報に対応するチャンネルが少なくとも設けられる。
 第1正解データ記憶部23は、動画データ記憶部21に記憶された動画データに対する正解データを記憶する。この場合、正解データは、対象の動画データが入力された場合に推論すべき結果を示すデータであり、動画データ記憶部21に記憶された対象の動画データと関連付けられている。なお、記憶装置20は、第1正解データ記憶部23を有する代わりに、対応する正解データが付加された動画データを動画データ記憶部21に記憶してもよい。
 第2正解データ記憶部24は、静止画データ記憶部22に記憶された静止画データに対する正解データを記憶する。この場合、正解データは、対象の静止画データが入力された場合に推論すべき結果を示すデータであり、静止画データ記憶部22に記憶された対象の静止画データと関連付けられている。なお、記憶装置20は、第2正解データ記憶部24を有する代わりに、対応する正解データが付加された静止画データを静止画データ記憶部22に記憶してもよい。
 特徴抽出部情報記憶部25は、後述する特徴抽出部(図2の特徴抽出部31)を機能させるために必要なパラメータの情報を記憶する。第1推論部情報記憶部26は、後述する第1推論部(図2の第1推論部32)を機能するために必要なパラメータの情報を記憶する。第2推論部情報記憶部27は、後述する第2推論部(図2の第2推論部34)を機能するために必要なパラメータの情報を記憶する。
 次に、引き続き図1を参照して学習装置10のハードウェア構成について説明する。
 学習装置10は、ハードウェアとして、プロセッサ11と、メモリ12と、インターフェース13とを含む。プロセッサ11、メモリ12、及びインターフェース13は、データバス19を介して接続されている。
 プロセッサ11は、メモリ12に記憶されているプログラムを実行することにより、所定の処理を実行する。プロセッサ11は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)などのプロセッサである。
 メモリ12は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリなどの各種のメモリにより構成される。また、メモリ12には、学習装置10が実行する学習に関する処理を実行するためのプログラムが記憶される。また、メモリ12は、作業メモリとして使用され、記憶装置20から取得した情報等を一時的に記憶する。なお、メモリ12は、記憶装置20又は記憶装置20の一部として機能してもよい。この場合、メモリ12は、記憶装置20の代わりに、動画データ記憶部21、静止画データ記憶部22、第1正解データ記憶部23、第2正解データ記憶部24、特徴抽出部情報記憶部25、第1推論部情報記憶部26、第2推論部情報記憶部27の少なくともいずれかを記憶してもよい。同様に、記憶装置20は、学習装置10のメモリ12として機能してもよい。
 インターフェース13は、プロセッサ11の制御に基づき記憶装置20とデータの送受信を有線又は無線により行うための通信インターフェースであり、ネットワークアダプタなどが該当する。なお、学習装置10と記憶装置20とはケーブル等により接続されてもよい。この場合、インターフェース13は、記憶装置20とデータ通信を行う通信インターフェースの他、記憶装置20とデータの授受を行うためのUSB、SATA(Serial AT Attachment)などに準拠したインターフェースである。
 なお、学習装置10のハードウェア構成は、図1に示す構成に限定されない。例えば、学習装置10は、ディスプレイなどの表示部、キーボードやマウスなどの入力部、スピーカなどの音出力部などをさらに備えてもよい。
 また、学習装置10は、複数の装置により構成されてもよい。この場合、これらの各装置は、各装置が予め定め割り当てられた処理を実行するために必要な情報の授受を、装置間で行う。
 (2)機能ブロック
 次に、学習装置10の機能的な構成について説明する。
 (2-1)概要
 図2は、学習装置10の機能的な構成を示す概要図である。図2に示すように、学習装置10のプロセッサ11は、特徴抽出部31と、第1推論部32と、第1推論損失算出部33と、第2推論部34と、第2推論損失算出部35と、更新部36と、を有する。
 特徴抽出部31は、動画データ記憶部21に記憶される動画データ及び静止画データ記憶部22に記憶される静止画データに対し、特徴抽出処理を実行する。具体的には、特徴抽出部31は、動画データ記憶部21から動画データ「Dm」が入力された場合に、動画データDmに関する特徴量である動画特徴量「Fm」を動画データDmから抽出する。また、特徴抽出部31は、静止画データ記憶部22から静止画データ「Ds」が入力された場合には、静止画データDsに関する特徴量である静止画特徴量「Fs」を静止画データDsから抽出する。
 ここで、特徴抽出部31は、入力された動画データDmから動画特徴量Fmを抽出し、かつ、入力された静止画データDsから静止画特徴量Fsを抽出するように学習された学習モデルである。また、特徴抽出部31は、動画特徴量Fmの抽出と静止画特徴量Fsの抽出とで共通するパラメータを有する。そして、このパラメータは、動画データDmを用いた学習及び静止画データDsを用いた学習の両方において好適に更新される。特徴抽出部31は、例えば、畳み込みニューラルネットワークなどの学習モデルを学習することで構成される。なお、特徴抽出部31は、ニューラルネットワークに基づく学習モデルに限らず、サポートベクターマシーンなどの他の種類の学習モデルに基づき機能してもよい。特徴抽出部31の具体的な構成例については、後述する。
 特徴抽出部情報記憶部25は、特徴抽出部31を機能させるために必要なパラメータの情報を記憶する。例えば、特徴抽出部31がニューラルネットワークに基づく構成を有する場合、特徴抽出部情報記憶部25には、特徴抽出部31の層構造、各層のニューロン構造、各層におけるフィルタ数及びフィルタサイズ、並びに各フィルタの各要素の重みなどの種々のパラメータの情報が含まれる。
 第1推論部32は、特徴抽出部31から供給される動画特徴量Fmに基づき、動作又は事象等に関する推論(「第1推論」とも呼ぶ。)を行い、第1推論に対する結果である第1推論結果「Rm」を出力する。例えば、第1推論部32は、第1推論結果Rmとして、第1推論により検出又は識別すべき各動作又は事象等が発生した確率を示す情報を、第1推論結果Rmとして出力する。ここで、第1推論部32は、特徴抽出部31から供給される動画特徴量Fmに基づき、第1推論結果Rmを出力するように学習された学習モデルである。ここで、第1推論部32は、畳み込みニューラルネットワークなどのニューラルネットワークに基づく学習モデルを採用してもよく、サポートベクターマシーンなどの他の種類の学習モデルを採用してもよい。第1推論部情報記憶部26は、第1推論部32を機能させるために必要なパラメータの情報を記憶する。
 第1推論損失算出部33は、第1推論結果Rmと、第1正解データ記憶部23から取得される、動画データDmに対応する正解データとに基づき、第1推論部32による第1推論に対する損失である第1推論損失「Lm」を算出する。第1推論損失Lmに用いる損失関数は、クロスエントロピー、平均二乗誤差などの機械学習で用いられる任意の損失関数でよい。そして、第1推論損失算出部33は、算出した第1推論損失Lmを、更新部36に供給する。
 第2推論部34は、特徴抽出部31から供給される静止画特徴量Fsに基づき、対象物の識別等に関する推論(「第2推論」とも呼ぶ。)を行い、第2推論に対する結果である第2推論結果「Rs」を出力する。例えば、第2推論部34は、第2推論結果Rsとして、第2推論により認識すべき対象又は事象が存在又は発生している確率を示す情報を、第2推論結果Rsとして出力する。ここで、第2推論部34は、特徴抽出部31から供給される静止画特徴量Fsに基づき、第2推論結果Rsを出力するように学習された学習モデルである。ここで、第2推論部34は、畳み込みニューラルネットワークなどのニューラルネットワークに基づく学習モデルを採用してもよく、サポートベクターマシーンなどの他の種類の学習モデルを採用してもよい。第2推論部情報記憶部27は、第2推論部34を機能させるために必要なパラメータの情報を記憶する。
 第2推論損失算出部35は、第2推論結果Rsと、第2正解データ記憶部24から取得される、静止画データDsに対応する正解データとに基づき、第2推論部34による第2推論に対する損失である第2推論損失「Ls」を算出する。第2推論損失Lsに用いる損失関数は、機械学習で用いられる任意の損失関数でよい。そして、第2推論損失算出部35は、算出した第2推論損失Lsを更新部36に供給する。
 更新部36は、第1推論損失算出部33から供給される第1推論損失Lmと、第2推論損失算出部35から供給される第2推論損失Lsとに基づき、特徴抽出部31、第1推論部32及び第2推論部34の各パラメータを更新する。言い換えると、更新部36は、第1推論損失Lmと第2推論損失Lsとが減少するように、特徴抽出部31、第1推論部32及び第2推論部34のパラメータを変更し、変更後の各部のパラメータを、特徴抽出部情報記憶部25、第1推論部情報記憶部26、第2推論部情報記憶部27にそれぞれ記憶する。
 この場合、第1の例では、更新部36は、第1推論損失Lmと第2推論損失Lsとの和が最小となるように、特徴抽出部31、第1推論部32、第1推論損失算出部33の各パラメータを決定する。第2の例では、更新部36は、第1推論損失Lmが最小となるように特徴抽出部31及び第1推論部32のパラメータを決定する処理と、第2推論損失Lsが最小となるように特徴抽出部31及び第1推論損失算出部33のパラメータを決定する処理とを、それぞれ独立して実行する。第2の例では、更新部36は、第1推論損失Lmが最小となるように特徴抽出部31及び第1推論部32のパラメータを決定する処理を、第2推論損失Lsが最小となるように特徴抽出部31及び第1推論損失算出部33のパラメータを決定する処理よりも先に行ってもよく、後に行ってもよい。第1の例又は第2の例に基づき第1推論損失Lmと第2推論損失Lsとを最小化するように各パラメータを決定するアルゴリズムは、勾配降下法や誤差逆伝播法などの機械学習において用いられる任意の学習アルゴリズムであってもよい。
 (2-2)特徴抽出部の構成
 次に、特徴抽出部31の構成について具体的に説明する。
 図3は、特徴抽出部31のブロック構成図を示す。図3に示すように、特徴抽出部31は、1又は複数の特徴変換層40を備える。図3では、特徴抽出部31は、N個(Nは整数)の特徴変換層40(第1~第N特徴変換層)を構成要素とする。
 第1特徴変換層は、動画データDmと静止画データDsが夫々入力された場合に、フレーム毎(画像毎)の特徴量が同一の特徴空間により表されるように夫々の特徴変換を行い、特徴変換後の動画データDm及び静止画データDsの夫々の特徴量を、第2特徴変換層へ供給する。第2~第N-1特徴変換層は、前段に設けられた特徴変換層から供給される動画データDm及び静止画データDsに夫々対応する特徴量を、画像毎に同一の特徴空間により表されるように夫々の特徴変換を行い、特徴変換後の動画データDm及び静止画データDsの夫々の特徴量を、後段の特徴変換層へ供給する。そして、第N特徴変換層は、第N-1特徴から供給される動画データDm及び静止画データDsに夫々対応する特徴量に対して特徴変換を行い、特徴変換後の特徴量である動画特徴量Fm及び静止画特徴量Fsを出力する。
 なお、図3では、特徴抽出部31が複数の特徴変換層40を備える構成例について例示したが、特徴抽出部31は、少なくとも1つの特徴変換層40を備えればよい。
 次に、特徴変換層40の構成の具体例(第1~第3構成例)について説明する。なお、各特徴変換層40は、全て同一の構成を有してもよく、特徴変換層40毎に異なる構成を有してもよい。
 図4は、特徴変換層40の第1構成例を示す。図4に示す第1構成例に係る特徴変換層40は、画像特徴変換ブロック41と、時系列特徴変換ブロック42と、点特徴変換ブロック43とを備える。
 画像特徴変換ブロック41は、入力される動画データDm、静止画データDs、又はこれらの特徴量に対し、画像毎(即ち空間方向)の特徴変換を行う。具体的には、画像特徴変換ブロック41は、動画データDm又は動画データDmの特徴量が入力された場合には、フレーム毎(即ち画像毎)の動画データDm又は動画データDmの特徴量に対する特徴変換を行う。また、画像特徴変換ブロック41は、静止画データDs又は静止画データDsの特徴量が入力された場合においても同様に、静止画データDs又は静止画データDsの特徴量に対する特徴変換を行う。画像特徴変換ブロック41は、例えば、画像毎の特徴変換を行うように学習される2次元畳み込みニューラルネットワークにより構成される。
 ここで、画像特徴変換ブロック41の特徴変換による特徴空間の変化について補足説明する。以後では、画像特徴変換ブロック41に入力される動画データDm又はその特徴量が表される4次元空間を、各次元のデータ長に基づき「H×W×C×T」と表現する。ここで、「H」は、画像の縦方向のデータ長(画像サイズ)を示し、「W」は、画像の横方向のデータ長を示し、「C」は、チャンネル方向のデータ長(チャンネル数)を示し、「T」は、時間方向のデータ長(フレーム数)を示す。
 この場合、画像特徴変換ブロック41は、空間「H×W×C×T」における動画データDm又はその特徴量を、空間「H1×W1×C1×T」における特徴量に変換する。ここで、「H1」は、画像特徴変換ブロック41による特徴変換後の画像の縦方向のデータ長、「W1」は、画像特徴変換ブロック41による特徴変換後の画像の横方向のデータ長、「C1」は、画像特徴変換ブロック41による特徴変換後の画像のチャンネル方向のデータ長(チャンネル数)を示す。このように、画像特徴変換ブロック41は、画像特徴変換ブロック41に入力される動画データDm又はその特徴量に対し、時間方向を除く各方向の特徴変換を行う。
 同様に、動画データDmを構成する各画像データ又は静止画データDs又はこれらの特徴量が表される3次元空間を「H×W×C」と表現すると、画像特徴変換ブロック41は、空間「H×W×C」における静止画データDs又はその特徴量を、空間「H1×W1×C1」における特徴量に変換する。
 このように、画像特徴変換ブロック41は、入力される動画データDm及び静止画データDsに対し、時間方向を除く各方向における特徴変換を実行する。
 時系列特徴変換ブロック42は、画像特徴変換ブロック41から入力される動画データDmの特徴量に対し、時間方向の特徴変換を行う。画像特徴変換ブロック41は、例えば、時間方向の特徴変換を行うように学習される1次元畳み込みニューラルネットワークにより構成される。
 具体的には、時系列特徴変換ブロック42は、画像特徴変換ブロック41から供給される空間「H1×W1×C1×T」の動画データDmの特徴量を、空間「H1×W1×C2×T1」の特徴量に変換する。ここで、「C2」は時系列特徴変換ブロック42による特徴変換後のチャンネル方向のデータ長(チャンネル数)、「T1」は時系列特徴変換ブロック42による特徴変換後の時間方向のデータ長(フレーム数)を示す。このように、時系列特徴変換ブロック42は、画像特徴変換ブロック41に入力される動画データDmの特徴量に対し、時間方向及びチャンネル方向の特徴変換を行う。
 点特徴変換ブロック43は、画像特徴変換ブロック41から入力される静止画データDsの特徴量に対し、点の特徴変換を行う。画像特徴変換ブロック41は、例えば、各画素のチャンネル方向の特徴変換を行うように学習される0次元畳み込みニューラルネットワークにより構成される。
 具体的には、点特徴変換ブロック43は、画像特徴変換ブロック41から供給される空間「H1×W1×C1」の静止画データDsの特徴量を、空間「H1×W1×C2」の特徴量に変換する。ここで、点特徴変換ブロック43による特徴変換後の静止画データDsの特徴量のチャンネル数C2は、時系列特徴変換ブロック42による特徴変換後の動画データDmの特徴量のチャンネル数C2と同一となっている。このように、点特徴変換ブロック43は、時系列特徴変換ブロック42により特徴変換された動画データDmの画像毎の特徴量と同一の特徴空間により表されるように、静止画データDsの特徴量の変換を行う。言い換えると、点特徴変換ブロック43は、時系列特徴変換ブロック42により変換された動画データDmの特徴量とチャンネル方向において同一データ長(即ち同一のチャンネル数)となるように、静止画データDsの特徴量を変換する。これにより、時系列特徴変換ブロック42及び点特徴変換ブロック43から夫々出力される特徴量は、後段の特徴変換層40の画像特徴変換ブロック41に対して同一形式の特徴量として入力されるため、当該画像特徴変換ブロック41により好適に特徴変換が行われる。従って、特徴変換層40は、共通の画像特徴変換ブロック41により、動画データDm及び静止画データDsに対する特徴変換を行うことができる。
 なお、画像特徴変換ブロック41は、畳み込みニューラルネットワークに限らず、画像毎の特徴変換を行うように学習される任意の学習モデルであってもよい。同様に、時系列特徴変換ブロック42は、畳み込みニューラルネットワークに限らず、時間方向及びチャンネル方向の特徴変換を行うように学習される任意の学習モデルであってもよい。同様に、点特徴変換ブロック43は、畳み込みニューラルネットワークに限らず、チャンネル方向の特徴変換を行うように学習される任意の学習モデルであってもよい。
 ここで、第1構成例による効果について補足説明する。
 一般的に、特徴抽出部31を畳み込みニューラルネットワークなどにより構成した場合、畳み込みニューラルネットワークは大量のパラメータを有し、これらのパラメータを学習するには、正解データが紐づかれた大量の動画データDmが必要となる。また、一般的に、学習データが少ないと、学習データに含まれる認識と無関係の相関を学習してしまい、認識精度が十分な精度とはならない。
 以上を勘案し、第1構成例に係る特徴変換層40は、動画データDmに関する特徴変換と静止画データDsに関する特徴変換とを共通して実行する画像特徴変換ブロック41を備える。この場合、画像特徴変換ブロック41は、動画データDmを用いた学習及び静止画データDsを用いた学習の両方において、好適にパラメータの学習が行われる。よって、仮に動画データDm及びその正解データの数が十分な認識精度を達成するための学習に必要な数に対して不足している場合であっても、学習装置10は、静止画データDsを用いた学習により、画像特徴変換ブロック41等の学習を行い、画像特徴変換ブロック41のパラメータを高精度に学習することができる。
 図5(A)は、特徴変換層40の第2構成例を示す。図5(A)に示す第2構成例に係る特徴変換層40は、画像特徴変換ブロック41の前段に、点特徴変換ブロック43Aを有する点で、第1構成例に係る特徴変換層40と異なる。
 点特徴変換ブロック43Aは、入力される動画データDm、静止画データDs、又はこれらの特徴量に対し、点の特徴変換を行う。画像特徴変換ブロック41は、例えば、各画素のチャンネル方向の特徴変換を行うように学習される0次元畳み込みニューラルネットワークにより構成される。
 この場合、点特徴変換ブロック43Aは、入力される動画データDm又はその特徴量と、静止画データDs又はその特徴量とについて、チャンネル方向の特徴変換を行い、特徴変換後の特徴量を画像特徴変換ブロック41に供給する。この場合、画像特徴変換ブロック41に入力される動画データDmの画像毎の特徴量の画像の縦方向、横方向、及びチャンネル方向の各データ長は、画像特徴変換ブロック41に入力される静止画データDsの画像の縦方向、横方向、及びチャンネル方向の各データ長と同一となる。よって、第2構成例に係る特徴変換層40は、第1構成例に係る特徴変換層40と同様、動画データDmと静止画データDsとに対する同一形式の特徴量を、画像特徴変換ブロック41に入力することができる。よって、第2構成例に係る特徴変換層40は、動画データDm又は静止画データDsに対する特徴変換を、共通の画像特徴変換ブロック41により好適に実行することができる。
 図5(B)は、特徴変換層40の第3構成例を示す。図5(B)に示す第3構成例に係る特徴変換層40は、点特徴変換ブロック43に代えて、2つの点特徴変換ブロック43Bと点特徴変換ブロック43Cを備える点で、第1構成例に係る特徴変換層40と異なる。
 ここで、点特徴変換ブロック43Bと点特徴変換ブロック43Cは、夫々、入力される静止画データDsの特徴量に対し、点の特徴変換を行う。ここで、時系列特徴変換ブロック42が「H1×W1×C1×T」の動画データDmの特徴量を「H1×W1×C2×T1」の特徴量に変換し、画像特徴変換ブロック41が点特徴変換ブロック43Bに対して「H1×W1×C1」の静止画データDsの特徴量を入力したとする。この場合、点特徴変換ブロック43Bは、「H1×W1×C1」の静止画データDsの特徴量を、「H1×W1×C1α」の特徴量に変換し、点特徴変換ブロック43Cは、点特徴変換ブロック43Bから入力される「H1×W1×C1α」の特徴量を、「H1×W1×C2」の特徴量に変換する。ここで、「C1α」は、点特徴変換ブロック43Bによる特徴変換後のチャンネル方向のデータ長(チャンネル数)を示す。この場合、点特徴変換ブロック43Cによる特徴変換後の静止画データDsの特徴量のチャンネル数C2は、時系列特徴変換ブロック42による特徴変換後の動画データDmの特徴量のチャンネル数C2と同一となっている。
 このように、第3構成例に係る点特徴変換ブロック43B及び点特徴変換ブロック43Cは、時系列特徴変換ブロック42により特徴変換された動画データDmの画像毎の特徴量と同一形式となるように、静止画データDsの特徴量の変換を行う。従って、第3構成例によっても、第1及び第2構成例と同様、特徴変換層40は、共通の画像特徴変換ブロック41により、動画データDm及び静止画データDsの両方に対する特徴変換を行うことができる。
 以上のように、特徴抽出部31は、画像特徴変換ブロック41と、時系列特徴変換ブロック42と、点特徴変換ブロック43とを有する層である特徴変換層40を少なくとも1つ以上備える層構造を有する。
 (3)処理フロー
 図6は、学習装置10が実行する学習処理の概要を示すフローチャートの一例である。
 まず、学習装置10は、学習を継続すべきか否か判定する(ステップS11)。そして、学習装置10は、学習を継続すべきと判定した場合(ステップS11;Yes)、ステップS12へ処理を進める。例えば、学習装置10は、学習対象となる動画データDm及び静止画データDsを指定するユーザ入力を検知した場合、又は、学習対象として指定された動画データDm及び静止画データDsのうち学習を行っていないものが存在する場合、学習を継続すべきと判定する。一方、学習装置10は、学習を継続すべきでないと判定した場合(ステップS11;No)、フローチャートの処理を終了する。学習装置10は、例えば、学習を終了すべき旨のユーザ入力等を検知した場合、又は、学習対象として指定された全ての動画データDm及び静止画データDsを用いた学習が完了した場合、学習を継続すべきでないと判定する。
 次に、学習装置10の特徴抽出部31、第1推論部32及び第1推論損失算出部33は、動画データ記憶部21に記憶された動画データDmに基づき第1推論損失Lmを算出する処理である第1推論損失計算処理を実行する(ステップS12)。第1推論損失計算処理については、図7を参照して後述する。また、学習装置10の特徴抽出部31、第2推論部34、及び第2推論損失算出部35は、静止画データ記憶部22に記憶された静止画データDsに基づき第2推論損失Lsを算出する処理である第2推論損失計算処理を実行する(ステップS13)。第2推論損失計算処理については、図8を参照して後述する。
 次に、学習装置10の更新部36は、ステップS12で算出された第1推論損失Lmと、ステップS13で算出された第2推論損失Lsとに基づき、特徴抽出部31、第1推論部32、及び第2推論部34に関するパラメータを更新する(ステップS14)。言い換えると、更新部36は、特徴抽出部情報記憶部25、第1推論部情報記憶部26、及び第2推論部情報記憶部27にそれぞれ記憶されるパラメータを更新する。この場合、第1の例では、更新部36は、第1推論損失Lmと第2推論損失Lsとの和が最小となるように、特徴抽出部31、第1推論部32、第2推論部34の各パラメータを決定する。第2の例では、更新部36は、第1推論損失Lmが最小となるように特徴抽出部31及び第1推論部32のパラメータを決定する処理と、第2推論損失Lsが最小となるように特徴抽出部31及び第2推論部34のパラメータを決定する処理とを、それぞれ独立して実行する。
 図7は、図6のステップS12において学習装置10が実行する第1推論損失計算処理の手順を示すフローチャートの一例である。
 まず、学習装置10は、動画データ記憶部21に記憶された動画データDmを特徴抽出部31に入力する(ステップS21)。なお、記憶装置20がサーバ装置である場合等には、学習装置10は、当該サーバ装置から受信した動画データDmを特徴抽出部31に入力する。
 次に、学習装置10の特徴抽出部31は、特徴抽出部情報記憶部25に記憶されたパラメータに基づき、入力された動画データDmを、動画特徴量Fmに変換する(ステップS22)。そして、学習装置10の第1推論部32は、第1推論部情報記憶部26に記憶されたパラメータに基づき、特徴抽出部31が出力する動画特徴量Fmから第1推論結果Rmを出力する(ステップS23)。そして、学習装置10の第1推論損失算出部33は、第1推論部32が出力する第1推論結果Rmに基づき、第1推論損失Lmを算出する(ステップS24)。この場合、第1推論損失算出部33は、例えば、第1正解データ記憶部23に記憶された、ステップS21において入力された動画データDmに対応する正解データと、第1推論結果Rmとに基づき、所定の損失関数を用いることで、第1推論損失Lmを算出する。
 図8は、図6のステップS13において学習装置10が実行する第2推論損失計算処理の手順を示すフローチャートの一例である。
 まず、学習装置10の特徴抽出部31は、静止画データ記憶部22に記憶された静止画データDsを特徴抽出部31に入力する(ステップS31)。なお、記憶装置20がサーバ装置である場合等には、学習装置10は、当該サーバ装置から受信した静止画データDsを特徴抽出部31に入力する。
 次に、学習装置10の特徴抽出部31は、特徴抽出部情報記憶部25に記憶されたパラメータに基づき、入力された静止画データDsを、静止画特徴量Fsに変換する(ステップS32)。そして、学習装置10の第2推論部34は、第2推論部情報記憶部27に記憶されたパラメータに基づき、特徴抽出部31が出力する静止画特徴量Fsから第2推論結果Rsを出力する(ステップS33)。そして、学習装置10の第2推論損失算出部35は、第2推論部34が出力する第2推論結果Rsに基づき、第2推論損失Lsを算出する(ステップS34)。この場合、第2推論損失算出部35は、第2正解データ記憶部24に記憶された、ステップS31において入力された静止画データDsに対応する正解データと、第2推論結果Rsとに基づき、所定の損失関数を用いることで、第2推論損失Lsを算出する。
 なお、図6のフローチャートの処理では、学習装置10は、第1推論損失計算処理を第2推論損失計算処理より先に実行したが、第2推論損失計算処理を第1推論損失計算処理より先に実行してもよい。また、学習装置10は、第1推論損失計算処理により得られた第1推論損失Lmに基づく更新部36の処理と、第2推論損失計算処理により得られた第2推論損失Lsに基づく更新部36の処理とを独立したタイミングにより実行してもよい。
 図9は、学習装置10が実行する学習処理の概要を示すフローチャートの変形例である。図9のフローチャートでは、学習装置10は、第2推論損失計算処理を第1推論損失計算処理より先に実行し、かつ、夫々の処理の直後に当該処理により得られた損失に基づくパラメータの更新を独立して実行している。
 まず、学習装置10は、学習を継続すべきか否か判定する(ステップS41)。そして、学習装置10は、学習を継続すべきと判定した場合(ステップS41;Yes)、第2推論損失計算処理を実行する(ステップS42)。そして、学習装置10の更新部36は、第2推論損失計算処理により得られた第2推論損失Lsに基づき、特徴抽出部31及び第2推論部34の各パラメータの更新を行う(ステップS43)。言い換えると、更新部36は、特徴抽出部情報記憶部25及び第2推論部情報記憶部27に記憶された各パラメータの更新を行う。
 次に、学習装置10は、第1推論損失計算処理を実行する(ステップS44)。そして、学習装置10の更新部36は、第1推論損失計算処理により得られた第1推論損失Lmに基づき、特徴抽出部31及び第1推論部32の各パラメータの更新を行う(ステップS45)。言い換えると、更新部36は、特徴抽出部情報記憶部25及び第1推論部情報記憶部26に記憶された各パラメータの更新を行う。
 (4)応用例
 次に、本実施形態に係る学習装置10を特定用途に応用した場合の具体例について説明する。
 (4-1)人物動作識別
 図10は、人物動作識別のための学習を行う学習装置10Aの機能的な構成を示す概要図である。
 学習装置10Aのプロセッサ11は、特徴抽出部31と、人物動作識別部32Aと、人物動作識別損失算出部33Aと、姿勢推定部34Aと、姿勢推定損失算出部35Aと、更新部36とを備える。また、動画データ記憶部21と第1正解データ記憶部23には、夫々、人物動作識別用の学習データである動画データDmとその正解データとが記憶され、静止画データ記憶部22と第2正解データ記憶部24には、夫々、姿勢推定用の学習データである静止画データDsとその正解データとが記憶されている。
 特徴抽出部31は、入力される動画データDmに対して動画特徴量Fmを生成し、入力される静止画データDsに対して静止画特徴量Fsを生成する。そして、特徴抽出部31は、生成した動画特徴量Fmを人物動作識別部32Aに供給し、生成した静止画特徴量Fsを姿勢推定部34Aに供給する。例えば、特徴抽出部31は、1又は複数の特徴変換層40(図3参照)を有する。特徴変換層40は、例えば、前述した図4又は図5(A)、(B)のいずれかに示される構成を有する。
 人物動作識別部32Aは、図2の第1推論部32に相当し、特徴抽出部31から入力される動画特徴量Fmに基づき、人物動作識別結果「Rma」を出力する。例えば、人物動作識別部32Aは、識別すべき人物動作毎の確率を示す情報を、人物動作識別結果Rmaとして出力する。ここで、人物動作識別部32Aは、特徴抽出部31から供給される動画特徴量Fmに基づき、人物動作識別結果Rmaを出力するように学習された学習モデルである。そして、第1推論部情報記憶部26は、人物動作識別部32Aを機能させるために必要なパラメータの情報を記憶する。
 人物動作識別損失算出部33Aは、図2の第1推論損失算出部33に相当し、人物動作識別結果Rmaと、第1正解データ記憶部23から取得される、動画データDmの正解データとに基づき、人物動作識別結果Rmaに対する損失である人物動作識別損失「Lma」を算出する。そして、人物動作識別損失算出部33Aは、人物動作識別損失Lmaを更新部36に供給する。
 姿勢推定部34Aは、図2の第2推論部34に相当し、特徴抽出部31から供給される静止画特徴量Fsに基づき、人物の姿勢推定処理を行い、当該姿勢推定処理に対する姿勢推定結果「Rsa」を出力する。例えば、姿勢推定部34Aは、推定すべき姿勢毎の確率を示す情報を、姿勢推定結果Rsaとして出力する。ここで、姿勢推定部34Aは、特徴抽出部31から供給される静止画特徴量Fsに基づき、姿勢推定結果Rsaを出力するように学習された学習モデルである。第2推論部情報記憶部27は、姿勢推定部34Aを機能させるために必要なパラメータの情報を記憶する。
 姿勢推定損失算出部35Aは、図2の第2推論損失算出部35に相当し、姿勢推定結果Rsaと、第2正解データ記憶部24から取得される、静止画データDsの正解データとに基づき、姿勢推定結果Rsaに対する損失である姿勢推定損失「Lsa」を算出する。そして、姿勢推定損失算出部35Aは、算出した姿勢推定損失Lsaを、更新部36に供給する。
 更新部36は、人物動作識別損失算出部33Aから供給される人物動作識別損失Lmaと、姿勢推定損失算出部35Aから供給される姿勢推定損失Lsaとに基づき、特徴抽出部31、人物動作識別部32A及び姿勢推定部34Aの各パラメータを決定する。そして、更新部36は、決定した各部のパラメータを、夫々、特徴抽出部情報記憶部25、第1推論部情報記憶部26、第2推論部情報記憶部27に記憶する。
 この応用例によれば、学習装置10Aは、動画データDmによる人物動作識別の学習と同時に、人物動作識別と同様に人物領域に着目する必要がある姿勢推定を、静止画データDsを用いて学習する。これにより、学習装置10Aは、動画の学習データが少ない場合であっても、人物領域に関する特徴量を抽出する特徴抽出部31の学習を、動画データDmと静止画データDsとの両方を用いて好適に実行することができる。
 (4-2)人物行動検出
 図11は、人物行動検出のための学習を行う学習装置10Bの機能的な構成を示す概要図である。
 学習装置10Bのプロセッサ11は、特徴抽出部31と、人物行動検出部32Bと、人物行動検出損失算出部33Bと、人物検出部34Bと、人物検出損失算出部35Bと、更新部36とを備える。また、動画データ記憶部21と第1正解データ記憶部23には、夫々、人物行動検出用の学習データである動画データDmとその正解データとが記憶され、静止画データ記憶部22と第2正解データ記憶部24には、夫々、人物検出用の学習データである静止画データDsとその正解データとが記憶されている。
 特徴抽出部31は、入力される動画データDmに対して動画特徴量Fmを生成し、入力される静止画データDsに対して静止画特徴量Fsを生成する。そして、特徴抽出部31は、生成した動画特徴量Fmを人物行動検出部32Bに供給し、生成した静止画特徴量Fsを人物検出部34Bに供給する。例えば、特徴抽出部31は、1又は複数の特徴変換層40(図3参照)を有する。特徴変換層40は、例えば、前述した図4又は図5(A)、(B)のいずれかに示される構成を有する。
 人物行動検出部32Bは、図2の第1推論部32に相当し、特徴抽出部31から入力される動画特徴量Fmに基づき、人物行動検出結果「Rmb」を出力する。例えば、人物行動検出部32Bは、人物行動検出結果Rmbとして、人物の検出の有無、及び、検出した人物が存在する場合に推定される行動に関する情報を出力する。ここで、人物行動検出部32Bは、特徴抽出部31から供給される動画特徴量Fmに基づき、人物行動検出結果Rmbを出力するように学習された学習モデルである。第1推論部情報記憶部26は、人物行動検出部32Bを機能させるために必要なパラメータの情報を記憶する。
 人物行動検出損失算出部33Bは、図2の第1推論損失算出部33に相当し、人物行動検出部32Bから入力される人物行動検出結果Rmbに基づき、人物行動検出結果Rmbに対する損失である人物行動検出損失「Lmb」を算出する。そして、人物行動検出損失算出部33Bは、人物行動検出損失Lmbを更新部36に供給する。
 人物検出部34Bは、図2の第2推論部34に相当し、特徴抽出部31から供給される静止画特徴量Fsに基づき、人を検出する処理を行い、当該処理に対する人物検出結果「Rsb」を出力する。例えば、人物行動検出部32Bは、人物検出結果Rsbとして、人物の検出の有無に関する情報を、人物検出結果Rsbとして出力する。ここで、人物検出部34Bは、特徴抽出部31から供給される静止画特徴量Fsに基づき、人物検出結果Rsbを出力するように学習された学習モデルである。第2推論部情報記憶部27は、人物検出部34Bを機能させるために必要なパラメータの情報を記憶する。
 人物検出損失算出部35Bは、図2の第2推論損失算出部35に相当し、人物検出部34Bから供給される人物検出結果Rsbと、第2正解データ記憶部24から取得される、静止画データDsの正解データとに基づき、人物検出結果Rsbに対する損失である人物検出損失「Lsb」を算出する。そして、人物検出損失算出部35Bは、算出した人物検出損失Lsbを、更新部36に供給する。
 更新部36は、人物行動検出損失算出部33Bから供給される人物行動検出損失Lmbと、人物検出損失算出部35Bから供給される人物検出損失Lsbとに基づき、特徴抽出部31、人物行動検出部32B及び人物検出部34Bの各パラメータを決定する。そして、更新部36は、決定した各部のパラメータを、夫々、特徴抽出部情報記憶部25、第1推論部情報記憶部26、第2推論部情報記憶部27に記憶する。
 この応用例によれば、学習装置10Bは、動画データDmによる人物行動検出の学習と同時に、人物行動検出と同様に人物領域に着目する必要がある人物検出を、静止画データDsを用いて学習する。これにより、学習装置10Bは、動画の学習データが少ない場合であっても、人物領域に関する特徴量を抽出する特徴抽出部31の学習を、動画データDmと静止画データDsとの両方を用いて好適に実行することができる。
 なお、図10及び図11に示した応用例に限られず、学習装置10は、動画データDmを用いた推論を、静止画データDsを用いた種々の推論と組み合わせることで、特徴抽出部31の学習を行ってもよい。例えば、学習装置10は、動画データDmと同一種類の対象物が表示される静止画データDsに対し、画像分類処理やセマンティックセグメンテーションなどの種々の推論を実行してもよい。
 <第2実施形態>
 図12は、第2実施形態に係る学習装置10Cの学習処理における機能的な構成を示す概要図である。第2実施形態に係る学習装置10Cは、静止画データDsに対する第2推論部34の処理結果を第1推論部32の処理に用いる点において、第1実施形態の学習装置10と異なる。なお、以後において、特徴抽出部31、第1推論損失算出部33、第2推論損失算出部35及び更新部36については、第1実施形態と同一の処理を行うため、その説明を省略する。
 学習装置10Cの第2推論部34Cは、静止画データDsを用いた学習において、第1実施形態の第2推論部34と同様、特徴抽出部31が静止画データDsから抽出した静止画特徴量Fsに基づき第2推論結果Rsを出力する。そして、更新部36は、第2推論結果Rsに基づき第2推論損失算出部35が算出する第2推論損失Lsを最小化するように、特徴抽出部31及び第2推論部34Cの各パラメータを更新する。
 一方、学習装置10Cは、動画データDmを用いた学習では、特徴抽出部31は、動画データDmに対する動画特徴量Fmを第1推論部32Cに供給すると共に、動画データDmを構成する画像(フレーム)毎の特徴量である静止画特徴量Fsを第2推論部34Cに供給する。
 この場合、第2推論部34Cは、特徴抽出部31から供給された静止画特徴量Fsに基づき第2推論結果Rsを算出し、算出した第2推論結果Rsを、第1推論部32Cと第2推論損失算出部35に夫々供給する。また、第1推論部32Cは、特徴抽出部31から供給される動画特徴量Fmと、第2推論部34Cから供給される第2推論結果Rsとに基づき、第1推論結果Rmを算出する。そして、第1推論部32Cは、算出した第1推論結果Rmを第1推論損失算出部33へ供給する。同様に、第2推論部34Cは、特徴抽出部31から供給される静止画特徴量Fsに基づき第2推論結果Rsを算出し、算出した第2推論結果Rsを第2推論損失算出部35へ供給する。その後、更新部36は、第1推論損失算出部33が第1推論結果Rmから算出する第1推論損失Lmと、第2推論損失算出部35が第2推論結果Rsから算出する第2推論損失Lsとに基づき、特徴抽出部31、第1推論部32C、第2推論部34Cの各パラメータの更新を行う。
 ここで、第1推論部32Cの具体的な処理について説明する。
 第1推論部32Cは、特徴抽出部31から供給される動画特徴量Fmに対し、第2推論部34Cから供給される第2推論結果Rsを統合し、統合した動画特徴量Fmを入力として第1推論結果Rmの出力を行う。第1推論部32Cは、第2推論結果Rsが統合された動画特徴量Fmを入力とし、第1推論結果Rmを出力とするように学習が行われる。
 この場合、第1の例では、第2推論結果Rsは、画像中の各領域又は各画素の分類を示すマスク画像であり、第1推論部32Cは、画像毎の動画特徴量Fmに対するチャンネル方向のデータ長を拡大する(即ちチャンネル数を増やす)。そして、第1推論部32Cは、画像毎の動画特徴量Fmに対し、同一画像に基づき生成された第2推論結果Rsを、拡大した新たなチャネルに格納する。例えば、動画特徴量Fmのチャンネル数を「Ca」、第2推論結果Rsのチャンネル数を「Cb」とすると、第1推論部32Cは、第2推論結果Rsを動画特徴量Fmに統合することで、チャンネル数が「Ca+Cb」となる動画特徴量Fmを生成する。
 第2の例では、第1推論部32Cは、第2推論結果Rsが動画認識において行動検知対象となる物又は人の領域を指定するマスク画像である場合、画像毎の動画特徴量Fmに対し、同一画像に基づき生成された第2推論結果Rsを用いてマスク処理を行う。この例によれば、第1推論部32Cは、チャンネル方向のデータ長を拡大することなく、第2推論結果Rsに基づく動画特徴量Fmを好適に生成することができる。
 図13は、学習済みの学習装置10Cの推論処理における機能的な構成を示す概要図である。図13では、推論処理に関連する学習装置10Cの構成要素のみを明示している。学習済みの学習装置10Cは、推論装置として機能する。
 この場合、カメラ等により撮影された動画データがインターフェース13を介して特徴抽出部31に入力される。そして、特徴抽出部31は、特徴抽出部情報記憶部25のパラメータを参照し、入力された動画データから動画特徴量Fmを抽出すると共に、動画特徴量Fmを構成する各画像から静止画特徴量Fsを抽出する。そして、特徴抽出部31は、抽出した動画特徴量Fmを第1推論部32Cに供給すると共に、抽出した静止画特徴量Fsを第2推論部34Cに供給する。この場合、第2推論部34Cは、第2推論部情報記憶部27に記憶されたパラメータに基づき、静止画特徴量Fsから第2推論結果Rsを算出し、算出した第2推論結果Rsを第1推論部32Cに供給する。第1推論部32Cは、特徴抽出部31から供給される動画特徴量Fmと、第2推論部34Cから供給される第2推論結果Rsとに基づき、第1推論結果Rmを算出し、当該第1推論結果Rmを出力する。
 このように、第2実施形態に係る学習装置10Cは、第2推論部34Cの推論結果を第1推論部32の推論に用いることで、第1推論部32の推論の正確性を好適に向上させることができる。第2実施形態に係る学習装置10Cは、図10に示される人物動作識別と姿勢推定の学習、及び図11に示される人物行動検出と人物検出の学習のいずれの応用例に対しても好適に適用される。
 図14は、学習済みの学習装置10Cの推論処理の手順を示すフローチャートの一例である。
 まず、学習装置10Cは、推論処理を行う対象となる動画データを取得し、当該動画データを特徴抽出部31に入力する(ステップS51)。そして、特徴抽出部31は、特徴抽出部情報記憶部25に記憶されたパラメータを用い、入力された動画データに基づき、動画特徴量Fmと静止画特徴量Fsを生成する(ステップS52)。この場合、特徴抽出部31は、入力された動画データを構成する各画像に対し、静止画データDsに対する処理と同一処理を行うことで、各画像に対応する静止画特徴量Fsを生成する。
 次に、第2推論部34Cは、第2推論部情報記憶部27に記憶されたパラメータを用い、静止画特徴量Fsから第2推論結果Rsを出力する(ステップS53)。そして、第1推論部32Cは、第1推論部情報記憶部26に記憶されたパラメータを参照し、特徴抽出部31から供給される動画特徴量Fmと、第2推論部34Cから供給される第2推論結果Rsとから、第1推論結果Rmを出力する(ステップS54)。この場合、第1推論部32Cは、例えば、動画データの各画像の動画特徴量Fmに対し、対応する各画像の第2推論結果Rsの情報を統合することで、第2推論結果Rsを考慮した動画特徴量Fmを生成し、当該動画特徴量Fmに基づき、第1推論結果Rmを出力する。これにより、第1推論部32Cは、画像毎の推論を行う第2推論部34Cの推論結果を反映した的確な動画の推論結果を得ることができる。
 なお、第1推論部32Cは、特徴抽出部31が出力する動画特徴量Fmと第2推論部34Cが出力する第2推論結果Rsに基づき第1推論結果Rmを出力する代わりに、特徴抽出部31が出力する動画特徴量Fmと静止画特徴量Fsに基づき第1推論結果Rmを出力してもよい。この場合、第1推論部32Cは、例えば、特徴抽出部31から供給される動画特徴量Fmに対し、特徴抽出部31から供給される静止画特徴量Fsを統合し、統合した動画特徴量Fmを入力として第1推論結果Rmの出力を行う。この場合、動画特徴量Fmのチャンネル数(チャンネル方向のデータ長)を「Ca」、第2推論結果Rsのチャンネル数を「Cc」とすると、第1推論部32Cは、静止画特徴量Fsを動画特徴量Fmに統合することで、チャンネル数が「Ca+Cc」となる動画特徴量Fmを生成する。そして、第1推論部32Cは、静止画特徴量Fsが統合された動画特徴量Fmを入力とし、第1推論結果Rmを出力とするように学習が行われる。
 <第3実施形態>
 図15は、第3実施形態に係る学習装置10Dの概略構成を示す。学習装置10Dは、特徴抽出部31Dと、第1推論部32Dと、第2推論部34Dと、学習部36Dとを備える。
 学習装置10Dは、動画データDmが入力された場合に、当該動画データDmに関する特徴量である動画特徴量Fmを抽出し、静止画データDsが入力された場合に、当該静止画データDsに関する特徴量である静止画特徴量Fsを抽出するように学習される。第1推論部32Dは、動画特徴量Fmに基づき、動画データDmに関する第1推論を行う。第2推論部34Dは、静止画特徴量Fsに基づき、静止画データDsに関する第2推論を行う。学習部36Dは、第1推論と第2推論との結果に基づき、特徴抽出部31Dの学習を行う。学習部36Dは、例えば、図2又は図12に示される、第1推論損失算出部33、第2推論損失算出部35、更新部36により構成される。
 第3実施形態に係る学習装置10Dは、動画データDmに加えて静止画データDsを用いて特徴抽出部31Dの学習を行うことで、動画データに対する推論に有効な特徴量を抽出する特徴抽出部31Dを好適に学習することができる。
 その他、上記の各実施形態(変形例を含む、以下同じ)の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。
[付記1]
 動画データが入力された場合に、前記動画データに関する特徴量である動画特徴量を抽出し、静止画データが入力された場合に、前記静止画データに関する特徴量である静止画特徴量を抽出するように学習される特徴抽出部と、
 前記動画特徴量に基づき、前記動画データに関する推論である第1推論を行う第1推論部と、
 前記静止画特徴量に基づき、前記静止画データに関する推論である第2推論を行う第2推論部と、
 前記第1推論と前記第2推論との結果に基づき、前記特徴抽出部の学習を行う学習部と、
を有する、学習装置。
[付記2]
前記特徴抽出部は、前記動画特徴量の抽出と共通するパラメータを用いることで、前記静止画特徴量を抽出し、
 前記学習部は、前記第1推論と前記第2推論との結果に基づき、前記パラメータを更新する、付記1に記載の学習装置。
[付記3]
  前記特徴抽出部は、
 前記動画データ又は当該動画データの特徴量と、前記静止画データ又は当該静止画データの特徴量とに対して適用する、画像に関する特徴変換である画像特徴変換ブロックと、
 前記動画データ又は当該動画データの特徴量に対して適用する、時系列に関する特徴変換である時系列特徴変換ブロックと、
 少なくとも前記静止画データ又は当該静止画データの特徴量に対して適用する、画像内の点毎の特徴変換である点特徴変換ブロックと、
を有する、付記1または2に記載の学習装置。
[付記4]
 前記特徴抽出部は、前記画像特徴変換ブロックと、前記時系列特徴変換ブロックと、前記点特徴変換ブロックとを有する層を重ねた層構造を有する、付記3に記載の学習装置。
[付記5]
 前記時系列特徴変換ブロックは、時系列方向及びチャンネル方向における前記動画データの特徴量の変換を行い、
 前記点特徴変換ブロックは、前記時系列特徴変換ブロックにより変換された前記動画データの特徴量と同一のチャンネル数となるように、前記静止画データの特徴量を変換する、付記3または4に記載の学習装置。
[付記6]
 前記学習部は、
 前記第1推論の結果と、前記第1推論に対する正解データとに基づき、前記第1推論に対する第1推論損失を算出する第1推論損失算出部と、
 前記第2推論の結果と、前記第2推論に対する正解データとに基づき、前記第2推論に対する第2推論損失を算出する第2推論損失算出部と、
 前記第1推論損失と前記第2推論損失とに基づき、前記特徴抽出部のパラメータを更新する更新部と、
を有する、付記1~5のいずれか一項に記載の学習装置。
[付記7]
 前記特徴抽出部は、前記動画データ及び前記静止画データにおいて共通して存在する対象物に関する特徴量を、前記静止画特徴量として抽出する、付記1~6のいずれか一項に記載の学習装置。
[付記8]
  前記学習部は、
 前記第1推論の結果と、前記動画データに対する正解データとに基づき、前記第1推論部の学習を行い、
  前記第2推論の結果と、前記静止画データに対する正解データとに基づき、前記第2推論部の学習を行う、付記1~7のいずれか一項に記載の学習装置。
[付記9]
 付記1~8のいずれか一項に記載の学習装置により学習された特徴抽出部と、
 入力された動画データに関する第1推論を行う第1推論部と、
を有する、推論装置。
[付記10]
 前記第1推論部は、前記動画特徴量と、前記第2推論に関する情報とに基づき、前記第1推論を行う、付記1~8のいずれか一項に記載の学習装置。
[付記11]
 付記10に記載の学習装置により学習された特徴抽出部と、
 入力された動画データに関する第1推論を行う第1推論部と、
 前記動画データを構成する静止画データから前記特徴抽出部が抽出した静止画特徴量に基づき、前記静止画データに関する第2推論を行う第2推論部と、を備え、
 前記第1推論部は、前記動画データから前記特徴抽出部が抽出した動画特徴量と、前記第2推論の結果とに基づき、前記第1推論を行う、
推論装置。
[付記12]
 学習装置が実行する制御方法であって、
 動画データが入力された場合に、前記動画データに関する特徴量である動画特徴量を抽出し、静止画データが入力された場合に、前記静止画データに関する特徴量である静止画特徴量を抽出し、
 前記動画特徴量に基づき、前記動画データに関する推論である第1推論を行い、
 前記静止画特徴量に基づき、前記静止画データに関する推論である第2推論を行い、
 前記第1推論と前記第2推論との結果に基づき、前記動画特徴量及び前記静止画特徴量を抽出する処理の学習を行う、
制御方法。
[付記13]
 動画データが入力された場合に、前記動画データに関する特徴量である動画特徴量を抽出し、静止画データが入力された場合に、前記静止画データに関する特徴量である静止画特徴量を抽出するように学習される特徴抽出部と、
 前記動画特徴量に基づき、前記動画データに関する推論である第1推論を行う第1推論部と、
 前記静止画特徴量に基づき、前記静止画データに関する推論である第2推論を行う第2推論部と、
 前記第1推論と前記第2推論との結果に基づき、前記特徴抽出部の学習を行う学習部
としてコンピュータを機能させるプログラムを格納する記憶媒体。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。
 10、10A~10D 学習装置
 11 プロセッサ
 12 メモリ
 13 インターフェース
 20 記憶装置
 21 動画データ記憶部
 22 静止画データ記憶部
 23 第1正解データ記憶部
 24 第2正解データ記憶部
 25 特徴抽出部情報記憶部
 26 第1推論部情報記憶部
 27 第2推論部情報記憶部
 100 学習システム

Claims (13)

  1.  動画データが入力された場合に、前記動画データに関する特徴量である動画特徴量を抽出し、静止画データが入力された場合に、前記静止画データに関する特徴量である静止画特徴量を抽出するように学習される特徴抽出部と、
     前記動画特徴量に基づき、前記動画データに関する推論である第1推論を行う第1推論部と、
     前記静止画特徴量に基づき、前記静止画データに関する推論である第2推論を行う第2推論部と、
     前記第1推論と前記第2推論との結果に基づき、前記特徴抽出部の学習を行う学習部と、
    を有する、学習装置。
  2.  前記特徴抽出部は、前記動画特徴量の抽出と共通するパラメータを用いることで、前記静止画特徴量を抽出し、
     前記学習部は、前記第1推論と前記第2推論との結果に基づき、前記パラメータを更新する、請求項1に記載の学習装置。
  3.   前記特徴抽出部は、
     前記動画データ又は当該動画データの特徴量と、前記静止画データ又は当該静止画データの特徴量とに対して適用する、画像に関する特徴変換である画像特徴変換ブロックと、
     前記動画データ又は当該動画データの特徴量に対して適用する、時系列に関する特徴変換である時系列特徴変換ブロックと、
     少なくとも前記静止画データ又は当該静止画データの特徴量に対して適用する、画像内の点毎の特徴変換である点特徴変換ブロックと、
    を有する、請求項1または2に記載の学習装置。
  4.  前記特徴抽出部は、前記画像特徴変換ブロックと、前記時系列特徴変換ブロックと、前記点特徴変換ブロックとを有する層を重ねた層構造を有する、請求項3に記載の学習装置。
  5.  前記時系列特徴変換ブロックは、時系列方向及びチャンネル方向における前記動画データの特徴量の変換を行い、
     前記点特徴変換ブロックは、前記時系列特徴変換ブロックにより変換された前記動画データの特徴量と同一のチャンネル数となるように、前記静止画データの特徴量を変換する、請求項3または4に記載の学習装置。
  6.  前記学習部は、
     前記第1推論の結果と、前記第1推論に対する正解データとに基づき、前記第1推論に対する第1推論損失を算出する第1推論損失算出部と、
     前記第2推論の結果と、前記第2推論に対する正解データとに基づき、前記第2推論に対する第2推論損失を算出する第2推論損失算出部と、
     前記第1推論損失と前記第2推論損失とに基づき、前記特徴抽出部のパラメータを更新する更新部と、
    を有する、請求項1~5のいずれか一項に記載の学習装置。
  7.  前記特徴抽出部は、前記動画データ及び前記静止画データにおいて共通して存在する対象物に関する特徴量を、前記静止画特徴量として抽出する、請求項1~6のいずれか一項に記載の学習装置。
  8.   前記学習部は、
     前記第1推論の結果と、前記動画データに対する正解データとに基づき、前記第1推論部の学習を行い、
      前記第2推論の結果と、前記静止画データに対する正解データとに基づき、前記第2推論部の学習を行う、請求項1~7のいずれか一項に記載の学習装置。
  9.  請求項1~8のいずれか一項に記載の学習装置により学習された特徴抽出部と、
     入力された動画データに関する第1推論を行う第1推論部と、
    を有する、推論装置。
  10.  前記第1推論部は、前記動画特徴量と、前記第2推論に関する情報とに基づき、前記第1推論を行う、請求項1~8のいずれか一項に記載の学習装置。
  11.  請求項10に記載の学習装置により学習された特徴抽出部と、
     入力された動画データに関する第1推論を行う第1推論部と、
     前記動画データを構成する静止画データから前記特徴抽出部が抽出した静止画特徴量に基づき、前記静止画データに関する第2推論を行う第2推論部と、を備え、
     前記第1推論部は、前記動画データから前記特徴抽出部が抽出した動画特徴量と、前記第2推論の結果とに基づき、前記第1推論を行う、
    推論装置。
  12.  学習装置が実行する制御方法であって、
     動画データが入力された場合に、前記動画データに関する特徴量である動画特徴量を抽出し、静止画データが入力された場合に、前記静止画データに関する特徴量である静止画特徴量を抽出し、
     前記動画特徴量に基づき、前記動画データに関する推論である第1推論を行い、
     前記静止画特徴量に基づき、前記静止画データに関する推論である第2推論を行い、
     前記第1推論と前記第2推論との結果に基づき、前記動画特徴量及び前記静止画特徴量を抽出する処理の学習を行う、
    制御方法。
  13.  動画データが入力された場合に、前記動画データに関する特徴量である動画特徴量を抽出し、静止画データが入力された場合に、前記静止画データに関する特徴量である静止画特徴量を抽出するように学習される特徴抽出部と、
     前記動画特徴量に基づき、前記動画データに関する推論である第1推論を行う第1推論部と、
     前記静止画特徴量に基づき、前記静止画データに関する推論である第2推論を行う第2推論部と、
     前記第1推論と前記第2推論との結果に基づき、前記特徴抽出部の学習を行う学習部
    としてコンピュータを機能させるプログラムを格納する記憶媒体。
PCT/JP2019/021240 2019-05-29 2019-05-29 学習装置、推論装置、制御方法及び記憶媒体 WO2020240727A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2019/021240 WO2020240727A1 (ja) 2019-05-29 2019-05-29 学習装置、推論装置、制御方法及び記憶媒体
US17/608,201 US11908177B2 (en) 2019-05-29 2019-05-29 Updated learning of feature extraction model that extracts moving image feature amount from moving image data and still image feature amount from still image data
JP2021521648A JP7243821B2 (ja) 2019-05-29 2019-05-29 学習装置、制御方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/021240 WO2020240727A1 (ja) 2019-05-29 2019-05-29 学習装置、推論装置、制御方法及び記憶媒体

Publications (1)

Publication Number Publication Date
WO2020240727A1 true WO2020240727A1 (ja) 2020-12-03

Family

ID=73553130

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/021240 WO2020240727A1 (ja) 2019-05-29 2019-05-29 学習装置、推論装置、制御方法及び記憶媒体

Country Status (3)

Country Link
US (1) US11908177B2 (ja)
JP (1) JP7243821B2 (ja)
WO (1) WO2020240727A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017111660A (ja) * 2015-12-17 2017-06-22 日本電信電話株式会社 映像パターン学習装置、方法、及びプログラム
WO2018083984A1 (ja) * 2016-11-02 2018-05-11 ソニー株式会社 情報処理装置、情報処理方法及び情報処理システム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4577410B2 (ja) * 2008-06-18 2010-11-10 ソニー株式会社 画像処理装置、画像処理方法およびプログラム
JP5931031B2 (ja) * 2013-09-23 2016-06-08 富士フイルム株式会社 内視鏡システム及び内視鏡システムの作動方法
DE102015218346A1 (de) * 2015-09-24 2017-03-30 Siemens Aktiengesellschaft Verfahren, Computerprogramm und System zum Visualisieren von Daten
EP3399324B1 (en) * 2015-12-28 2022-04-13 Konica Minolta, Inc. Magnetic sensor, sensor unit, magnetic detection device, and magnetic measurement device
JP6900190B2 (ja) * 2016-01-14 2021-07-07 キヤノン株式会社 認識学習装置、認識学習方法及びプログラム
EP3432228A4 (en) * 2016-03-14 2019-04-10 Omron Corporation DEVICE FOR MAINTAINING EXTENSIBILITY

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017111660A (ja) * 2015-12-17 2017-06-22 日本電信電話株式会社 映像パターン学習装置、方法、及びプログラム
WO2018083984A1 (ja) * 2016-11-02 2018-05-11 ソニー株式会社 情報処理装置、情報処理方法及び情報処理システム

Also Published As

Publication number Publication date
US11908177B2 (en) 2024-02-20
US20220198783A1 (en) 2022-06-23
JPWO2020240727A1 (ja) 2020-12-03
JP7243821B2 (ja) 2023-03-22

Similar Documents

Publication Publication Date Title
WO2021057027A1 (zh) 人体检测方法、装置、计算机设备及存储介质
CN111402143B (zh) 图像处理方法、装置、设备及计算机可读存储介质
CN113196289B (zh) 人体动作识别方法、人体动作识别系统及设备
KR102008290B1 (ko) 영상에서 객체의 행동을 인식하는 방법 및 그 장치
JP2020524861A (ja) セマンティックセグメンテーションモデルの訓練方法および装置、電子機器、ならびに記憶媒体
US11157749B2 (en) Crowd state recognition device, learning method, and learning program
US10726206B2 (en) Visual reference resolution using attention memory for visual dialog
CN110991380A (zh) 人体属性识别方法、装置、电子设备以及存储介质
US11625838B1 (en) End-to-end multi-person articulated three dimensional pose tracking
JP2020042367A (ja) 学習システム、サーバ、及び特徴量画像描画補間プログラム
CN110287848A (zh) 视频的生成方法及装置
CN111783506A (zh) 目标特征的确定方法、装置和计算机可读存储介质
JP7211428B2 (ja) 情報処理装置、制御方法、及びプログラム
KR102364822B1 (ko) 가려진 영역 복원 방법 및 장치
CN114399424A (zh) 模型训练方法及相关设备
WO2020240727A1 (ja) 学習装置、推論装置、制御方法及び記憶媒体
Aravindan et al. A Smart Assistive System for Visually Impaired to Inform Acquaintance Using Image Processing (ML) Supported by IoT
KR20150094108A (ko) 배경 영상의 위치를 이용한 관심맵 생성 방법 및 이를 기록한 기록 매체
JP7248345B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN114783017A (zh) 基于逆映射的生成对抗网络优化方法及装置
CN114022673A (zh) 跌倒检测方法、装置及计算机可读存储介质
CN112381064A (zh) 一种基于时空图卷积网络的人脸检测方法及装置
WO2023189195A1 (ja) 画像処理装置、画像処理方法、及びプログラム
JPWO2019198233A1 (ja) 動作認識装置、動作認識方法、及びプログラム
KR102507892B1 (ko) 객체 상태 인식 방법, 장치 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19930290

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021521648

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19930290

Country of ref document: EP

Kind code of ref document: A1