WO2020152848A1 - 認識器訓練装置、認識装置、データ処理システム、データ処理方法、および記憶媒体 - Google Patents

認識器訓練装置、認識装置、データ処理システム、データ処理方法、および記憶媒体 Download PDF

Info

Publication number
WO2020152848A1
WO2020152848A1 PCT/JP2019/002475 JP2019002475W WO2020152848A1 WO 2020152848 A1 WO2020152848 A1 WO 2020152848A1 JP 2019002475 W JP2019002475 W JP 2019002475W WO 2020152848 A1 WO2020152848 A1 WO 2020152848A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
time
recognition
training
feature data
Prior art date
Application number
PCT/JP2019/002475
Other languages
English (en)
French (fr)
Inventor
浩雄 池田
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2020567333A priority Critical patent/JP7238905B2/ja
Priority to PCT/JP2019/002475 priority patent/WO2020152848A1/ja
Priority to US17/420,229 priority patent/US20220067480A1/en
Publication of WO2020152848A1 publication Critical patent/WO2020152848A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Definitions

  • the present disclosure relates to a technique for performing recognition using time-series data.
  • -A technology for recognizing (also called identifying) a person's behavior using time-series data.
  • the behavior determination method described in Patent Document 1 performs time-series analysis of time-series data (original time-series data) obtained from a sensor with a predetermined time width while moving along a time axis, Obtain new time series data.
  • the behavior is discriminated by inputting this new time series data into the neural network. This technique assumes that time series data is obtained from the sensor at regular time intervals.
  • the motion identification device described in Patent Document 2 acquires a time-series velocity vector from time-series moving image data, and obtains a time-series Fourier-transformed vector by performing Fourier transform on the velocity vector. Further, the motion identifying apparatus obtains a pattern vector having all the Fourier-transformed vectors within a predetermined time range as components. The motion identifying apparatus identifies the motion of the person included in the moving image data by inputting the obtained pattern vector to the neural network. This technique also assumes that the CCD camera obtains moving image data at regular sample time intervals.
  • Patent Documents 1 and 2 are premised on time series data being acquired at predetermined time intervals. Then, there is a case where the time interval of the time series data used for optimization (that is, learning) of the neural network functioning as a recognizer (also referred to as a classifier) and the time interval of the time series data used for recognition are different. Not considered. Therefore, for example, recognition may not be successfully performed on time-series data acquired at a time interval longer than the time interval of the time-series data used for learning.
  • the reason is that the number of data per unit time in the time series data used for recognition is smaller than the number of data per unit time in the time series data used for learning, and the data included in a certain time range is This is because the recognition cannot be executed due to lack of data when the acquisition is performed and recognition is performed.
  • the reason for the lack of data is that both learning and recognition assume that all data within a certain length of time range is used.
  • the recognition time-series data is not acquired at a predetermined time interval (for example, when the time-series data having different time intervals due to unstable communication environment is acquired). It seems that recognition cannot be performed well. If the number of data to be used for recognition is insufficient in the time range to be recognized, recognition cannot be executed. Even if the number of data is sufficient, at the time of learning, learning is performed using time-series data with a constant time interval. May not give accurate recognition results.
  • One of the objects of the present invention is to provide a training apparatus, a training method, and the like that enable generation of a recognizer that does not depend on time intervals in time series data acquisition.
  • Another object of the present invention is to provide a recognition device, a recognition method, and the like that enable recognition that does not depend on time intervals in the acquisition of time-series data.
  • a recognizer training apparatus is a recognizer training apparatus that trains a recognizer that inputs a time series of feature data as an input and outputs a recognition result, for a set of feature data to which time is assigned.
  • a data range whose length is a specified time width and selecting a specified number of the feature data from the data range by the training feature data selecting means and the training feature data selecting means.
  • Labeling means for assigning a teacher label corresponding to the recognition result to a plurality of selected feature data, which is stored in chronological order, based on information about the plurality of feature data
  • a training unit that trains the recognizer using a set of the plurality of feature data in which the time order is held and the teacher label provided by the label providing unit as training data.
  • a recognition device sets a data range whose length is a designated time width for a set of feature data to which a time is assigned, and selects a designated data range from the set data range.
  • Recognition feature data selecting means for selecting a number of the feature data, and a plurality of feature data selected by the recognition feature data selecting means and inputting a plurality of feature data in chronological order are input to the recognizer.
  • the recognition means for deriving the recognition result and the output means for outputting the information based on the recognition result are thereby provided.
  • a data processing method is a data processing method for training a recognizer that inputs a time series of feature data and outputs a recognition result, and for a set of feature data to which time is given, A data range whose length is a specified time width is set, a specified number of the characteristic data items are selected from the data range, and the selected plurality of characteristic data items are kept in chronological order. Based on information about the plurality of feature data, a teacher label corresponding to the recognition result is given to the plurality of feature data, and a set of the plurality of feature data in which the time order is held and the teacher label is set. , Train the recognizer as training data.
  • a data processing method sets a data range whose length is a designated time width for a set of characteristic data to which a time is assigned, and sets a designated number of times from the data range.
  • a storage medium is a program for training a recognizer that inputs a time series of feature data and outputs a recognition result, and stores a long time for a set of feature data to which time is assigned.
  • a data range having a specified time width is set, and a characteristic data selection process of selecting a specified number of the characteristic data from the data range, and a plurality of characteristic data selected by the characteristic data selection process.
  • a labeling process for imparting a teacher label corresponding to the recognition result, and the time sequence is retained.
  • a program that causes a computer to execute a training process for training the recognizer, using a set of a plurality of feature data and the teacher label provided by the label providing process as training data, is stored.
  • a storage medium sets a data range whose length is a designated time width for a set of characteristic data to which a time is assigned, and sets a designated number of data from the data range.
  • the present invention it is possible to generate a recognizer that does not depend on a time interval in acquiring time series data. Further, according to the present invention, it is possible to perform recognition that does not depend on the time interval in the acquisition of time series data.
  • Random and Randomly are used in the present disclosure to mean, for example, a method in which it is difficult to predict the result completely in advance.
  • Random selection means selection by a selection method that can be considered as having no reproducibility in the selection result. Not only a selection method that depends only on random numbers, but also a selection method that uses pseudo-random numbers and a selection method that follows a predetermined probability distribution may be included in the random selection method.
  • FIG. 1 is a block diagram showing the configuration of a data processing system 1 according to the first embodiment.
  • the data processing system 1 has a training module 11, a recognition module 21, and a storage module 31.
  • module is a concept indicating a group of functions.
  • a module may be a single entity, a combination of multiple entities, or parts of a single entity that are conceptually viewed as a unit.
  • the storage module 31 is a module that stores information used by the training module 11 and the recognition module 21.
  • the recognition module 21 is a module that performs recognition. Specifically, the recognition performed by the recognition module 21 is to derive one recognition result by inputting a plurality of feature data using a recognizer constructed based on a dictionary (described later) stored in the storage module 31.
  • the recognizer may be a known recognizer, and for example, a recognizer using an SVM (Support Vector Machine), a random forest, or a neural network may be adopted.
  • SVM Small Vector Machine
  • the purpose of recognition is, for example, identification of behavior of an observation target (person or object), acquisition of knowledge regarding the state of the observation target, detection of a person or object performing a predetermined behavior, detection of a person or object in a predetermined state, Alternatively, it is detection of the occurrence of an event.
  • the recognizer uses one of the plurality of behaviors prepared as possible behaviors of the observation target based on the plurality of feature data. Is output as the behavior of the observation target. Specifically, for example, the recognizer performs an operation with a plurality of feature data as inputs, determines one of a plurality of behaviors as a result of the operation, and outputs information indicating the determined behavior. .. Alternatively, the recognizer may be configured to output the likelihood of each of the plurality of behaviors.
  • the training module 11 is a module for training a dictionary.
  • “Dictionary” in the present disclosure refers to data that defines a recognizer for performing recognition processing.
  • the dictionary contains parameters whose values can be modified by training. Training a dictionary is to correct the value of a parameter in the dictionary using training data. Training the dictionary is expected to improve the accuracy of recognition using the dictionary-based recognizer. Training a dictionary can be said to train a recognizer.
  • Each module (that is, the training module 11, the recognition module 21, and the storage module 31 in this embodiment) may be implemented by, for example, a separate device, or part or all of which may be implemented by one computer. .. Each module can be configured to exchange data with each other. If each module is implemented by a separate device, each of the devices may be configured to communicate data with each other via a communication interface.
  • the storage module 31 is a portable recording medium, and an apparatus for constructing the training module 11 and an apparatus for constructing the recognition module 21 are provided with an interface for reading data from the portable recording medium. May be. In that case, the portable recording medium may be simultaneously connected to both devices, or a person may switch the device to which the portable recording medium is connected depending on the situation.
  • each module may be regarded as a module. That is, the substance of each module may be a plurality of devices. Moreover, the components included in different modules may be mounted in one device.
  • each component included in the training module 11 and the recognition module 21 When each component included in the training module 11 and the recognition module 21 generates or acquires data, it can make the data available to other components. For example, each component may send the data it produces or acquires to other components that use the data. Alternatively, each component may record the generated or acquired data in a storage area (memory or the like, not shown) or a storage module 31 in a module including the component. Each constituent element may directly receive the data to be used when executing the respective processing, from the constituent element that generated or acquired the data, or may read it from the storage area or the storage module 31.
  • the sample data storage unit 311 stores sample data.
  • the sample data is data used to generate a sample (a so-called training sample) used for training the training device by the training module 11.
  • the sample data of this embodiment is a collection of feature data to which information indicating time and a label are added.
  • FIG. 2 is a diagram conceptually showing an example of information included in the sample data.
  • the sample data does not necessarily have to be stored in the table format as shown in FIG. 2, but it is easy to handle if the data is stored in a state in which the time-series relationship is easy to understand, such as being arranged in order of time.
  • the above-mentioned feature data is data representing the feature of the target recognized by the recognizer.
  • the characteristic data is, for example, data obtained by a sensor such as a camera, or data generated by processing the data.
  • data obtained from the camera include color images and grayscale images.
  • the feature data may be data representing the entire image captured by the camera or data representing a part of the image.
  • data generated by processing the data a normalized image, an inter-frame difference image, a feature amount extracted from the image, which represents the feature of an object in the image, and a conversion process to the image are performed. Examples include pattern vectors obtained by applying the patterns.
  • Examples of information obtained from a sensor other than a camera include, but are not limited to, the acceleration of an object (which may be a part of a living body), the position, the distance from the sensor, and the temperature.
  • the information indicating the time added to the characteristic data indicates the time when the characteristic data was observed. For example, when an image is acquired by shooting and feature data is extracted from the image, the information indicating the time added to the feature data is not the time when the feature data was extracted from the image, but the time when the shooting was performed. Indicates. In the present disclosure, the fact that the information indicating the time is added to the characteristic data is also expressed as the time being added to the characteristic data.
  • Intervals between the time when each feature data is observed may be fixed or undefined.
  • the label assumed in this embodiment is information indicating the behavior of the observation target, such as “stand” and “sit”.
  • the label does not have to be text information that can be understood by a person, and may be any information for identifying the type of label.
  • Labels are not limited to human behavior.
  • the label may be, for example, information indicating an action given to an object such as “throw” or “put down”, or information indicating an event such as "car invades” or "occurrence of queue”.
  • the label may be given, for example, by an observer who observes the state of the observation target in the sample data. For example, when the observer determines that the observation target exhibits a predetermined behavior during a certain period, the observer may give a label indicating the predetermined behavior to each of the characteristic data included in that period.
  • a method of giving a label by the observer a method of inputting characteristic data or information designating a period and identification information indicating a label to a computer that controls the storage module via an input interface may be used.
  • a computer capable of recognizing the behavior, instead of the observer, may give a label to each of the feature data.
  • the parameter storage unit 312 stores values of parameters (hereinafter, referred to as “designated parameters”) referred to in training and recognition. Specifically, the contents represented by the designated parameter are the designated time width and the designated number of data.
  • the specified time width is the length specified as the length (time width) of the range in which the characteristic data should be extracted from the time series data.
  • the designated time width can be represented as, for example, “4 (seconds)” or the like.
  • the number of designated data is the number designated as the number of feature data to be selected from the designated time width.
  • the designated data number can be represented as, for example, “6 (pieces)” or the like.
  • the designated time width and the designated data number may be determined, for example, when the data processing system 1 is implemented, or may be identified by accepting the designation by an external input.
  • the dictionary storage unit 313 stores a dictionary.
  • the dictionary is trained by the training module 11 and used for recognition processing by the recognition module 21.
  • the dictionary is data that defines a recognizer, and includes data that defines a recognition process and parameters used for calculation.
  • the dictionary contains data defining the structure of the neural network and parameters weights and biases. The content and data structure of the dictionary may be properly designed according to the type of recognizer.
  • the recognition target data storage unit 314 stores the recognition target data.
  • the recognition target data is the data that is the basis of the data to be recognized by the recognition module 21. That is, data to be recognized by the recognition module 21 is created from a part of the recognition target data.
  • the recognition target data storage unit 314 stores the characteristic data to which the time is added.
  • FIG. 3 is a diagram illustrating an example of information included in the recognition target data.
  • the characteristic data included in the recognition target data can be acquired from, for example, a characteristic data acquisition device (not shown) that acquires the characteristic data by sensing.
  • the characteristic data acquisition device stores data obtained from a camera or other sensor, or data generated by processing the data in the recognition target data storage unit 314 in the order of the acquired time. Good.
  • the time and characteristic data are the same as the time and characteristic data of the sample data already explained.
  • the time interval of each data included in the recognition target data may be constant or indefinite.
  • the reading unit 111 reads the data used for the processing by the training module 11 from the storage module 31.
  • the data read by the reading unit 111 is, for example, sample data stored in the sample data storage unit 311, designated parameters stored in the parameter storage unit 312, and a dictionary stored in the dictionary storage unit 313.
  • the data selection unit 112 selects, from the sample data, a number of feature data equal to the designated number of data as feature data to be used for training. At this time, the data selection unit 112 sets a data range having a length corresponding to the designated time width in the sample data, and then selects a number of feature data equal to the designated data number from the feature data included in the range. To do.
  • the method of determining the data range may be, for example, a method of determining the data range based on a certain time (for example, using that time as the start point, end point, or center point).
  • This “certain time” may be a designated time or may be randomly determined (for example, by a method using a random number or a pseudo-random number) from the range of possible times given to the sample data. It may be the time.
  • the method of determining the data range is, for example, selecting one feature data included in the sample data, and using the feature data as a reference (for example, the time given to the feature data is the start point, the end point, or the center point). As a method of determining the data range.
  • the characteristic data selected in this case may be designated characteristic data or randomly determined characteristic data.
  • such designation may be received by the training module 11 from the outside via an input interface (not shown), or such designation may be made. It may be acquired by being stored in the storage module 31 and read by the reading unit 111.
  • the data selection unit 112 may set the data range by a setting method that shifts the data range each time the data range is set (a specific example will be explained in the description of the operation).
  • One example of a method of selecting characteristic data is a method of simply selecting at random.
  • the data selection unit 112 specifies the number of characteristic data included in the determined data range, and performs a random selection without duplication from a set of numbers from 1 to the number corresponding to the specified number. The number of numbers corresponding to the designated data number may be selected.
  • a method for performing random selection without duplication for example, a random number is selected from a set of numbers excluding the already selected numbers (for example, a method in which any number included in the set has the same probability of being selected).
  • a selection method in which the operation of selecting one is repeated a predetermined number of times is applicable.
  • the data selection unit 112 may be configured to always select the newest feature data in the determined data range. In that case, the data selection unit 112 selects the newest feature data, and selects n-1 (n is the designated number of data, the same applies hereinafter) of feature data other than the newest feature data (for example, there is no duplication). It may be selected (by random selection).
  • the weighted random selection method is a method for making a random selection under the probability according to the weight. For example, as shown in FIG. 4, the data selection unit 112 causes the feature data included in the determined data range to have a greater weight to be selected as the feature data is given a newer time (that is, , So that they can be easily selected). Then, the data selection unit 112 may select n pieces of feature data by a weighted random selection method.
  • the above-mentioned method of always selecting the newest feature data and the weighted random selection method in which the weight increases as the feature data given a newer time are particularly effective in real-time recognition. ..
  • the reason is that the newer time is more important for real-time recognition, and the above method allows the data of the new time to be selected and selected.
  • An example of yet another method of selecting characteristic data is a method of selecting such that the variation in the time interval between the selected characteristic data is as small as possible.
  • the feature data described in this specific example are all feature data included in the determined data range.
  • the data selection unit 112 determines the reference feature data and the reference interval.
  • the reference feature data for example, the oldest (the earliest given time) feature data is determined.
  • the reference interval is, for example, a quotient obtained by dividing the length of the data range (that is, the specified time width) by the specified number of data, or is given to the latest feature data from the time given to the reference feature data. The quotient when the time until the specified time is divided by the "specified data number-1" is determined.
  • the data selection unit 112 identifies the time after “reference interval ⁇ k” has elapsed from the time given to the reference feature data.
  • k is a variable that takes all integer values in the range of 0 to n-1.
  • the vector having the component of each of the identified times and the vector having the component of the times given to the selected n pieces of feature data are the most similar (that is, N pieces of feature data such as the smallest Euclidean distance) may be selected.
  • the latest feature data may be used as the reference feature data.
  • the reference interval for example, the quotient when the length of the data range is divided by the specified number of data, or the feature data serving as a reference from the time assigned to the earliest feature data is assigned. The quotient when the time up to the time given to is divided by the "specified data number-1" is determined.
  • the data selection unit 112 For each value of k, the data selection unit 112 identifies a time that is traced back by “reference interval ⁇ k” from the time assigned to the reference feature data, and the assigned time is the specified time. The feature data closest to that time may be selected.
  • the data selection unit 112 uses the time sequence (forward direction, reverse direction) assigned from the reference feature data. Characteristic data existing in a predetermined number in any direction) may be selected. For example, when the number of designated data is n and the above-mentioned predetermined number is 3, the data selection unit 112 determines that the “1+3k”-th (k is a variable from 0 to n ⁇ 1) of the plurality of characteristic data arranged in time series. ) The characteristic data of) may be selected.
  • the data selection unit 112 may add a flag to the selected feature data among the feature data recorded in the sample data storage unit 311 to indicate that the feature data has been selected.
  • the data selection unit 112 may read the selected feature data from the sample data storage unit 311 and output it to another component or storage area in the training module 11.
  • the data selection unit 112 outputs the specified number n of selected characteristic data items in a state where temporal order is maintained.
  • the data selection unit 112 may arrange the n pieces of selected feature data in the order in which the given times are old, and record the aligned feature data in the storage area in the training module 11.
  • the data selection unit 112 does not compare the selected feature data among the feature data recorded in the sample data storage unit 311. Then, a flag indicating that the characteristic data is selected and information (number or the like) indicating a temporal order may be added.
  • the label determination unit 113 determines the label to be given to the feature data selected by the data selection unit 112. One label is determined for the selected feature data group.
  • the label determined by the label determination unit 113 is also referred to as “teacher label”.
  • a set of the selected feature data group and the teacher label serves as a training sample.
  • the teacher label is information corresponding to the data on the output side of the recognizer.
  • the label determination unit 113 extracts the label given to each of the feature data selected by the data selection unit 112, and determines the teacher label based on the extracted label.
  • the label determination unit 113 may, for example, select a label having the largest number of pieces assigned to the selected feature data from the extracted labels, and determine the selected label as the teacher label. Further, for example, the label determination unit 113 sets weights on the extracted labels according to the time given to the characteristic data of the extraction source, and counts the weighted numbers (cumulative addition in other words). The label having the largest value (that is, the total value) as a result of counting may be determined as the teacher label.
  • the training unit 114 trains the dictionary stored in the dictionary storage unit 313 using the feature data of the designated data number selected by the data selection unit 112 and the teacher label determined by the label determination unit 113. Specifically, the training unit 114 regards a set of the selected specified number of pieces of feature data and the teacher label as one training sample, and uses the training sample to modify the values of the parameters included in the dictionary. In addition, in this indication, one or more training samples are also described as training data. A well-known learning algorithm may be adopted as the training method.
  • the selected feature data is typically used in a state where temporal order is maintained during training (in other words, in a state in which the order of the given times can be seen).
  • the selected data can be concatenated in the order of the given time and treated as one vector.
  • the feature data is a two-dimensional image and the recognizer is constructed by a neural network that inputs data with a three-dimensional structure such as CNN (Convolutional Neural Network)
  • the feature data will be in the channel direction. They are arranged in chronological order and can be treated as data having a three-dimensional structure.
  • a state in which temporal order is maintained is also expressed by the words “arranged in time order” and “time order is maintained”.
  • the recognition module 21 includes a reading unit 211, a data selection unit 212, a recognition result derivation unit 213, and an output unit 214.
  • the reading unit 211 reads data used for processing by the recognition module 21 from the storage module 31.
  • the data read by the reading unit 111 is, for example, recognition target data stored in the recognition target data storage unit 314, designated parameters stored in the parameter storage unit 312, and a dictionary stored in the dictionary storage unit 313.
  • the data selection unit 212 selects, from the recognition target data, a number of feature data equal to the designated number of data as feature data to be used for recognition. At this time, the data selection unit 212 sets a data range having a length corresponding to the designated time width in the recognition target data, and then, from the feature data included in the data range, the number of feature data equal to the designated data number. select. After selecting the specified number of pieces of feature data, the data selection unit 212 outputs the selected feature data to another unit (for example, the recognition result derivation unit 213) in the recognition module 21 while maintaining temporal order. You can
  • the data selection unit 212 sets a range in which the recognition result is desired to be known as a data range.
  • the setting of the range in which the recognition result is desired to be known may be designated from outside the recognition module 21.
  • the recognition module 21 may automatically define the range in which the recognition result is desired. For example, in the case where it is desired to perform recognition in real time, a range including the latest feature data may be adopted as the range in which the recognition result is desired to be known. In this case, the data selection unit 212 may determine the range from the time of the latest feature data to the time point traced back by the length of the designated time width as the data range.
  • the selection method given as an example of the selection method by the data selection unit 112 can be mentioned.
  • the data selection unit 212 can select the specified number of pieces of characteristic data by a method similar to the method performed by the data selection unit 112 (that is, a selection method similar to the selection method in training).
  • the recognition result deriving unit 213 derives the recognition result by inputting the specified number of pieces of feature data selected by the data selecting unit 212 to the recognizer based on the dictionary stored in the dictionary storage unit 313.
  • the selected feature data is typically used in a state of temporal order in recognition.
  • the usage method similar to the usage method exemplified in the description of the training unit 114 can be mentioned.
  • the recognition result derivation unit 213 may use the selected feature data in a method similar to the method performed by the training unit 114 (that is, the same usage method as that used in training).
  • the recognition result is, for example, information indicating a class indicating one behavior, which is output by the recognizer.
  • the form of the data indicating the recognition result depends on the recognizer.
  • the recognition result may be represented by a vector having the number of prepared classes as the number of components, or may be represented by a quantitative value such as a numerical value in the range of “1” to “5”. ..
  • the output unit 214 outputs information based on the recognition result derived by the recognition result deriving unit 213.
  • the output by the output unit 214 is specifically, for example, display on a display, transmission to another information processing device, writing to a storage device, or the like.
  • the output method by the output unit 214 may be any method as long as the information based on the recognition result is transmitted to the outside of the recognition module 21.
  • the information based on the recognition result may be information that directly represents the recognition result or information that is generated according to the content of the recognition result.
  • the information based on the recognition result is information indicating the behavior of the observation target ("sitting on a chair", “raising hands”, “has suspicious behavior”, etc.), information indicating the likelihood of each class, It may be a warning message generated according to the recognition result, an instruction according to the recognition result to some device, or the like.
  • the form of the information is not particularly limited, and may be any suitable form (image data, audio data, text data, instruction code, voltage, etc.) according to the output destination.
  • each process in each operation may be executed in the order of the instructions in the program when each process is executed by the processor that executes the program.
  • the device that has completed the process may notify the device that executes the next process to execute the processes in order.
  • each unit that performs the processing may receive the data required for each processing from the unit that generated the data and/or read the data from the storage area or the storage module 31 included in the module.
  • the flow of the training process by the training module 11 will be described with reference to FIG.
  • the training process may be started, for example, when an instruction to start the training process is received from the outside.
  • the reading unit 111 reads the sample data from the sample data storage unit 311, the dictionary from the dictionary storage unit 313, and the designated time width and the designated data number from the parameter storage unit 312 (step S11).
  • the data selection unit 112 sets a data range of a specified time width for the read sample data (step S12), and selects characteristic data of a specified number of data from the set data range. (Step S13).
  • the data selection unit 112 may arrange the selected feature data in the order of the given time and output it to another unit in the training module 11.
  • the label determination unit 113 determines a teacher label for the selected feature data (step S14).
  • the set of the selected feature data (in chronological order) and the determined label becomes the training sample.
  • the training unit 114 uses the training sample, that is, the training data that is a set of the selected specified data number of the feature data and the determined label and the determined feature data. , Training the dictionary (step S15).
  • the training unit 114 may reflect the value of the parameter modified by the training in the dictionary of the dictionary storage unit 313 each time it is modified, or it may be temporarily recorded in a storage area different from the dictionary storage unit 313. Alternatively, it may be reflected in the dictionary storage unit 313 when the training process ends.
  • the training module 11 determines whether the condition for ending the training is satisfied (step S16).
  • the condition for ending the training for example, a condition that the number of times the processes of steps S12 to S15 are executed reaches a predetermined number, or an index value indicating the degree of convergence of the parameter values is predetermined.
  • the condition that the condition is satisfied may be adopted.
  • the training module 11 performs the training again. That is, the training module 11 performs the processing from step S12 to step S15. However, the data selection unit 112 selects a characteristic data group different from the already used characteristic data group.
  • the data selection unit 112 may reset the data range. Then, the data selection unit 112 may set the data range by a method such that the data range shifts each time it is set. For example, the data selection unit 112 may be configured to set the data range such that the start point of the data range is shifted by a predetermined time each time the data range is set.
  • the training module 11 may record the already used feature data group so that the same feature data group is not used more than once in the training. Good. For example, when selecting a characteristic data group, the data selection unit 112 checks whether any of the past characteristic data groups matches the selected characteristic data group. Reselect the data group.
  • the data selection unit 112 When the data selection unit 112 is configured to select the feature data based on the reference feature data (described above), the training module 11 is already used so that the same feature data group is not used more than once in the training. In addition, the reference feature data, the reference interval (described above), or a predetermined number (described above) may be recorded. Then, the data selecting unit 112 may set at least one of the reference feature data, the reference interval, and the predetermined number so as to be different from the one already used, each time the process of step S12 is performed. For example, the data selection unit 112 may shift the reference feature data each time the process of step S12 is performed, as shown in FIG.
  • step S16 If the condition for ending the training is satisfied (YES in step S16), the training module 11 ends the training process.
  • the training module 11 may prepare a plurality of training samples before training the dictionary. That is, the training module 11 may perform the process of step S15 after repeating the processes of steps S12 to S14 a predetermined number of times. A flow chart of the flow of such operation is shown in FIG. Based on the flow shown in FIG. 7, after the training samples are generated in the process of step S14, the training module 11 determines whether the number of training samples reaches the reference (step S17). The criteria may be predetermined. When the number of training samples has not reached the standard (NO in step S17), the training module 11 performs the processing from step S12 to step S14 again.
  • the training unit 114 When the number of training samples reaches the standard (YES in step S17), the training unit 114 generates a plurality of training samples generated between the processing of step S11 and the processing of step S17 (already used for training.
  • the dictionary is trained using the training samples (excluding the training sample) (step S18).
  • recognition processing The flow of recognition processing by the recognition module 21 will be described with reference to FIG.
  • the recognition process may be started, for example, when an instruction to start the recognition process is received from the outside.
  • the recognition module 21 reads a dictionary from the dictionary storage unit 313 and builds a recognizer based on the read dictionary (step S21).
  • the reading unit 211 reads the recognition target data from the recognition target data storage unit 314, and the designated time width and the designated data number from the parameter storage unit 312 (step S22).
  • the data selection unit 212 sets the range in the recognition target data for which the recognition result is desired to be known as the data range of the specified time width (step S23), and the characteristic data of the specified number of data is set from the set data range. A selection is made (step S24).
  • the data selection unit 212 may arrange the selected feature data in the order of the given time and output it to another unit (for example, the recognition result derivation unit 213) in the recognition module 21.
  • the recognition result deriving unit 213 recognizes the selected feature data (the time order is held) using the recognizer, and derives the recognition result (step S25).
  • the output unit 214 outputs information based on the recognition result (step S26).
  • ⁇ Effect> According to the data processing system 1 according to the first embodiment, it is possible to generate a recognizer that does not depend on a time interval in acquiring time series data.
  • the data selection unit 112 and the data selection unit 212 select the feature data of the designated number of data both during training and during recognition.
  • the data selection unit 112 selects feature data of a specified number of data from the data range of the specified time width, and thereby a recognizer that does not depend on the time interval between the feature data is constructed. ..
  • the time interval is not fixed, since the training sample is used without losing the information on the time series relation, a recognizer capable of outputting various recognition results can be constructed.
  • the data processing system 1 can perform robust recognition of the time interval in the acquisition of time series data.
  • the recognition module 21 may derive a plurality of recognition results and output a comprehensive recognition result (described later) based on the plurality of recognition results. For example, the recognition module 21 may repeat the processing from step S23 to step S25 until a predetermined number of recognition results are derived. In that case, the setting of the data range (the time when the data range for the recognition target data is set) is not changed in the repetition of the processing.
  • FIG. 9 is a block diagram showing the configuration of the data processing system 2 according to the first modification.
  • the data processing system 2 includes a training module 11, a recognition module 22, and a storage module 31.
  • the recognition module 22 includes a result integration unit 225 in addition to the components of the recognition module 21.
  • the recognition module 22 repeats the process of the data selection unit 212 and the process of the recognition result derivation unit 213 for the data read by the reading unit 211 a plurality of times. Thereby, the recognition module 22 derives a plurality of recognition results. In the repetition of the processing, the setting of the data range (time when the data range for the recognition target data is set) is not changed.
  • the result integration unit 225 integrates the plurality of recognition results derived by the recognition result derivation unit 213.
  • the result integration unit 225 derives a comprehensive recognition result (that is, information indicating one recognition result in which a plurality of recognition results are reflected) by integrating the recognition results.
  • the result integration unit 225 may derive, for example, the recognition result having the largest number among the plurality of recognition results as the comprehensive recognition result.
  • the result integration unit 225 may calculate a representative value (average value, median value, maximum value, minimum value, etc.) from the plurality of recognition results.
  • the result integration unit 225 may calculate the variance at the same time.
  • the result integration unit 225 may calculate the representative value after correcting the plurality of recognition results.
  • the correction here is to correct the value based on the correction amount.
  • As the correction amount for example, an amount determined based on the temporal relationship of the selected characteristic data or the like can be adopted.
  • weighted voting with likelihood as the weight may be performed.
  • the weighted voting is a method of cumulatively adding values that increase according to the likelihood and selecting a class having the largest score (that is, total value) as a result of the addition.
  • the value to be added may be set to 0 (a value not reflected in the score) for the recognition result whose likelihood is less than the predetermined threshold value.
  • the result integrating unit 225 sums the likelihoods indicated by the recognition results for each class, and selects the class with the highest total value, which is the summed result, You may specify as a comprehensive recognition result.
  • the output unit 214 outputs information based on the comprehensive recognition result derived by the result integration unit 225. It can be understood that the specific content of the information based on the comprehensive recognition result is the same as the content described for the “information based on the recognition result”. Needless to say, the information based on the comprehensive recognition result is one of the information based on the recognition result derived by the recognition result deriving unit 213.
  • step S21 to step S25 in FIG. 10 is the same as the processing from step S21 to step S25 by the recognition module 21, respectively.
  • the output unit 214 temporarily records the recognition result in the storage area of the storage module 31 (step S27).
  • the recognition module 22 determines whether a predetermined number of recognition results have been derived since the start of the process of step S21 (step S28). When the predetermined number of recognition results have not been derived (NO in step S28), the recognition module 22 performs the processes from step S24 to step S27 again.
  • the data selection unit 212 does not have to redetermine the data range. However, the data selection unit 212 reselects the feature data.
  • a variety of recognition results can be obtained by using different characteristic data groups in a fixed data range.
  • the result integration unit 225 integrates the temporarily recorded recognition results. As a result, the result integration unit 225 derives a comprehensive recognition result (step S29).
  • the output unit 214 outputs information based on the comprehensive recognition result (step S30).
  • the recognition module 22 uses the feature data included in the data range determined by the data selection unit 212 more effectively in recognition. Therefore, recognition accuracy and reliability are improved.
  • FIG. 11 is a block diagram showing the configuration of the data processing system 3 according to the second modification.
  • the data processing system 3 includes a training module 11, a recognition module 23, and a storage module 31.
  • the recognition module 23 includes a result integration unit 235 in addition to the components of the recognition module 21.
  • the dictionary storage unit 313 of the storage module 31 stores a plurality of dictionaries.
  • the training module 11 performs dictionary training for each dictionary.
  • the training method for each dictionary may be the same as the method described in the first embodiment.
  • the specified time width used when selecting the feature data used for training differs for each dictionary. That is, the training module 11 trains a plurality of dictionaries by using different designated time widths.
  • the designated data number may be the same for all dictionaries or may be different for each dictionary.
  • the parameter storage unit 312 stores, for each dictionary, a plurality of different designated time widths and the number of designated data corresponding to each of the plurality of designated time widths. The stored designated time width and designated data quantity corresponding to the dictionary may be read out.
  • the recognition module 23 derives a recognition result using each of the plurality of dictionaries. That is, a plurality of recognition results derived based on different dictionaries (that is, dictionaries relating to different designated time widths) are obtained for certain recognition target data.
  • the recognition module 23 repeats selection of a dictionary and recognition processing using the dictionary, for example, for the number of dictionaries.
  • the recognition module 23 selects a dictionary, reads out the designated time width and the designated data number used for training the selected dictionary, and uses the read designated time width and designated data number to perform the recognition process. I do.
  • data that associates the dictionary with the specified time width and the specified data number used for training the dictionary may be stored in the storage module 31.
  • the result integration unit 235 integrates the plurality of recognition results derived by the recognition result derivation unit 213.
  • the result integration unit 235 derives a final recognition result (that is, information to be output as a result of recognition by the recognition module 23) by integrating the recognition results.
  • the method of integration by the result integration unit 235 may be the same as any of the methods described as the method of integration by the result integration unit 225 of the first modification.
  • the output unit 214 outputs the information based on the final recognition result derived by the result integration unit 235. It can be understood that the specific content of the information based on the final recognition result is the same as the content described for the “information based on the recognition result”. Needless to say, the information based on the final recognition result is one of the information based on the recognition result derived by the recognition result deriving unit 213.
  • the recognition module 23 selects one dictionary from a plurality of dictionaries (step S31). Then, the recognition module 23 builds a recognizer using the selected dictionary (step S32).
  • the reading unit 211 reads the recognition target data, the designated time width associated with the selected dictionary, and the designated number of data (step S33). Then, the data selection unit 212 sets the range in the recognition target data for which the recognition result is desired to be known as the data range of the designated time width (step S34), and selects the feature data of the designated data number from the set data range. (Step S35). The data selection unit 212 arranges the selected data in the order of the given time and outputs it. Then, the recognition result deriving unit 213 derives a recognition result for the selected feature data (the time order is held) using the recognizer (step S36).
  • the output unit 214 temporarily records the recognition result (for example, in the storage area of the storage module 31) (step S37).
  • the recognition module 23 determines whether to use another dictionary (step S38).
  • the criterion for this determination may be, for example, whether all the dictionaries stored in the dictionary storage unit 313 have been used, whether the number of obtained recognition results has reached a predetermined number, or the like.
  • the recognition module 23 When using another dictionary (YES in step S38), the recognition module 23 performs the processing from step S31 again.
  • the dictionary selected in step S31 is a dictionary other than the already selected dictionary.
  • the result integration unit 235 integrates the plurality of temporarily recorded recognition results and thereby derives the final recognition result (step S39).
  • the output unit 214 outputs information based on the final recognition result (step S40).
  • step S32 the recognition module 23 builds a recognizer with the selected dictionary each time the dictionary is selected, but a recognizer with all the dictionaries may be built in advance. In that case, step S32 is omitted, and in step S36, the recognition result derivation unit 213 selects and uses a recognizer that matches the selected dictionary from the recognizers built in advance.
  • ⁇ Effect> According to the second modified example, it is possible to perform recognition with higher accuracy.
  • the reason is that a plurality of dictionaries each trained using a plurality of designated time widths are used for recognition, and the result integrating section 235 integrally derives a final recognition result from the plurality of recognition results. ..
  • a plurality of labels may be attached to one feature data.
  • a label may be attached to the time range instead of the characteristic data.
  • the label determination unit 113 may determine the teacher label based on one or more labels given to the time range including the time given to the selected feature data.
  • the label determination unit 113 may determine the teacher label based on the relationship between the data range determined by the data selection unit 112 and the time range to which the label is assigned. For example, the time range to which a certain label “A” is assigned is included in the data range determined by the data selecting unit 112, and the time range to which any other label is assigned is determined by the data selecting unit 112. If the length is longer than the length included in the data range, the label determination unit 113 may determine the label “A” as the teacher label.
  • the recognition by the recognition modules 21 to 23 may be recognition other than the occurrence of a behavior or event.
  • the recognition may be recognition other than the exemplified recognition as long as it is recognition using a plurality of feature data arranged in time series.
  • the label may be information indicating the state of the observation target. Examples of the label indicating the state are “present”, “not present”, “moving”, “falling”, “rotating”, “having things”, There are “looking to the left”, “fast”, “slow”, “normal”, “abnormal”, etc.
  • the label determination unit 113 may determine the teacher label based on the combination of labels given to each data. For example, when the extracted label includes two types of labels, “moving” and “stopped” in time order, the label determination unit 113 sets the label “begins to stay” to the teacher label. Can be determined as In addition, for example, when there are two types of labels, “looking leftward” and “looking rightward”, in the extracted labels, the label determination unit 113 “slows down”. The label "I am" can be determined as the teacher label.
  • the recognizer training device 10 is a device for training a recognizer that inputs a time series of feature data and outputs a recognition result.
  • FIG. 13 is a block diagram showing the configuration of the recognizer training device 10.
  • the recognizer training device 10 includes a training feature data selection unit 101, a labeling unit 102, and a training unit 103.
  • the training feature data selection unit 101 sets a data range whose length is a designated time width for a set of feature data to which a time and a label are added, and designates from the set data range.
  • the feature data of the number of is selected.
  • the data selection unit 112 in the first embodiment corresponds to an example of the training feature data selection unit 101.
  • the label assigning unit 102 applies a plurality of (specified number of) feature data selected by the training feature data selection unit 101 to a plurality of (specified number of) feature data whose time sequence is held, and A teacher label corresponding to the recognition result of the recognizer is given based on the information about the plurality of feature data.
  • An example of information regarding a plurality of feature data is a label attached to at least one of the plurality of feature data.
  • the label determining unit 113 in the first embodiment corresponds to an example of the label assigning unit 102.
  • the training unit 103 recognizes, as training data, a set of a plurality of feature data items, which are selected by the training feature data selection unit 101 and which are stored in time order, and a teacher label assigned by the label assigning unit 102, as the training data. Train the vessels.
  • the training unit 114 in the first embodiment corresponds to an example of the training unit 103.
  • the training feature data selection unit 101 sets a data range whose length is a designated time width for a set of feature data, and selects a designated number of feature data from the set data range. A selection is made (step S101).
  • the labeling unit 102 sets a plurality of feature data items selected by the training feature data selecting unit 101, which are stored in chronological order, based on information about the plurality of feature data items. , A teacher label corresponding to the recognition result of the recognizer is added (step S102).
  • the training unit 103 uses, as training data, a set of a plurality of feature data items selected by the training feature data selection unit 101, which are held in time order, and a teacher label assigned by the label assigning unit 102. , Train the recognizer (step S103).
  • the recognizer training device 10 it is possible to generate a recognizer that does not depend on the time interval in acquiring time series data. The reason is that the training feature data selection unit 101 can select the feature data without depending on the time interval, and the training unit 103 trains the recognizer using the selected feature data. is there.
  • the recognition device 20 uses a recognizer to perform recognition using a plurality of feature data as inputs. In addition, it is effective if the recognizer trained by the above-described recognizer training apparatus 10 is adopted as the recognizer used by the recognizer 20.
  • FIG. 15 is a block diagram showing the configuration of the recognition device 20.
  • the recognition device 20 includes a recognition feature data selection unit 201, a recognition unit 202, and an output unit 203.
  • the recognition feature data selection unit 201 sets, for a set of feature data to which a time is assigned, a data range whose length is a designated time width in a range in which the recognition result is desired to be known, and the set data range is set. Select a specified number of feature data from among.
  • the data selection unit 212 in the first embodiment corresponds to an example of the recognition feature data selection unit 201.
  • the recognition unit 202 inputs to the recognizer a plurality (a specified number of) of feature data selected by the recognition feature data selection unit 201 and a plurality of (a specified number of) feature data whose time sequence is maintained. By doing, the recognition result is derived.
  • the recognition result derivation unit 213 in the first embodiment corresponds to an example of the recognition unit 202.
  • the output unit 203 outputs information based on the recognition result derived by the recognition unit 202.
  • the output unit 214 in the first embodiment corresponds to an example of the output unit 203.
  • the recognition feature data selection unit 201 sets, for a set of feature data to which a time is assigned, a data range whose length is a designated time width in a range in which a recognition result is desired to be known. A specified number of feature data are selected from the data range (step S201).
  • the recognition unit 202 derives a recognition result by inputting a plurality of feature data, which are selected by the recognition feature data selection unit 201 and whose time sequence is held, to the recognizer (step S202).
  • the output unit 203 outputs information based on the recognition result derived by the recognition unit 202 (step S203).
  • the recognition device 20 enables recognition that does not depend on the time interval in the acquisition of time-series data.
  • the reason is that the recognition feature data selection unit 201 can select the feature data without depending on the time interval, and the recognition unit 202 performs the recognition using the selected plurality of feature data. ..
  • the process of each component may be realized by, for example, a computer system reading and executing a program stored in a computer-readable storage medium that causes the computer system to execute the process.
  • Computer-readable storage medium means, for example, a portable medium such as an optical disc, a magnetic disc, a magneto-optical disc, and a non-volatile semiconductor memory, as well as a ROM (Read Only Memory) and a hard disc built in a computer system. It is a storage device.
  • the "computer-readable storage medium” may be one that can temporarily hold a program, such as a volatile memory inside a computer system, or one that transmits a program, such as a network or a communication line such as a telephone line.
  • the program may be for realizing a part of the functions described above, or may be a program that can realize the functions described above in combination with a program already stored in the computer system. ..
  • the “computer system” is, for example, a system including a computer 900 as shown in FIG.
  • the computer 900 includes the following configurations. -One or a plurality of CPUs (Central Processing Units) 901 ⁇ ROM902 RAM (Random Access Memory) 903 -Program 904 loaded into RAM 903 .Memory device 905 storing program 904 -Drive device 907 for reading and writing the storage medium 906 -Communication interface 908 connected to the communication network 909 .Input/output interface 910 for inputting/outputting data .Bus 911 that connects each component
  • CPUs Central Processing Units
  • ROM902 RAM Random Access Memory
  • PROMemory device 905 storing program 904 -Drive device 907 for reading and writing the storage medium 906 -Communication interface 908 connected to the communication network 909 .
  • Input/output interface 910 for inputting/outputting data .Bus 911 that connects each component
  • each constituent element of each device in each embodiment is realized by the CPU 901 loading the program 904 that realizes the function of the constituent element into the RAM 903 and executing the program 904.
  • the program 904 that realizes the function of each component of each device is stored in the storage device 905 or the ROM 902 in advance, for example. Then, the CPU 901 reads the program 904 as necessary.
  • the storage device 905 is, for example, a hard disk.
  • the program 904 may be supplied to the CPU 901 via the communication network 909, or may be stored in the storage medium 906 in advance, read by the drive device 907, and supplied to the CPU 901.
  • the storage medium 906 is a portable medium such as an optical disc, a magnetic disc, a magneto-optical disc, and a non-volatile semiconductor memory.
  • each device may be realized by a possible combination of a computer 900 and a program that are different for each component.
  • a plurality of constituent elements included in each device may be realized by a possible combination of one computer 900 and a program.
  • each device may be realized by other general-purpose or special-purpose circuits, computers, or a combination thereof. These may be configured by a single chip, or may be configured by a plurality of chips connected via a bus.
  • the plurality of computers, circuits, etc. may be arranged centrally or distributed.
  • the computer, the circuit, and the like may be realized as a form in which a client and server system, a cloud computing system, and the like are connected to each other via a communication network.
  • a recognizer training device for training a recognizer that outputs a recognition result using a time series of feature data as an input, Feature data selection for training that sets a data range whose length is a specified time width for a set of feature data to which a time is assigned and selects a specified number of the feature data from the data range Means and For a plurality of feature data selected by the training feature data selecting means and having a time sequence maintained, a teacher label corresponding to the recognition result based on information about the plurality of feature data.
  • the training characteristic data selection means sets the data range by a method of randomly setting the data range or a method of setting the data range by shifting each time the setting is performed, The recognizer training device according to attachment 1.
  • the labeling means is From each of the plurality of feature data selected by the training feature data selection means, extract the label associated with the feature data, A method of selecting the label having the largest number among the extracted labels, or counting the number by weighting each extracted label based on time, and selecting the label having the largest total value as a result of the counting. Method, selecting a label using any one of, and determining the selected label as the teacher label, The recognizer training device according to appendix 1 or 2.
  • the training characteristic data selection means selects the specified number of the characteristic data by a method of performing random selection without duplication, The recognizer training device according to any one of appendices 1 to 3.
  • the training characteristic data selection means when selecting the specified number of the characteristic data from the data range, so as to include the characteristic data to which the latest time is given among the characteristic data in the data range, Selecting the specified number of the characteristic data, The recognizer training device according to any one of appendices 1 to 4.
  • the training characteristic data selecting means sets a larger weight for the characteristic data to which a new time is given in the data range, and selects the specified number of the characteristic data by a weighted random selection method. The recognizer training device according to any one of appendices 1 to 4.
  • Each of the plurality of feature data in which the time order is retained is represented by a vector
  • the training unit uses one vector generated by connecting the plurality of the feature data selected by the training feature data selection unit in the order of the time, as data on the input side of the training data.
  • the recognizer training device according to any one of appendices 1 to 6.
  • Each of the plurality of feature data in which the time order is held is represented by a two-dimensionally arrayed value, and the recognizer is a neural network,
  • the training means uses three-dimensional data generated by arranging the plurality of feature data selected by the training feature data selection means in the order of time, as data on the input side of the training data.
  • the recognizer training device according to any one of appendices 1 to 6.
  • a feature data selection for recognition that sets a data range whose length is a designated time width for a set of feature data to which a time is assigned and selects a designated number of the feature data from the data range.
  • the recognition characteristic data selection means sets the data range so as to include the characteristic data to which the latest time is given from the characteristic data set, The recognition device according to attachment 9.
  • the recognition characteristic data selection means selects the specified number of the characteristic data by a method of randomly selecting without duplication, The recognition device according to attachment 9 or 10.
  • the recognition characteristic data selecting means when selecting the specified number of the characteristic data from the data range, includes the characteristic data to which the latest time is given among the characteristic data in the data range. Selecting the specified number of the characteristic data, The recognition device according to any one of appendices 9 to 11.
  • the recognition characteristic data selection means sets a larger weight for the characteristic data to which a new time is given in the data range, and selects the specified number of the characteristic data by a weighted random selection method. The recognition device according to any one of appendices 9 to 11.
  • [Appendix 16] A recognizer training device according to any one of appendices 1 to 8; A data processing system including the recognition device according to any one of appendices 9 to 15.
  • [Appendix 17] A data processing method for training a recognizer that inputs a time series of feature data and outputs a recognition result, For a set of characteristic data to which time is given, set a data range whose length is a specified time width, and select a specified number of the characteristic data from the data range, With respect to the plurality of feature data in which the selected plurality of feature data is held in chronological order, based on the information regarding the plurality of feature data, a teacher label corresponding to the recognition result is given, Train the recognizer using a set of the plurality of feature data in which the time order is held and the teacher label as training data.
  • Data processing method For a set of characteristic data to which time is given, set a data range whose length is a specified time width, and select a specified number of the characteristic data from the data range, The recognition result is derived by inputting a plurality of feature data, which is the selected plurality of feature data and is maintained in chronological order, to a recognizer, Outputting information based on the recognition result, Data processing method.
  • the data range is set by a method of randomly setting the data range, or a method of setting the data range by shifting each time the setting is made, The data processing method according to attachment 17 or 18.
  • Each of the feature data included in the set is given a label corresponding to the recognition result, From each of the plurality of feature data, extract the label associated with each, A method of selecting the label with the largest number among the extracted labels, or counting the number by weighting each extracted label based on time, and selecting the label with the largest total value as a result of counting. Method, selecting a label using any one of, and determining the selected label as the teacher label, The data processing method according to attachment 17.
  • Appendix 21 Selecting the specified number of the characteristic data by a method of random selection without duplication, The data processing method according to any one of appendices 17 to 20.
  • Each of the plurality of feature data in which the time order is retained is represented by a vector, One vector generated by concatenating the selected plurality of the feature data in the time order is used as data to be input to the recognizer, The data processing method according to any one of appendices 17 to 23.
  • Each of the plurality of feature data in which the time order is held is represented by a two-dimensionally arrayed value, and the recognizer is a neural network, Three-dimensional data generated by arranging the selected plurality of the characteristic data in the time order is used as data to be input to the recognizer, The data processing method according to any one of appendices 17 to 23.
  • Appendix 28 A program for training a recognizer that inputs a time series of feature data and outputs a recognition result, A characteristic data selection process of setting a data range whose length is a designated time width for a set of characteristic data to which a time is assigned and selecting a designated number of the characteristic data from the data range. , A teacher label corresponding to the recognition result is given to a plurality of feature data selected by the feature data selection process and having a chronological order, based on information about the plurality of feature data.
  • Appendix 29 A characteristic data selection process of setting a data range whose length is a designated time width for a set of characteristic data to which a time is assigned and selecting a designated number of the characteristic data from the data range.
  • the characteristic data selection processing sets the data range by a method of randomly setting the data range or a method of shifting the data range each time the setting is made, The storage medium according to attachment 28 or 29.
  • Each of the feature data included in the set is given a label corresponding to the recognition result,
  • the labeling process is From each of the characteristic data selected by the characteristic data selection processing, extract the label associated with each, A method of selecting the label having the largest number among the extracted labels, or counting the number by weighting each extracted label based on time, and selecting the label having the largest total value as a result of the counting. Method, selecting a label using any one of, and determining the selected label as the teacher label, The storage medium according to attachment 28.
  • the specified number of the characteristic data is selected by a random selection method without duplication. The storage medium according to any one of appendices 28 to 31.
  • the characteristic data selection process is performed so as to include the characteristic data to which the latest time is given among the characteristic data items in the data range. Select the number of the feature data, The storage medium according to any one of appendices 28 to 31.
  • a larger weight is set for the characteristic data to which a new time is given in the data range, and the specified number of the characteristic data is selected by a weighted random selection method. The storage medium according to any one of appendices 28 to 31.
  • Each of the plurality of feature data in which the time order is retained is represented by a vector
  • the program uses, as data to be input to the recognizer, one vector generated by connecting the plurality of feature data selected by the feature data selection processing in the time order to the computer.
  • the storage medium according to any one of appendices 28 to 34.
  • Each of the plurality of feature data in which the time order is held is represented by a two-dimensionally arrayed value, and the recognizer is a neural network,
  • the program uses, as data to be input to the recognizer, three-dimensional data generated by arranging a plurality of the characteristic data selected by the characteristic data selection processing in the computer in the time order in the computer.
  • the storage medium according to any one of appendices 28 to 34.
  • the program is By causing the computer to execute the characteristic data selection process and the recognition process a predetermined number of times under the fixed data range setting, a plurality of recognition results are acquired, Causing the computer to execute a recognition result integration process for deriving a comprehensive recognition result by integrating the plurality of recognition results, The storage medium according to attachment 29.
  • the program is By causing the computer to execute the characteristic data selection process and the recognition process for each of a plurality of different specified time widths, the recognition result for each time width is acquired, Causing the computer to execute an integration process for deriving a final recognition result by integrating the recognition results for each of the time widths,
  • the storage medium according to attachment 29 or 37.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

時系列データの取得における時間間隔に依存しない、認識器の生成および認識を可能にする装置等を提供する。本発明の一態様に係る認識器訓練装置は、特徴データの時系列を入力として認識結果を出力する認識器を訓練する認識器訓練装置であって、時刻が付与された特徴データのセットに対して、長さが指定の時間幅であるデータ範囲を設定し、当該データ範囲の中から、指定の個数の前記特徴データを選択する訓練用特徴データ選択部と、前記訓練用特徴データ選択部により選択された複数の特徴データであって時間順が保持された複数の特徴データに対し、当該複数の特徴データに関する情報に基づいて、前記認識結果に相当する教師ラベルを付与するラベル付与部と、前記時間順が保持された複数の特徴データと、前記ラベル付与部により付与された前記教師ラベルとの組を、訓練データとして、前記認識器を訓練する訓練部と、を備える。

Description

認識器訓練装置、認識装置、データ処理システム、データ処理方法、および記憶媒体
 本開示は、時系列のデータを用いた認識を行う技術に関する。
 時系列のデータを用いて、人物の行動等を認識する(識別するともいう)技術が知られている。
 特許文献1に記載される行動判別手法は、センサから得られた時系列データ(元の時系列データ)を、所定の時間幅で、時間軸に沿って移動しながら時系列解析することによって、新たな時系列データを得る。この行動判別手法は、この新たな時系列データをニューラルネットワークに入力することで、行動を判別する。この技術は、時系列データが一定の時間間隔でセンサから得られることを前提としている。
 特許文献2に記載される動作識別装置は、時系列である動画像データから時系列の速度ベクトルを取得し、速度ベクトルをフーリエ変換することで時系列のフーリエ変換されたベクトルを得る。さらに、この動作識別装置は、所定の時間範囲内にある、フーリエ変換されたベクトルのすべてを成分とした、パターンベクトルを得る。この動作識別装置は、得られたパターンベクトルをニューラルネットワークに入力することで、動画像データに含まれる人物の動作を識別する。この技術も、CCDカメラが一定のサンプル時間間隔で動画像データを得ることを前提としている。
特開2007-220055号公報 特開2000-242789号公報
 特許文献1および特許文献2に記載の技術は、時系列データが所定の時間間隔で取得されることが前提となっている。そして、認識器(識別器ともいう)として機能するニューラルネットワークの最適化(すなわち学習)に用いられる時系列データの時間間隔と、認識に用いられる時系列データの時間間隔とが異なるようなケースは考慮されていない。したがって、例えば学習に用いられた時系列データの時間間隔よりも長い時間間隔で取得された時系列データに対しては、認識がうまく実行できないことがある。その理由は、認識に用いられる時系列データにおける単位時間あたりのデータの数が、学習に用いられた時系列データにおける単位時間あたりのデータの数よりも少なくなり、ある時間範囲に含まれるデータを取得して認識を行おうとする時に、データの不足により認識が実行できないからである。データの不足が起こる理由は、学習および認識の双方において、ある決まった長さの時間範囲に含まれるすべてのデータが使用されることが前提になっているからである。
 また、認識用の時系列データが所定の時間間隔で取得されなかった場合(例えば、通信環境が不安定であったことにより時間間隔がまちまちであるような時系列データが取得された場合)も、認識はうまく実行できないと考えられる。認識の対象となる時間範囲において認識に使用したいデータの数が足りない場合、認識は実行できない。データの数が足りていても、学習時においては時間間隔が一定の時系列データを用いて学習が行われるので、その学習により生成した認識器は、時間間隔が一定でない時系列データに対しては、正確な認識結果を与えない可能性がある。
 本発明は、時系列データの取得における時間間隔に依存しない認識器の生成を可能にする訓練装置および訓練方法等を提供することを目的の1つとする。また、本発明は、時系列データの取得における時間間隔に依存しない認識を可能にする認識装置および認識方法等を提供することを目的の1つとする。
 本発明の一態様に係る認識器訓練装置は、特徴データの時系列を入力として認識結果を出力する認識器を訓練する認識器訓練装置であって、時刻が付与された特徴データのセットに対して、長さが指定の時間幅であるデータ範囲を設定し、当該データ範囲の中から、指定の個数の前記特徴データを選択する訓練用特徴データ選択手段と、前記訓練用特徴データ選択手段により選択された複数の特徴データであって時間順が保持された複数の特徴データに対し、当該複数の特徴データに関する情報に基づいて、前記認識結果に相当する教師ラベルを付与するラベル付与手段と、前記時間順が保持された複数の特徴データと、前記ラベル付与手段により付与された前記教師ラベルとの組を、訓練データとして、前記認識器を訓練する訓練手段と、を備える。
 本発明の一態様に係る認識装置は、時刻が付与された特徴データのセットに対して、長さが指定の時間幅であるデータ範囲を設定し、その設定したデータ範囲の中から、指定の個数の前記特徴データを選択する認識用特徴データ選択手段と、前記認識用特徴データ選択手段により選択された複数の特徴データであって時間順が保持された複数の特徴データを認識器に入力することにより、認識結果を導出する認識手段と、前記認識結果に基づく情報を出力する出力手段と、を備える。
 本発明の一態様に係るデータ処理方法は、特徴データの時系列を入力として認識結果を出力する認識器を訓練するデータ処理方法であって、時刻が付与された特徴データのセットに対して、長さが指定の時間幅であるデータ範囲を設定し、当該データ範囲の中から、指定の個数の前記特徴データを選択し、前記選択された複数の特徴データであって時間順が保持された複数の特徴データに対し、当該複数の特徴データに関する情報に基づいて、前記認識結果に相当する教師ラベルを付与し、前記時間順が保持された複数の特徴データと、前記教師ラベルとの組を、訓練データとして、前記認識器を訓練する。
 本発明の一態様に係るデータ処理方法は、時刻が付与された特徴データのセットに対して、長さが指定の時間幅であるデータ範囲を設定し、当該データ範囲の中から、指定の個数の前記特徴データを選択し、前記選択された複数の特徴データであって時間順が保持された複数の特徴データを認識器に入力することにより、認識結果を導出し、
 前記認識結果に基づく情報を出力する。
 本発明の一態様に係る記憶媒体は、特徴データの時系列を入力として認識結果を出力する認識器を訓練するためのプログラムであって、時刻が付与された特徴データのセットに対して、長さが指定の時間幅であるデータ範囲を設定し、当該データ範囲の中から、指定の個数の前記特徴データを選択する特徴データ選択処理と、前記特徴データ選択処理により選択された複数の特徴データであって時間順が保持された複数の特徴データに対し、当該複数の特徴データに関する情報に基づいて、前記認識結果に相当する教師ラベルを付与するラベル付与処理と、前記時間順が保持された複数の特徴データと、前記ラベル付与処理により付与された前記教師ラベルとの組を、訓練データとして、前記認識器を訓練する訓練処理と、をコンピュータに実行させるプログラムを、記憶する。
 本発明の一態様に係る記憶媒体は、時刻が付与された特徴データのセットに対して、長さが指定の時間幅であるデータ範囲を設定し、当該データ範囲の中から、指定の個数の前記特徴データを選択する特徴データ選択処理と、前記特徴データ選択処理により選択された複数の特徴データであって時間順が保持された複数の特徴データを認識器に入力することにより、認識結果を導出する認識処理と、前記認識結果に基づく情報を出力する出力処理と、をコンピュータに実行させるプログラムを、記憶する。
 本発明によれば、時系列データの取得における時間間隔に依存しない認識器の生成が可能になる。また、本発明によれば、時系列データの取得における時間間隔に依存しない認識が可能になる。
本発明の第1の実施形態に係るデータ処理システムの構成を示すブロック図である。 サンプル用データに含まれる情報の例を示す図である。 認識対象データに含まれる情報の例を示す図である。 特徴データの選択における確率の重みづけの例を概念的に示す図である。 第1の実施形態に係る訓練モジュールによる訓練の処理の流れの例を示すフローチャートである。 データ範囲をずらしていく例を概念的に示す図である。 第1の実施形態に係る訓練モジュールによる訓練の処理の流れの別の例を示すフローチャートである。 第1の実施形態に係る認識モジュールによる認識の処理の流れの例を示すフローチャートである。 第1の実施形態の第1の変形例に係るデータ処理システムの構成を示すブロック図である。 第1の変形例に係る認識モジュールによる認識の処理の流れの例を示すフローチャートである。 第1の実施形態の第2の変形例に係るデータ処理システムの構成を示すブロック図である。 第2の変形例に係る認識モジュールによる認識の処理の流れの例を示すフローチャートである。 本発明の一実施形態に係る認識器訓練装置の構成を示すブロック図である。 本発明の一実施形態に係る認識器訓練方法の流れを示すフローチャートである。 本発明の一実施形態に係る認識装置の構成を示すブロック図である。 本発明の一実施形態に係る認識方法の流れを示すフローチャートである。 本発明の各実施形態の各部を構成するハードウェアの例を示すブロック図である。
 以下、図面を参照しながら、本発明の実施形態を詳細に説明する。
 なお、本開示において「ランダムな」「ランダムに」という語は、例えば、結果を予め完全に予測することが困難であるような方法を含むという意味で用いられる。「ランダムに選択する」とは、選択の結果に再現性がないとみなせるような選択方法によって選択することを意味する。乱数のみに依存する選択方法のみでなく、擬似乱数を用いる選択方法や、所定の確率分布に則った選択方法も、ランダムな選択方法に含まれ得る。
 <<第1の実施形態>>
 まず、本発明の第1の実施形態について説明する。
<構成>
 図1は、第1の実施形態に係るデータ処理システム1の構成を示すブロック図である。
 データ処理システム1は、訓練モジュール11と、認識モジュール21と、記憶モジュール31と、を有する。なお、本開示において、「モジュール」は機能のまとまりを指す概念である。モジュールは1つの物でもよいし、概念的にひとまとまりとして捉えられる、複数の物の組み合わせ、または1つの物の部分でもよい。
 記憶モジュール31は、訓練モジュール11および認識モジュール21が用いる情報を記憶するモジュールである。
 認識モジュール21は、認識を行うモジュールである。認識モジュール21が行う認識は、具体的には、記憶モジュール31が記憶する辞書(後述)を基に構築される認識器を用いて、複数の特徴データを入力として一の認識結果を導出することである。認識器は、周知の認識器でよく、例えば、SVM(Support Vector Machine)、ランダムフォレスト、またはニューラルネットワークを用いた認識器等が採用され得る。認識の目的は、例えば、観測対象(人または物)の挙動の識別、観測対象の状態に関する知見の取得、所定の挙動を行う人または物の検出、所定の状態にある人または物の検出、または、イベントの発生の検出、等である。例として、観測対象(人または物)の挙動の識別を目的とする場合において、認識器は、複数の特徴データに基づき、観測対象が取り得る挙動として用意された複数の挙動のうち1つの挙動を、観測対象の挙動として出力する。具体的には、例えば、認識器は、複数の特徴データを入力とする演算を行い、その演算の結果として複数の挙動のうちの1つの挙動を決定し、決定した挙動を示す情報を出力する。あるいは、認識器は、複数の挙動のそれぞれの尤度を出力するよう構成されていてもよい。
 訓練モジュール11は、辞書の訓練(トレーニング)を行うモジュールである。
 本開示における「辞書」は、認識処理を行うための認識器を定義するデータをいう。辞書は、訓練によって値が修正可能なパラメータを含む。辞書の訓練とは、辞書のうちのパラメータの値を、訓練用データを用いて修正することである。辞書の訓練により、辞書に基づく認識器を用いた認識の正確性が向上することが期待される。辞書を訓練することは、認識器を訓練することともいえる。
 各モジュール(すなわち、本実施形態では訓練モジュール11、認識モジュール21および記憶モジュール31)は、例えば、別個の装置によって実装されてもよいし、一部または全体が1つのコンピュータにより実装されてもよい。各モジュールは、互いにデータのやりとりが可能であるように構成され得る。各モジュールが別個の装置によって実装される場合、その装置の各々は通信インタフェースを介して互いにデータの通信を行うよう構成されていてもよい。また、一つの実施形態では、記憶モジュール31が可搬記録媒体であり、訓練モジュール11を構築する装置と認識モジュール21を構築する装置とがその可搬記録媒体からデータを読み出すためのインタフェースを備えていてもよい。その場合、可搬記録媒体は同時に双方の装置に接続されてもよいし、人が状況に応じて、可搬記録媒体が接続される装置を切り替えてもよい。
 複数の装置の組をモジュールとみなしてもよい。すなわち、各モジュールの実体は、複数の装置でもよい。また、異なるモジュールに含まれる構成要素が1つの装置の中に実装されていてもよい。
 訓練モジュール11および認識モジュール21に含まれる各構成要素は、データを生成しまたは取得した場合、そのデータを他の構成要素に使用可能な状態にし得る。例えば、各構成要素は、生成しまたは取得したデータを、そのデータを使用する他の構成要素に送出し得る。あるいは、各構成要素は、生成しまたは取得したデータを、その構成要素を含むモジュール内の記憶領域(メモリ等。不図示)または記憶モジュール31に記録してもよい。各構成要素は、それぞれの処理を実行する際、使用するデータを、そのデータを生成しまたは取得した構成要素から直接受け取ってもよいし、上記記憶領域または記憶モジュール31から読み出してもよい。
 以下、各モジュールの機能の詳細を説明する。
 ===記憶モジュール31===
 記憶モジュール31は、サンプル用データ記憶部311と、パラメータ記憶部312と、辞書記憶部313と、認識対象データ記憶部314と、を含む。
 サンプル用データ記憶部311は、サンプル用データを記憶する。サンプル用データは、訓練モジュール11による訓練器の訓練に用いるサンプル(いわゆる訓練サンプル)を生成するために用いられるデータである。本実施形態のサンプル用データは、時刻を示す情報とラベルとが付与された特徴データの、集まりである。図2は、サンプル用データに含まれる情報の例を概念的に示す図である。サンプル用データは必ずしも図2に示されるような表形式で記憶されている必要はないが、時刻の順に並べられる等、時系列的な関係がわかりやすい状態で記憶されていると、扱いやすい。
 上記特徴データは、認識器が認識する対象の特徴を表すデータである。特徴データは、例えば、カメラその他のセンサ等によって得られたデータ、またはそのデータを加工して生成されるデータである。具体的には、カメラから得られるデータの例としては、カラー画像やグレースケール画像等が挙げられる。特徴データは、カメラにより取得された画像の全体を表すデータでもよいし、一部を表すデータでもよい。データを加工して生成されるデータの例としては、正規化された画像、フレーム間差分画像、画像から抽出される、その画像に写る物体の特徴を表す特徴量、および、画像に変換処理を施すことで得られるパターンベクトル、等が挙げられる。
 カメラ以外のセンサから得られる情報の例としては、物体(ある生体の部位でもよい)の加速度、位置、センサとの距離、および温度、等が挙げられるが、これらに限られない。
 特徴データに付与された、時刻を示す情報は、特徴データが観測された時刻を示す。例えば、撮影によって画像が取得され、画像から特徴データが抽出される場合、特徴データに付与される、時刻を示す情報は、画像から特徴データが抽出された時刻ではなく、撮影が実行された時刻を示す。なお、本開示では、時刻を示す情報が特徴データに付与されていることを、時刻が特徴データに付与されている、とも表現する。
 各特徴データが観測される時刻の間隔は、一定でもよいし、不定でもよい。
 本実施形態で想定されるラベルは、例えば、“立つ”、“座る”等といった、観測対象の挙動を示す情報である。ラベルは、人が理解できるようなテキスト情報である必要はなく、ラベルの種類を識別するための情報であればよい。
 ラベルによって示されるのは、人の行動に限られない。ラベルは、例えば、“投げられる”、“置かれる”等、物に与えられた作用を示す情報でもよいし、“車の侵入あり”、“行列の発生”等、イベントを示す情報でもよい。
 ラベルは、例えば、サンプル用データにおける観測対象の様子を観察した観察者によって付与されればよい。例えば、ある期間において観測対象が所定の挙動を示したと観察者が判断した場合に、観察者はその期間に含まれる特徴データの各々に、その所定の挙動を示すラベルを付与すればよい。観察者がラベルを付与する方法は、記憶モジュールの制御を行うコンピュータに対して、特徴データまたは期間を指定した情報とラベルを表す識別情報とを入力インタフェースを介して入力するという方法でもよい。
 観察者の代わりに、行動を認識することが可能なコンピュータが、特徴データの各々にラベルを付与してもよい。
 パラメータ記憶部312は、訓練および認識において参照されるパラメータ(以下、「指定パラメータ」と表記)の、値を記憶する。指定パラメータが表す内容は、具体的には、指定時間幅と、指定データ数である。
 指定時間幅は、時系列データのうち特徴データが抽出されるべき範囲の長さ(時間幅)として指定される長さである。指定時間幅は、例えば、「4(秒)」等と表され得る。
 指定データ数は、指定時間幅の中から選択されるべき特徴データの数として指定される数である。指定データ数は、例えば、「6(個)」等と表され得る。
 指定時間幅および指定データ数は、例えば、データ処理システム1の実装時に決定されてもよいし、外部からの入力により指定を受け付けることによって特定されてもよい。
 辞書記憶部313は、辞書を記憶する。辞書は訓練モジュール11によって訓練され、認識モジュール21による認識処理に使用される。上述したように、辞書は、認識器を定義するデータであり、認識のプロセスを定義するデータと、演算に用いるパラメータとを含む。例えば、ニューラルネットワークを用いる認識器が採用される実施態様では、辞書は、ニューラルネットワークの構造を定義するデータと、パラメータである重みおよびバイアスと、を含む。辞書の内容およびデータ構造は、認識器の種類に応じて適切に設計されればよい。
 認識対象データ記憶部314は、認識対象データを記憶する。認識対象データは、認識モジュール21による認識の対象となるデータの基となるデータである。すなわち、認識対象データの一部から、認識モジュール21による認識の対象となるデータが作成される。
 認識対象データ記憶部314は、時刻が付与された特徴データを記憶している。図3は、認識対象データに含まれる情報の例を示す図である。
 認識対象データに含まれる特徴データは、例えば、センシングにより特徴データを取得する特徴データ取得装置(不図示)から取得され得る。例えば、特徴データ取得装置は、カメラやその他のセンサ等から得たデータ、またはそのデータを加工することで生成されるデータを、取得された時刻順に、認識対象データ記憶部314の中へ格納すればよい。
 時刻および特徴データは、既に説明されたサンプル用データの時刻および特徴データと同様である。認識対象データに含まれる各データの時刻の間隔は、一定でもよいし、不定でもよい。
 ===訓練モジュール11===
 訓練モジュール11は、読み出し部111と、データ選択部112と、ラベル決定部113と、訓練部114と、を含む。
 読み出し部111は、訓練モジュール11による処理に使用するデータを記憶モジュール31から読み出す。読み出し部111が読み出すデータは、例えば、サンプル用データ記憶部311が記憶するサンプル用データ、パラメータ記憶部312が記憶する指定パラメータ、および辞書記憶部313が記憶する辞書である。
 データ選択部112は、サンプル用データのうち、指定データ数に等しい数の特徴データを、訓練に使用する特徴データとして選択する。このとき、データ選択部112は、サンプル用データにおいて指定時間幅に相当する長さのデータ範囲を設定してから、その範囲に含まれる特徴データから、指定データ数に等しい数の特徴データを選択する。
 データ範囲の決定方法は、例えば、ある時刻を基準として(例えばその時刻を始点、終点、または中央点として)データ範囲を決定する方法でもよい。この「ある時刻」は、指定された時刻でもよいし、サンプル用データに付与されている時刻としてあり得る時刻の範囲の中からランダムに(例えば、乱数または擬似乱数を用いる方法で)決められた時刻でもよい。または、データ範囲の決定方法は、例えば、サンプル用データに含まれる特徴データを1つ選択し、その特徴データを基準として(例えばその特徴データに付与されている時刻を始点、終点、または中央点として)データ範囲を決定する方法でもよい。この場合に選択される特徴データは、指定された特徴データでもよいし、ランダムに決められた特徴データでもよい。なお、上記例において、指定された時刻または指定された特徴データを用いる場合、そのような指定は、例えば訓練モジュール11が外部から入力インタフェース(不図示)を介して受け付けるか、そのような指定を記憶モジュール31が記憶しておき読み出し部111が読み出すことによって、取得されればよい。
 データ選択部112は、データ範囲の設定を行う度にデータ範囲がずれるような設定方法により、データ範囲を設定してもよい(具体例は動作の説明において説明する)。
 特徴データを選択する方法の一つの例は、単純にランダムに選択する方法である。例えば、データ選択部112は、決定したデータ範囲に含まれる特徴データの個数を特定し、1番から特定した個数に相当する番号までの番号の集合から、重複のないランダムな選択を行う方法で、指定データ数に相当する個数の番号を選択すればよい。なお、重複のないランダムな選択を行う方法としては、例えば、選択済みの番号を除いた番号の集合からランダムに(例えば、集合に含まれるどの番号の選ばれる確率も等しいような方法で)1つ選択する操作を所定回繰り返す選択方法が、該当する。
 データ選択部112は、決定したデータ範囲のうち最も新しい特徴データを必ず選択するように構成されていてもよい。その場合、データ選択部112は、最も新しい特徴データを選択し、最も新しい特徴データ以外の特徴データのうちn-1個(nは指定データ数、以下同じ)の特徴データを(例えば重複のないランダムな選択を行う方法で)選択すればよい。
 特徴データを選択する別の方法の例は、重み付きのランダムな選択方法である。重み付きのランダムな選択方法は、重みに応じた確率のもとでランダムに選択を行う方法である。データ選択部112は、例えば、図4に示されるように、決定したデータ範囲に含まれる特徴データのそれぞれに、より新しい時刻が付与された特徴データほど選択される重みが大きくなるように(すなわち、選ばれやすくなるように)、重みを設定してもよい。そして、データ選択部112は、重み付きのランダム選択方法によって、n個の特徴データを選択すればよい。
 上述した、最も新しい特徴データを必ず選択する方法、および、より新しい時刻が付与された特徴データほど重みが大きくなるような重み付きのランダムな選択方法は、特にリアルタイムでの認識において効果的である。その理由は、リアルタイムでの認識では、より新しい時刻がより重要であり、上記の手法は新しい時刻のデータを重視して選択できるしくみになっているからである。
 特徴データを選択するさらに別の方法の例は、選択される各特徴データ間の時間間隔のばらつきがなるべく小さくなるように選択する方法である。具体例を以下に示す。なお、この具体例で説明される特徴データは、すべて決定されたデータ範囲に含まれる特徴データを指す。まず、データ選択部112は、基準となる特徴データと、基準インターバルとを決定する。基準となる特徴データとしては、例えば、最も古い(付与されている時刻が最も早い)特徴データが決定される。基準インターバルとしては、例えば、データ範囲の長さ(すなわち指定時間幅)を指定データ数で除したときの商、または、基準となる特徴データに付与されている時刻から最新の特徴データに付与されている時刻までの時間を“指定データ数-1”で除したときの商が、決定される。そして、データ選択部112は、基準となる特徴データに付与されている時刻から、“基準インターバル×k”経過後の時刻を特定する。kは0からn-1までの範囲のすべての整数の値をとる変数である。そして、データ選択部112は、k=0からk=n-1まで、順に、そのkを用いて特定される時刻について、付与されている時刻がその時刻に最も近い特徴データを選択する。ただし、データ選択部112は、異なる時刻について同一の特徴データが選択されないように特徴データを選択する。なお、上記の例に従えば、k=0のときの時刻について選択される特徴データは、必然的に、基準となる特徴データである。
 上記の例の変形例として、データ選択部112は、特定した時刻の各々を成分とするベクトルと、選択されるn個の特徴データに付与される時刻を成分とするベクトルが最も類似する(すなわちユークリッド距離が最も小さい)ような、n個の特徴データを選択してもよい。
 上記の例において、最新の特徴データが、基準となる特徴データとして使用されてもよい。この場合、基準インターバルとしては、例えば、データ範囲の長さを指定データ数で除したときの商、または、付与されている時刻が最も早い特徴データに付与されている時刻から基準となる特徴データに付与されている時刻までの時間を“指定データ数-1”で除したときの商が、決定される。データ選択部112は、kの各値について、基準となる特徴データに付与されている時刻から、“基準インターバル×k”だけさかのぼった時刻を特定し、特定した時刻について、付与されている時刻がその時刻に最も近い特徴データを選択すればよい。
 選択される各特徴データ間の時間間隔のばらつきがなるべく小さくなるように選択する方法の別の例として、データ選択部112は、基準となる特徴データから付与されている時刻順(順方向、逆方向のいずれでもよい)に、所定の個数ごとに存在する、特徴データを選択していってもよい。例えば、指定データ数がn、上記所定の個数が3である場合、データ選択部112は、時系列でならんだ複数の特徴データのうち“1+3k”番目(kは0からn-1までの変数)の特徴データを選択すればよい。なお、所定の個数は、予め決められていてもよいし、外部からの入力に基づいて特定されてもよいし、データ範囲に含まれる特徴データの数と指定データ数との関係に基づいて所定の計算式(例えば、所定の個数=int(データ範囲に含まれる特徴データの数/指定データ数)等。ただしint(x)はxの整数部分を出力とする関数)によって導出されてもよい。
 データ選択部112は、サンプル用データ記憶部311において記録されている特徴データのうちの、選択された特徴データに対して、その特徴データが選択されたことを示すフラグを付与してもよい。あるいは、データ選択部112は、選択した特徴データを、サンプル用データ記憶部311から読み出し、訓練モジュール11内の他の構成要素または記憶領域に出力してもよい。この場合、データ選択部112は、指定データ数n個の選択した特徴データを、時間的な秩序を保った状態で出力する。例えば、データ選択部112は、n個の選択した特徴データを、付与されている時刻が古い順で並べ、並んだ状態の特徴データを訓練モジュール11内の記憶領域に記録してもよい。選択した特徴データをサンプル用データ記憶部311から読み出さない場合であっても、データ選択部112は、サンプル用データ記憶部311において記録されている特徴データのうちの、選択された特徴データに対して、その特徴データが選択されたことを示すフラグと時間的な序列を示す情報(番号等)とを付与してもよい。
 ラベル決定部113は、データ選択部112によって選択された特徴データに付与されるべきラベルを決定する。選択された特徴データ群につき、1つのラベルが決定される。以下、ラベル決定部113が決定するラベルを「教師ラベル」とも表記する。選択された特徴データ群と教師ラベルとの組が、訓練サンプルとなる。
 教師ラベルは、認識器の出力側のデータに相当する情報である。
 ラベル決定部113は、データ選択部112によって選択された特徴データのそれぞれに付与されたラベルを抽出し、抽出したラベルに基づいて教師ラベルを決定する。
 ラベル決定部113は、例えば、抽出したラベルのうちで、選択された特徴データに付与された個数が最も多いラベルを選択し、選択したラベルを教師ラベルとして決定してもよい。また、例えば、ラベル決定部113は、抽出したラベルに、抽出元の特徴データに付与されている時刻に応じた重みを設定し、重み付きで個数を数え上げ(別の言葉では、累積加算し)、数え上げた結果としての値(すなわち、トータル値)が最も大きいラベルを教師ラベルとして決定してもよい。重み付きでの個数の数え上げの方法は、重みが大きいほどトータル値への影響が大きくなるような、個数の数え上げ方法である。一例として、抽出されたラベルの中に、あるラベルが3つ存在し、その3つに設定された重みがそれぞれ0.2、0.5、0.7であるとき、トータル値は0.2+0.5+0.7=1.4と算出される。
 訓練部114は、データ選択部112によって選択された、指定データ数の特徴データと、ラベル決定部113により決定された教師ラベルと、を用いて、辞書記憶部313が記憶する辞書を訓練する。具体的には、訓練部114は、選択された指定データ数の特徴データと教師ラベルとの組を1つの訓練サンプルとし、その訓練サンプルを用いて、辞書に含まれるパラメータの値を修正する。なお、本開示では、1つ以上の訓練サンプルを、訓練データとも表記する。訓練の方法には、周知の学習アルゴリズムが採用されればよい。
 なお、選択された特徴データは、典型的には、訓練において、時間的な秩序を保った状態(言い換えれば、付与された時刻の序列がわかるように整列された状態)で使用される。具体的には、例えば、認識器の入力として受け付けるデータがベクトル形式ならば、選択されたデータは付与されている時刻順に連結され、1つのベクトルとして扱われ得る。あるいは、例えば、特徴データが2次元の画像であり、認識器がCNN(Convolutional Neural Network等)等の3次元構造のデータを入力とするニューラルネットワークにより構築されるならば、特徴データはチャンネル方向に時刻順に配置され、3次元構造のデータとして扱われ得る。本開示では、時間的な秩序が保たれた状態であることを、「時間順で並んだ」「時間順が保持された」という語でも表現する。
 ===認識モジュール21===
 認識モジュール21は、読み出し部211と、データ選択部212と、認識結果導出部213と、出力部214と、を含む。
 読み出し部211は、認識モジュール21による処理に使用するデータを記憶モジュール31から読み出す。読み出し部111が読み出すデータは、例えば、認識対象データ記憶部314が記憶する認識対象データ、パラメータ記憶部312が記憶する指定パラメータ、および辞書記憶部313が記憶する辞書である。
 データ選択部212は、認識対象データのうち、指定データ数に等しい数の特徴データを、認識に使用する特徴データとして選択する。このとき、データ選択部212は、認識対象データにおいて指定時間幅に相当する長さのデータ範囲を設定してから、そのデータ範囲に含まれる特徴データから、指定データ数に等しい数の特徴データを選択する。データ選択部212は、指定データ数の特徴データを選択したら、選択した特徴データを、時間的な秩序を保った状態で認識モジュール21内の他の部(例えば、認識結果導出部213)に出力し得る。
 データ選択部212は、認識結果を知りたい範囲を、データ範囲として設定する。認識結果を知りたい範囲の設定は、認識モジュール21の外部から指定されてもよい。認識モジュール21が自動的に、認識結果を知りたい範囲を定義してもよい。例えば、リアルタイムでの認識を行いたいケースでは、認識結果を知りたい範囲として、最新の特徴データを含む範囲が採用されてもよい。この場合、データ選択部212は、最新の特徴データの時刻から、指定時間幅の長さだけさかのぼった時点までの範囲を、データ範囲として決定すればよい。
 決定したデータ範囲からの特徴データの選択方法の具体的な例としては、データ選択部112による選択方法の例として挙げられた選択方法が挙げられる。データ選択部212は、データ選択部112が行った方法と同様の方法で(すなわち、訓練における選択方法と同様の選択方法で)、指定データ数の特徴データを選択し得る。
 認識結果導出部213は、データ選択部212により選択された、指定データ数の特徴データを、辞書記憶部313に記憶された辞書に基づく認識器に入力することで、認識結果を導出する。なお、選択された特徴データは、典型的には、認識において、時間的な秩序を保った状態で使用される。特徴データの使用方法の具体的な例としては、訓練部114の説明において例示された使用方法と同様の使用方法が挙げられる。認識結果導出部213は、訓練部114が行った方法と同様の方法で(すなわち、訓練における使用方法と同様の使用方法で)、選択された特徴データを使用し得る。認識結果は、例えば、認識器により出力される、1つの挙動を示すクラスを表す情報である。認識結果を示すデータの態様は、認識器に依る。例えば、認識結果は、用意されたクラスの数を成分の数とするベクトルで表されてもよいし、“1”から“5”の範囲の数値等の定量的な値で表されてもよい。
 出力部214は、認識結果導出部213が導出した認識結果に基づく情報を出力する。出力部214による出力は、具体的には、例えば、ディスプレイへの表示、他の情報処理装置への送信、または記憶装置への書き込み、等である。出力部214による出力の方法は、認識結果に基づく情報が認識モジュール21の外部に伝達される方法であれば、どんな方法でもよい。
 認識結果に基づく情報は、認識結果を直接的に表す情報でもよいし、認識結果の内容に応じて生成される情報でもよい。例えば、認識結果に基づく情報は、観測対象の挙動を示す情報(「椅子に座った」、「手を挙げた」、「不審行動があった」等)、各クラスの尤度を示す情報、認識結果に応じて生成される警告文、何らかの装置への認識結果に応じた指示、等でもよい。情報の形態は特に限定されず、出力先に応じた適切な形態(画像データ、音声データ、テキストデータ、命令コードまたは電圧等)であればよい。
 <動作>
 以下、データ処理システム1の動作の流れについて、図を参照しながら説明する。データ処理システム1の動作は、訓練モジュール11により訓練処理を行う動作と、認識モジュール21により認識処理を行う動作とに分かれる。なお、各動作における各処理は、各処理がプログラムを実行するプロセッサによって実行される場合においては、プログラムの中の命令の順序に従って実行されればよい。各処理が別個のデバイスによって実行される場合においては、処理を完了したデバイスが次の処理を実行するデバイスに通知を行うことで、処理が順番に実行されればよい。なお、処理を行う各部は、めいめいの処理に必要なデータを、例えば、そのデータを生成した部から受け取り、および/またはモジュールが備える記憶領域もしくは記憶モジュール31から読み出せばよい。
 [訓練処理]
 訓練モジュール11による訓練処理の流れを、図5を参照しながら、説明する。なお、訓練処理は、例えば外部から訓練処理の開始指示を受け取ったことを契機として、開始されればよい。
 まず、読み出し部111が、サンプル用データ記憶部311からサンプル用データを、辞書記憶部313から辞書を、パラメータ記憶部312から指定時間幅および指定データ数を、読み出す(ステップS11)。
 次に、データ選択部112が、読み出されたサンプル用データに対して、指定時間幅のデータ範囲を設定し(ステップS12)、設定されたデータ範囲から、指定データ数の特徴データを選択する(ステップS13)。データ選択部112は、選択した特徴データを、付与されている時間順に並べて訓練モジュール11内の他の部に出力してもよい。
 次に、ラベル決定部113が、選択された特徴データに対して教師ラベルを決定する(ステップS14)。選択された特徴データ(時間順が保持されている)と、決定されたラベルと、の組が、訓練サンプルとなる。
 そして、訓練部114が、訓練サンプルを用いて、すなわち、選択された指定データ数の特徴データであって時間順が保持された特徴データと決定されたラベルとの組である訓練サンプルを用いて、辞書を訓練する(ステップS15)。訓練部114は、訓練によって修正されたパラメータの値を、修正の度に辞書記憶部313の辞書に反映させてもよいし、辞書記憶部313とは別の記憶領域に一時的に記録しておき、訓練処理が終了する際に辞書記憶部313に反映させてもよい。
 ステップS15の後、訓練モジュール11は、訓練を終了する条件が満たされたかを判定する(ステップS16)。訓練を終了する条件としては、例えば、ステップS12からステップS15の処理が実行された回数が所定の回数に達したこと、という条件、または、パラメータの値の収束の度合いを示す指標値が所定の条件を満たしたこと、という条件等が採用されてもよい。
 訓練を終了する条件が満たされていなければ(ステップS16においてNO)、訓練モジュール11は訓練を再び行う。すなわち、訓練モジュール11はステップS12からステップS15までの処理を行う。ただし、データ選択部112は、既に使用した特徴データ群とは異なる特徴データ群を選択する。
 データ選択部112は、データ範囲を設定し直してもよい。そして、データ選択部112は、データ範囲を、設定の度にデータ範囲がずれるような方法で設定してもよい。例えば、データ選択部112は、データ範囲の設定の度に、データ範囲の始点が所定の時間ずつシフトするように、データ範囲を設定するよう、構成されていてもよい。
 データ選択部112が、特徴データをランダムに選択するよう構成される場合、同一の特徴データ群が訓練において2度以上使用されないよう、訓練モジュール11は既に使用した特徴データ群を記録していてもよい。データ選択部112は、例えば、特徴データ群を選択した際に、過去の特徴データ群のうちのいずれかが、選択した特徴データ群と一致するかをチェックし、いずれかが一致する場合は特徴データ群を選択し直せばよい。
 データ選択部112が、基準となる特徴データ(既述)に基づいて特徴データを選択するよう構成される場合、同一の特徴データ群が訓練において2度以上使用されないよう、訓練モジュール11は既に使用した、基準となる特徴データ、基準インターバル(既述)、または所定の個数(既述)等を記録していてもよい。そして、データ選択部112は、ステップS12の処理を行う度に、基準となる特徴データ、基準インターバル、および所定の個数の少なくともいずれかを、既に使用したものと異なるように設定すればよい。例えば、データ選択部112は、基準となる特徴データを、図6に示されるように、ステップS12の処理の度にずらしていってもよい。
 訓練を終了する条件が満たされていれば(ステップS16においてYES)、訓練モジュール11は訓練処理を終了する。
 以上に説明した処理の流れの変形例として、訓練モジュール11は、複数の訓練サンプルを用意してから辞書の訓練を行ってもよい。すなわち、訓練モジュール11は、ステップS12からステップS14までの処理を所定回数繰り返してから、ステップS15の処理を行ってもよい。そのような動作の流れのフローチャートが、図7に示されている。図7に示されるフローに基づくと、ステップS14の処理で訓練サンプルが生成された後、訓練モジュール11が訓練サンプルの数が基準に達したかを判定する(ステップS17)。基準は予め決められていればよい。訓練サンプルの数が基準に達していない場合は(ステップS17においてNO)、訓練モジュール11は、ステップS12からステップS14までの処理を再び行う。訓練サンプルの数が基準に達した場合は(ステップS17においてYES)、訓練部114が、ステップS11の処理からステップS17の処理までの間に生成された複数の訓練サンプル(既に訓練に使用された訓練サンプルを除く)を用いて辞書を訓練する(ステップS18)。
 [認識処理]
 認識モジュール21による認識処理の流れを、図8を参照しながら説明する。なお、認識処理は、例えば外部から認識処理の開始指示を受け取ったことを契機として、開始されればよい。
 まず、認識モジュール21は、辞書記憶部313から辞書を読み出し、読み出した辞書に基づいて認識器を構築する(ステップS21)。
 次に、読み出し部211が、認識対象データ記憶部314から認識対象データを、パラメータ記憶部312から指定時間幅および指定データ数を、読み出す(ステップS22)。
 次に、データ選択部212が、認識対象データにおける、認識結果を知りたい範囲を、指定時間幅のデータ範囲として設定し(ステップS23)、設定されたデータ範囲から、指定データ数の特徴データを選択する(ステップS24)。データ選択部212は選択した特徴データを、付与されている時刻順に並べて認識モジュール21内の他の部(例えば、認識結果導出部213)に出力してもよい。
 そして、認識結果導出部213が、選択された特徴データ(時間順が保持されている)に対し、認識器を用いて認識を行い、認識結果を導出する(ステップS25)。
 認識結果が導出されたら、出力部214が、認識結果に基づく情報を出力する(ステップS26)。
 <効果>
 第1の実施形態に係るデータ処理システム1によれば、時系列データの取得における時間間隔に依存しない認識器の生成が可能になる。
 例えば、サンプル用データと認識対象データとの間で、特徴データに付与される時刻の時間間隔が異なっている場合であっても、訓練時と認識時との間で、使用されるデータの数に相異が起こらない。その理由は、訓練時と認識時とのいずれにおいても、データ選択部112およびデータ選択部212によって、指定データ数の特徴データが選択されるからである。
 また、例えば、認識対象データに含まれる特徴データ間の時間間隔が、サンプル用データと異なっていたり、一定でなかったりする場合であっても、それによる認識の精度への影響は少ない。その理由は、訓練において、データ選択部112が、指定時間幅のデータ範囲から指定データ数の特徴データを選択することで、特徴データ間の時間間隔に依存しない認識器が構築されるからである。なお、時間間隔は固定されていないが、時系列的な関係の情報が失われないまま訓練サンプルが使用されるので、多様な認識結果を出力可能な認識器が構築可能である。
 すなわち、データ処理システム1は、時系列データの取得における時間間隔に対してロバストな認識が行える。
 [第1の変形例]
 認識モジュール21は、複数個の認識結果を導出し、複数個の認識結果に基づいて総合的な認識結果(後述)を出力してもよい。例えば、認識モジュール21は、所定の結果数の認識結果が導出されるまで、ステップS23からステップS25までの処理を繰り返してもよい。その場合、処理の繰り返しにおいて、データ範囲の設定(認識対象データに対するデータ範囲が設定された時刻)は変更しない。
 上記のような変形例を第1の変形例と表記し、以下、その詳細を説明する。
 図9は、第1の変形例に係るデータ処理システム2の構成を示すブロック図である。データ処理システム2は、訓練モジュール11と、認識モジュール22と、記憶モジュール31と、を有する。認識モジュール22は、認識モジュール21の構成要素に加え、結果統合部225を含む。
 データ処理システム2においては、認識モジュール22は、読み出し部211が読み出したデータについて、データ選択部212の処理と認識結果導出部213の処理とを複数回繰り返す。それにより、認識モジュール22は、複数の認識結果を導出する。処理の繰り返しにおいて、データ範囲の設定(認識対象データに対するデータ範囲が設定された時刻)は変更されない。
 結果統合部225は、認識結果導出部213により導出された複数の認識結果を統合する。結果統合部225は、認識結果の統合により、総合的な認識結果(すなわち、複数の認識結果が反映された、1つの認識結果を示す情報)を導出する。
 統合の仕方の具体例を以下に示す。結果統合部225は、例えば、複数の認識結果のうち最も個数が多い認識結果を、総合的な認識結果として導出してもよい。
 認識結果が定量的な値で表される場合は、結果統合部225は、複数の認識結果から代表値(平均値、中央値、最大値、最小値等)を算出してもよい。結果統合部225は同時に、分散を算出してもよい。また、結果統合部225は、複数の認識結果を補正してから、代表値を算出してもよい。ここでいう補正とは、補正量に基づき値を修正することである。補正量としては、例えば、選択された特徴データの時間的な関係に基づいて決められる量などが採用され得る。
 認識結果が、クラスの識別情報と尤度とで表される場合は、尤度を重みとした重みつき投票を行ってもよい。重みつき投票は、尤度に応じて大きくなる値の累積的な加算を行い、加算の結果としてのスコア(すなわち合計値)が最も大きいクラスを選出する方法である。なお、値の加算において、尤度が所定の閾値に満たない認識結果については加算すべき値が0(スコアに反映されない値)に設定されてもよい。
 認識結果が、クラスごとの尤度で表される場合は、結果統合部225は、クラスごとに、各認識結果が示す尤度を合計し、合計した結果である合計値が最も高いクラスを、総合的な認識結果として特定してもよい。
 出力部214は、結果統合部225が導出した総合的な認識結果に基づく情報を、出力する。総合的な認識結果に基づく情報の具体内容については、「認識結果に基づく情報」について説明された内容がそのまま当てはまると理解されてよい。なお、言うまでもなく、総合的な認識結果に基づく情報は、認識結果導出部213が導出した認識結果に基づく情報の一つである。
 <動作>
 認識モジュール22による認識処理の流れを、図10のフローチャートを参照しながら説明する。
 図10におけるステップS21からステップS25の処理は、それぞれ認識モジュール21によるステップS21からステップS25の処理と同じである。ステップS25の処理の後、出力部214は、認識結果を一時的に記憶モジュール31の記憶領域に記録する(ステップS27)。そして、認識モジュール22は、ステップS21の処理の開始以降所定の結果数の認識結果が導出されたかを判定する(ステップS28)。所定の結果数の認識結果が導出されていない場合は(ステップS28においてNO)、認識モジュール22はステップS24からステップS27までの処理を再び行う。このとき、データ選択部212は、データ範囲を決定し直さなくてよい。しかし、データ選択部212は、特徴データを選択し直す。決まっているデータ範囲における、異なる特徴データ群が使用されることにより、多様な認識結果を得ることができる。
 所定の結果数の認識結果が導出されたら(ステップS28においてYES)、結果統合部225が、一時的に記録された複数の認識結果を統合する。その結果として、結果統合部225は、総合的な認識結果を導出する(ステップS29)。
 そして、出力部214が、総合的な認識結果に基づく情報を出力する(ステップS30)。
 なお、上述の所定の結果数は、予め決められていてもよいし、外部からの入力に基づいて特定されてもよいし、データ範囲に含まれる特徴データの数と指定データ数との関係に基づいて所定の計算式(例えば、所定の結果数=int(α×データ範囲に含まれる特徴データの数/指定データ数)等。ただしint(x)はxの整数部分を出力とする関数。αは所定の係数)によって導出されてもよい。
 <効果>
 第1の変形例によれば、精度がより高い認識が可能となる。その理由は、認識結果が、1組の特徴データ群だけでなく、同じ指定時間幅に基づく複数の特徴データ群から総合的に導出されるからである。つまり、認識モジュール22は、データ選択部212によって決定されたデータ範囲に含まれる特徴データを、認識においてより有効に利用する。したがって、認識の正確性および信頼性が向上する。
 [第2の変形例]
 以下、第1の実施形態の第2の変形例について説明する。第2の変形例では、複数の辞書を用いた認識が行われる。
 図11は、第2の変形例に係るデータ処理システム3の構成を示すブロック図である。データ処理システム3は、訓練モジュール11と、認識モジュール23と、記憶モジュール31と、を有する。認識モジュール23は、認識モジュール21の構成要素に加え、結果統合部235を含む。
 データ処理システム3においては、記憶モジュール31の辞書記憶部313は、複数の辞書を記憶する。
 データ処理システム3においては、訓練モジュール11は、辞書のそれぞれに対し、辞書の訓練を行う。各辞書に対する訓練の方法は第1の実施形態において説明した方法と同様でよい。
 ただし、訓練に使用される特徴データを選択する際に用いる、指定時間幅が、辞書ごとに異なる。すなわち、訓練モジュール11は、複数の辞書に対し、それぞれ異なる指定時間幅を用いて訓練を行う。指定データ数は、全ての辞書間で同じでも、辞書ごとに異なっていてもよい。パラメータ記憶部312は、相異なる複数の指定時間幅と、それら複数の指定時間幅のそれぞれに対応する指定データ数とを、辞書ごとに記憶しておき、読み出し部111が辞書の訓練ごとに、その辞書に対応する記憶された指定時間幅と指定データ数とを読み出せばよい。
 認識モジュール23は、複数の辞書のそれぞれを用いて、それぞれ認識結果を導出する。つまり、ある認識対象データに対し、相異なる辞書(すなわち、異なる指定時間幅に関する辞書)に基づいて導出される複数の認識結果が得られる。認識モジュール23は、辞書の選択とその辞書を用いた認識処理とを、例えば辞書の数だけ繰り返す。
 認識モジュール23は、各認識処理において、辞書を選択し、選択した辞書の訓練に用いられた指定時間幅と指定データ数とを読み出し、読み出した指定時間幅と指定データ数とを用いて認識処理を行う。そのためには、例えば、辞書と、辞書の訓練に用いられた指定時間幅および指定データ数とを関連づけるデータが、記憶モジュール31に記憶されていればよい。
 結果統合部235は、認識結果導出部213により導出された複数の認識結果を統合する。結果統合部235は、認識結果の統合により、最終的な認識結果(すなわち、認識モジュール23による認識の結果として出力すべき情報)を導出する。
 結果統合部235による統合の仕方は、第1の変形例の結果統合部225による統合の仕方として説明された方法のいずれかと同じでよい。
 出力部214は、結果統合部235が導出した最終的な認識結果に基づく情報を、出力する。最終的な認識結果に基づく情報の具体内容については、「認識結果に基づく情報」について説明された内容がそのまま当てはまると理解されてよい。なお、言うまでもなく、最終的な認識結果に基づく情報は、認識結果導出部213が導出した認識結果に基づく情報の一つである。
 <動作>
 認識モジュール23による認識処理の流れを、図12のフローチャートを参照しながら説明する。
 まず、認識モジュール23は、複数の辞書から、1つの辞書を選択する(ステップS31)。そして、認識モジュール23は、選択した辞書により認識器を構築する(ステップS32)。
 次に、読み出し部211が、認識対象データ、選択した辞書に関連づけられた指定時間幅、および指定データ数を読み出す(ステップS33)。そして、データ選択部212が、認識対象データにおける、認識結果を知りたい範囲を、指定時間幅のデータ範囲として設定し(ステップS34)、設定されたデータ範囲から指定データ数の特徴データを選択する(ステップS35)。データ選択部212は、選択したデータを、付与されている時間順に並べて出力する。そして、認識結果導出部213が、選択された特徴データ(時間順は保持されている)に対して認識器を用いて認識結果を導出する(ステップS36)。
 認識結果が導出されたら、出力部214がその認識結果を一時的に(例えば記憶モジュール31の記憶領域に)記録する(ステップS37)。
 次に、認識モジュール23は、別の辞書を使用するかを判定する(ステップS38)。この判定の基準は、例えば、辞書記憶部313が記憶する全ての辞書を使用し終わっているか、得られた認識結果の数が所定の数に達したか、等であり得る。
 別の辞書を使用する場合(ステップS38においてYES)、認識モジュール23はステップS31からの処理を再び行う。ただし、ステップS31において選択する辞書は、既に選択された辞書以外の辞書である。
 別の辞書を使用しない場合(ステップS38においてNO)、結果統合部235が、一時的に記録された複数の認識結果を統合し、それにより最終的な認識結果を導出する(ステップS39)。
 そして、出力部214が、最終的な認識結果に基づく情報を出力する(ステップS40)。
 ステップS32では、認識モジュール23が、辞書が選択される度に、選択した辞書により認識器を構築しているが、予め全ての辞書による認識器を構築しておいてもよい。その場合、ステップS32は省略され、ステップS36において、認識結果導出部213は、予め構築された認識器の中から、選択された辞書にあう認識器を選んで用いる。
 <効果>
 第2の変形例によれば、精度がより高い認識が可能となる。その理由は、複数の指定時間幅を用いてそれぞれ訓練された複数の辞書が認識に用いられ、結果統合部235によって複数の認識結果から最終的な認識結果が統合的に導出されるからである。
 [変更例]
 以下に上記実施形態の説明で記載された事項の変更例をいくつか記載する。
 (1)
 サンプル用データにおいて、1つの特徴データに複数のラベルが付与されていてもよい。
 (2)
 サンプル用データにおけるラベルは、必ずしもすべての特徴データに付与されていなくてもよい。
 (3)
 サンプル用データにおいて、特徴データではなく、時間範囲に、ラベルが付与されていてもよい。このような場合、ラベル決定部113は、選択された特徴データに付与されている時刻を含む時間範囲に付与された1つ以上のラベルに基づき、教師ラベルを決定すればよい。あるいは、ラベル決定部113は、データ選択部112により決定されたデータ範囲と、ラベルが付与されている時間範囲との関係に基づき、教師ラベルを決定してもよい。例えば、あるラベル“A”が付与されている時間範囲がデータ選択部112により決定されたデータ範囲に含まれる長さが、他のどのラベルが付与されている時間範囲がデータ選択部112により決定されたデータ範囲に含まれる長さよりも、長い場合、ラベル決定部113は、ラベル“A”を教師ラベルとして決定してもよい。
 (4)
 認識モジュール21~23による認識は、挙動やイベントの発生以外の認識でもよい。認識は、時系列で並ぶ複数の特徴データを用いた認識であれば、例示した認識以外の認識であってもよい。
 (5)
 ラベルは、観測対象の状態を示す情報でもよい。状態を示すラベルを以下に例示すると、“存在する”、“存在していない”、“動いている”、“落下している”、“回転している”、“物を持っている”、“左方を見ている”、“速い”、“遅い”、 “正常”、“異常”、等がある。
 (6)
 ラベル決定部113は、各データに付与されたラベルの組み合わせに基づいて教師ラベルを決定してもよい。例えば、抽出したラベルが、時間順に“移動している”、“止まっている”との2種類のラベルを含んでいる場合、ラベル決定部113は、“滞留し始めた”というラベルを教師ラベルとして決定し得る。また、例えば、抽出したラベルの中に、“左方を見ている”と“右方を見ている”との2種類のラベルが存在している場合、ラベル決定部113は“きょろきょろしている”というラベルを教師ラベルとして決定し得る。
 <<第2の実施形態>>
 本発明の一実施形態に係る認識器訓練装置および認識装置について説明する。
 本発明の一実施形態に係る認識器訓練装置10は、特徴データの時系列を入力として認識結果を出力する認識器を訓練する装置である。
 図13は、認識器訓練装置10の構成を示すブロック図である。認識器訓練装置10は、訓練用特徴データ選択部101と、ラベル付与部102と、訓練部103と、を備える。
 訓練用特徴データ選択部101は、時刻とラベルとが付与された特徴データのセットに対して、長さが指定の時間幅であるデータ範囲を設定し、その設定したデータ範囲の中から、指定の個数の特徴データを選択する。第1の実施形態におけるデータ選択部112は、訓練用特徴データ選択部101の一例に相当する。
 ラベル付与部102は、訓練用特徴データ選択部101により選択された複数の(指定の個数の)特徴データであって時間順が保持された複数の(指定の個数の)特徴データに対し、その複数の特徴データに関する情報に基づいて、上記認識器の認識結果に相当する教師ラベルを付与する。複数の特徴データに関する情報の一例は、複数の特徴データの少なくとも1つに付与されたラベルである。第1の実施形態におけるラベル決定部113は、ラベル付与部102の一例に相当する。
 訓練部103は、訓練用特徴データ選択部101により選択された、時間順が保持された複数の特徴データと、ラベル付与部102により付与された教師ラベルとの組を、訓練データとして、上記認識器を訓練する。第1の実施形態における訓練部114は、訓練部103の一例に相当する。
 認識器訓練装置10による動作の流れを、図14のフローチャートを参照しながら説明する。まず、訓練用特徴データ選択部101が、特徴データのセットに対して、長さが指定の時間幅であるデータ範囲を設定し、その設定したデータ範囲の中から、指定の個数の特徴データを選択する(ステップS101)。次に、ラベル付与部102が、訓練用特徴データ選択部101により選択された複数の特徴データであって時間順が保持された複数の特徴データに対し、その複数の特徴データに関する情報に基づいて、認識器の認識結果に相当する教師ラベルを付与する(ステップS102)。そして、訓練部103が、訓練用特徴データ選択部101により選択された、時間順が保持された複数の特徴データと、ラベル付与部102により付与された教師ラベルと、の組を、訓練データとして、認識器を訓練する(ステップS103)。
 認識器訓練装置10によれば、時系列データの取得における時間間隔に依存しない認識器の生成が可能になる。その理由は、訓練用特徴データ選択部101が、時間間隔に依存せずに特徴データを選択可能であり、訓練部103が、選択された特徴データを使用して認識器の訓練を行うからである。
 本発明の一実施形態に係る認識装置20は、認識器を用いて、複数の特徴データを入力とした認識を行う。なお、認識装置20が用いる認識器として、上述の認識器訓練装置10によって訓練された認識器が採用されると、効果的である。
 図15は、認識装置20の構成を示すブロック図である。認識装置20は、認識用特徴データ選択部201と、認識部202と、出力部203と、を備える。
 認識用特徴データ選択部201は、時刻が付与された特徴データのセットに対して、認識結果を知りたい範囲に、長さが指定の時間幅であるデータ範囲を設定し、その設定したデータ範囲の中から、指定の個数の特徴データを選択する。第1の実施形態におけるデータ選択部212は、認識用特徴データ選択部201の一例に相当する。
 認識部202は、認識用特徴データ選択部201により選択された複数の(指定の個数の)特徴データであって時間順が保持された複数の(指定の個数の)特徴データを認識器に入力することにより、認識結果を導出する。第1の実施形態における認識結果導出部213は、認識部202の一例に相当する。
 出力部203は、認識部202により導出された認識結果に基づく情報を出力する。第1の実施形態における出力部214は、出力部203の一例に相当する。
 認識装置20による動作の流れを、図16のフローチャートを参照しながら説明する。まず、認識用特徴データ選択部201が、時刻が付与された特徴データのセットに対して、認識結果を知りたい範囲に、長さが指定の時間幅であるデータ範囲を設定し、その設定したデータ範囲の中から、指定の個数の特徴データを選択する(ステップS201)。次に、認識部202が、認識用特徴データ選択部201により選択された、時間順が保持された複数の特徴データを認識器に入力することにより、認識結果を導出する(ステップS202)。そして、出力部203が、認識部202により導出された認識結果に基づく情報を出力する(ステップS203)。
 認識装置20によれば、時系列データの取得における時間間隔に依存しない認識が可能になる。その理由は、認識用特徴データ選択部201が、時間間隔に依存せずに特徴データを選択可能であり、認識部202が、選択された複数の特徴データを使用して認識を行うからである。
 <実施形態の各部を実現するハードウェアの構成>
 以上で説明された本発明の各実施形態において、各装置の各構成要素を示すブロックは、機能単位で示されている。しかし、構成要素を示すブロックは、各構成要素が別個のモジュールにより構成されることを必ずしも意味していない。
 各構成要素の処理は、例えば、コンピュータシステムが、コンピュータ読み取り可能な記憶媒体により記憶された、その処理をコンピュータシステムに実行させるプログラムを、読み出し、実行することによって、実現されてもよい。「コンピュータ読み取り可能な記憶媒体」は、例えば、光ディスク、磁気ディスク、光磁気ディスク、および不揮発性半導体メモリ等の可搬媒体、ならびに、コンピュータシステムに内蔵されるROM(Read Only Memory)およびハードディスク等の記憶装置である。「コンピュータ読み取り可能な記憶媒体」は、コンピュータシステム内部の揮発性メモリのようにプログラムを一時的に保持可能なもの、および、ネットワークや電話回線等の通信回線のように、プログラムを伝送するものも含む。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、更に前述した機能をコンピュータシステムにすでに記憶されているプログラムとの組み合わせで実現できるものであってもよい。
 「コンピュータシステム」とは、一例として、図17に示されるようなコンピュータ900を含むシステムである。コンピュータ900は、以下のような構成を含む。
・1つまたは複数のCPU(Central Processing Unit)901
・ROM902
・RAM(Random Access Memory)903
・RAM903へロードされるプログラム904
・プログラム904を格納する記憶装置905
・記憶媒体906の読み書きを行うドライブ装置907
・通信ネットワーク909と接続する通信インタフェース908
・データの入出力を行う入出力インタフェース910
・各構成要素を接続するバス911
 例えば、各実施形態における各装置の各構成要素は、その構成要素の機能を実現するプログラム904をCPU901がRAM903にロードして実行することで実現される。各装置の各構成要素の機能を実現するプログラム904は、例えば、予め、記憶装置905やROM902に格納される。そして、必要に応じてCPU901がプログラム904を読み出す。記憶装置905は、例えば、ハードディスクである。プログラム904は、通信ネットワーク909を介してCPU901に供給されてもよいし、予め記憶媒体906に格納されており、ドライブ装置907に読み出され、CPU901に供給されてもよい。なお、記憶媒体906は、例えば、光ディスク、磁気ディスク、光磁気ディスク、および不揮発性半導体メモリ等の、可搬媒体である。
 各装置の実現方法には、様々な変形例がある。例えば、各装置は、構成要素毎にそれぞれ別個のコンピュータ900とプログラムとの可能な組み合わせにより実現されてもよい。また、各装置が備える複数の構成要素が、一つのコンピュータ900とプログラムとの可能な組み合わせにより実現されてもよい。
 また、各装置の各構成要素の一部または全部は、その他の汎用または専用の回路、コンピュータ等やこれらの組み合わせによって実現されてもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。
 各装置の各構成要素の一部または全部が複数のコンピュータや回路等により実現される場合には、複数のコンピュータや回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、コンピュータや回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
 上記実施形態の一部または全部は以下の付記のようにも記載され得るが、以下には限られない。
 <<付記>>
[付記1]
 特徴データの時系列を入力として認識結果を出力する認識器を訓練する認識器訓練装置であって、
 時刻が付与された特徴データのセットに対して、長さが指定の時間幅であるデータ範囲を設定し、当該データ範囲の中から、指定の個数の前記特徴データを選択する訓練用特徴データ選択手段と、
 前記訓練用特徴データ選択手段により選択された複数の特徴データであって時間順が保持された複数の特徴データに対し、当該複数の特徴データに関する情報に基づいて、前記認識結果に相当する教師ラベルを付与するラベル付与手段と、
 前記時間順が保持された複数の特徴データと、前記ラベル付与手段により付与された前記教師ラベルとの組を、訓練データとして、前記認識器を訓練する訓練手段と、
 を備える認識器訓練装置。
[付記2]
 前記訓練用特徴データ選択手段は、前記データ範囲を、ランダムにデータ範囲を設定する方法、または、設定の度にデータ範囲をずらして設定する方法により、設定する、
 付記1に記載の認識器訓練装置。
[付記3]
 前記セットに含まれる特徴データの各々にはそれぞれ前記認識結果に相当するラベルが付与されており、
 前記ラベル付与手段は、
  前記訓練用特徴データ選択手段により選択された前記複数の特徴データのそれぞれから、当該特徴データに関連づけられた前記ラベルを抽出し、
  抽出した前記ラベルのうちで個数が最も多いラベルを選択する方法、または、抽出した前記ラベルごとに時刻に基づく重みをつけて個数を数え上げ、数え上げた結果としてのトータル値が最も大きいラベルを選択する方法、のいずれかを用いてラベルを選択し、選択したラベルを前記教師ラベルとして決定する、
 付記1または2に記載の認識器訓練装置。
[付記4]
 前記訓練用特徴データ選択手段は、前記指定の個数の前記特徴データを重複のないランダムな選択を行う方法で選択する、
 付記1から3のいずれか一つに記載の認識器訓練装置。
[付記5]
 前記訓練用特徴データ選択手段は、前記データ範囲から前記指定の個数の前記特徴データを選択する際に、当該データ範囲内の特徴データのうち最も新しい時刻が付与された特徴データを含むように、前記指定の個数の前記特徴データを選択する、
 付記1から4のいずれか一つに記載の認識器訓練装置。
[付記6]
 前記訓練用特徴データ選択手段は、前記データ範囲の中で新しい時刻が付与された特徴データほど大きい重みを設定し、重み付きのランダムな選択方法によって前記指定の個数の前記特徴データを選択する、
 付記1から4のいずれか一つに記載の認識器訓練装置。
[付記7]
 前記時間順が保持された複数の特徴データのそれぞれはベクトルで表現され、
 前記訓練手段は、前記訓練用特徴データ選択手段により選択された複数の前記特徴データを前記時刻順に連結することにより生成する、1つのベクトルを、前記訓練データの入力側のデータとして使用する、
 付記1から6のいずれか一つに記載の認識器訓練装置。
[付記8]
 前記時間順が保持された複数の特徴データのそれぞれは2次元に配列した値により表現され、前記認識器はニューラルネットワークであり、
 前記訓練手段は、前記訓練用特徴データ選択手段により選択された複数の前記特徴データを前記時刻順に配置することにより生成する、3次元のデータを、前記訓練データの入力側のデータとして使用する、
 付記1から6のいずれか一つに記載の認識器訓練装置。
[付記9]
 時刻が付与された特徴データのセットに対して、長さが指定の時間幅であるデータ範囲を設定し、当該データ範囲の中から、指定の個数の前記特徴データを選択する認識用特徴データ選択手段と、
 前記認識用特徴データ選択手段により選択された複数の特徴データであって時間順が保持された複数の特徴データを認識器に入力することにより、認識結果を導出する認識手段と、
 前記認識結果に基づく情報を出力する出力手段と、
 を備える認識装置。
[付記10]
 前記認識用特徴データ選択手段は、前記データ範囲を、前記特徴データのセットのうち最も新しい時刻が付与された特徴データを含むように、設定する、
 付記9に記載の認識装置。
[付記11]
 前記認識用特徴データ選択手段は、前記指定の個数の前記特徴データを重複のないランダムな選択を行う方法で選択する、
 付記9または10に記載の認識装置。
[付記12]
 前記認識用特徴データ選択手段は、前記データ範囲から前記指定の個数の前記特徴データを選択する際に、当該データ範囲内の特徴データのうち最も新しい時刻が付与された特徴データを含むように、前記指定の個数の前記特徴データを選択する、
 付記9から11のいずれか一つに記載の認識装置。
[付記13]
 前記認識用特徴データ選択手段は、前記データ範囲の中で新しい時刻が付与された特徴データほど大きい重みを設定し、重み付きのランダムな選択方法によって前記指定の個数の前記特徴データを選択する、
 付記9から11のいずれか一つに記載の認識装置。
[付記14]
 固定された前記データ範囲の設定のもとで、前記認識用特徴データ選択手段の処理と前記認識手段の処理とを所定の回数実行することにより、複数の認識結果を取得し、
 前記複数の認識結果を統合することで総合的な認識結果を導出する認識結果統合手段をさらに備える、
 付記9から13のいずれか一つに記載の認識装置。
[付記15]
 複数の相異なる指定の時間幅のそれぞれについて、前記認識用特徴データ選択手段の処理と前記認識手段の処理とを実行することにより、時間幅毎の前記認識結果を取得し、
 前記時間幅毎の前記認識結果を統合することで最終的な認識結果を導出する認識結果統合手段をさらに備える、
 付記9から13のいずれか一つに記載の認識装置。
[付記16]
 付記1から8のいずれか1つに記載の認識器訓練装置と、
 付記9から15のいずれか1つに記載の認識装置と、を含む
 データ処理システム。
[付記17]
 特徴データの時系列を入力として認識結果を出力する認識器を訓練するデータ処理方法であって、
 時刻が付与された特徴データのセットに対して、長さが指定の時間幅であるデータ範囲を設定し、当該データ範囲の中から、指定の個数の前記特徴データを選択し、
 前記選択された複数の特徴データであって時間順が保持された複数の特徴データに対し、当該複数の特徴データに関する情報に基づいて、前記認識結果に相当する教師ラベルを付与し、
 前記時間順が保持された複数の特徴データと、前記教師ラベルとの組を、訓練データとして、前記認識器を訓練する、
 データ処理方法。
[付記18]
 時刻が付与された特徴データのセットに対して、長さが指定の時間幅であるデータ範囲を設定し、当該データ範囲の中から、指定の個数の前記特徴データを選択し、
 前記選択された複数の特徴データであって時間順が保持された複数の特徴データを認識器に入力することにより、認識結果を導出し、
 前記認識結果に基づく情報を出力する、
 データ処理方法。
[付記19]
 前記データ範囲を、ランダムにデータ範囲を設定する方法、または、設定の度にデータ範囲をずらして設定する方法により、設定する、
 付記17または18に記載のデータ処理方法。
[付記20]
 前記セットに含まれる特徴データの各々にはそれぞれ前記認識結果に相当するラベルが付与されており、
 前記複数の特徴データのそれぞれから、それぞれに関連づけられた前記ラベルを抽出し、
 抽出した前記ラベルのうちで個数が最も多いラベルを選択する方法、または、抽出した前記ラベルごとに時刻に基づく重みをつけて個数を数え上げ、数え上げた結果としてのトータル値が最も大きいラベルを選択する方法、のいずれかを用いてラベルを選択し、選択したラベルを前記教師ラベルとして決定する、
 付記17に記載のデータ処理方法。
[付記21]
 前記指定の個数の前記特徴データを重複のないランダムな選択を行う方法で選択する、
 付記17から20のいずれか一つに記載のデータ処理方法。
[付記22]
 前記データ範囲から前記指定の個数の前記特徴データを選択する際に、当該データ範囲内の特徴データのうち最も新しい時刻が付与された特徴データを含むように、前記指定の個数の前記特徴データを選択する、
 付記17から20のいずれか一つに記載のデータ処理方法。
[付記23]
 前記データ範囲の中で新しい時刻が付与された特徴データほど大きい重みを設定し、重み付きのランダムな選択方法によって前記指定の個数の前記特徴データを選択する、
 付記17から20のいずれか一つに記載のデータ処理方法。
[付記24]
 前記時間順が保持された複数の特徴データのそれぞれはベクトルで表現され、
 前記選択された複数の前記特徴データを前記時刻順に連結することにより生成する1つのベクトルを、前記認識器に入力されるデータとして使用する、
 付記17から23のいずれか一つに記載のデータ処理方法。
[付記25]
 前記時間順が保持された複数の特徴データのそれぞれは2次元に配列した値により表現され、前記認識器はニューラルネットワークであり、
 前記選択された複数の前記特徴データを前記時刻順に配置することにより生成する3次元のデータを、前記認識器に入力されるデータとして使用する、
 付記17から23のいずれか一つに記載のデータ処理方法。
[付記26]
 固定された前記データ範囲の設定のもとで、前記指定の個数の前記特徴データの選択と前記認識結果の導出とを所定の回数実行することにより、複数の認識結果を取得し、
 前記複数の認識結果を統合することで総合的な認識結果を導出し、
 前記総合的な認識結果に基づく情報を出力する、
 付記18に記載のデータ処理方法。
[付記27]
 複数の相異なる指定の時間幅のそれぞれについて、前記指定の個数の前記特徴データの選択と前記認識結果の導出とを実行することにより、時間幅毎の前記認識結果を取得し、
 前記時間幅毎の前記認識結果を統合することで最終的な認識結果を導出し、
 前記最終的な認識結果に基づく情報を出力する、
 付記18または26に記載のデータ処理方法。
[付記28]
 特徴データの時系列を入力として認識結果を出力する認識器を訓練するためのプログラムであって、
 時刻が付与された特徴データのセットに対して、長さが指定の時間幅であるデータ範囲を設定し、当該データ範囲の中から、指定の個数の前記特徴データを選択する特徴データ選択処理と、
 前記特徴データ選択処理により選択された複数の特徴データであって時間順が保持された複数の特徴データに対し、当該複数の特徴データに関する情報に基づいて、前記認識結果に相当する教師ラベルを付与するラベル付与処理と、
 前記時間順が保持された複数の特徴データと、前記ラベル付与処理により付与された前記教師ラベルとの組を、訓練データとして、前記認識器を訓練する訓練処理と、
 をコンピュータに実行させるプログラムを記録した、コンピュータ読み取り可能な記憶媒体。
[付記29]
 時刻が付与された特徴データのセットに対して、長さが指定の時間幅であるデータ範囲を設定し、当該データ範囲の中から、指定の個数の前記特徴データを選択する特徴データ選択処理と、
 前記特徴データ選択処理により選択された複数の特徴データであって時間順が保持された複数の特徴データを認識器に入力することにより、認識結果を導出する認識処理と、
 前記認識結果に基づく情報を出力する出力処理と、
 をコンピュータに実行させるプログラムを記録した、コンピュータ読み取り可能な記憶媒体。
[付記30]
 前記特徴データ選択処理は、前記データ範囲を、ランダムにデータ範囲を設定する方法、または、設定の度にデータ範囲をずらして設定する方法により、設定する、
 付記28または29に記載の記憶媒体。
[付記31]
 前記セットに含まれる特徴データの各々にはそれぞれ前記認識結果に相当するラベルが付与されており、
 前記ラベル付与処理は、
  前記特徴データ選択処理により選択された前記特徴データのそれぞれから、それぞれに関連づけられた前記ラベルを抽出し、
  抽出した前記ラベルのうちで個数が最も多いラベルを選択する方法、または、抽出した前記ラベルごとに時刻に基づく重みをつけて個数を数え上げ、数え上げた結果としてのトータル値が最も大きいラベルを選択する方法、のいずれかを用いてラベルを選択し、選択したラベルを前記教師ラベルとして決定する、
 付記28に記載の記憶媒体。
[付記32]
 前記特徴データ選択処理は、前記指定の個数の前記特徴データを重複のないランダムな選択を行う方法で選択する、
 付記28から31のいずれか一つに記載の記憶媒体。
[付記33]
 前記特徴データ選択処理は、前記データ範囲から前記指定の個数の前記特徴データを選択する際に、当該データ範囲内の特徴データのうち最も新しい時刻が付与された特徴データを含むように、前記指定の個数の前記特徴データを選択する、
 付記28から31のいずれか一つに記載の記憶媒体。
[付記34]
 前記特徴データ選択処理は、前記データ範囲の中で新しい時刻が付与された特徴データほど大きい重みを設定し、重み付きのランダムな選択方法によって前記指定の個数の前記特徴データを選択する、
 付記28から31のいずれか一つに記載の記憶媒体。
[付記35]
 前記時間順が保持された複数の特徴データのそれぞれはベクトルで表現され、
 前記プログラムは、前記コンピュータに、前記特徴データ選択処理により選択された複数の前記特徴データを前記時刻順に連結することにより生成する1つのベクトルを、前記認識器に入力されるデータとして使用する、
 付記28から34のいずれか一つに記載の記憶媒体。
[付記36]
 前記時間順が保持された複数の特徴データのそれぞれは2次元に配列した値により表現され、前記認識器はニューラルネットワークであり、
 前記プログラムは、前記コンピュータに、前記特徴データ選択処理により選択された複数の前記特徴データを前記時刻順に配置することにより生成する3次元のデータを、前記認識器に入力されるデータとして使用する、
 付記28から34のいずれか一つに記載の記憶媒体。
[付記37]
 前記プログラムは、
 前記コンピュータに、固定された前記データ範囲の設定のもとで、前記特徴データ選択処理と前記認識処理とを所定の回数実行させることにより、複数の認識結果を取得させ、
 前記コンピュータに、前記複数の認識結果を統合することで総合的な認識結果を導出する認識結果統合処理を実行させる、
 付記29に記載の記憶媒体。
[付記38]
 前記プログラムは、
 前記コンピュータに、複数の相異なる指定の時間幅のそれぞれについて、前記特徴データ選択処理と前記認識処理とを実行させることにより、時間幅毎の前記認識結果を取得させ、
 前記コンピュータに、前記時間幅毎の前記認識結果を統合することで最終的な認識結果を導出する統合処理を実行させる、
 付記29または37に記載の記憶媒体。
 本願発明は以上に説明した実施形態に限定されるものではない。以上に説明した実施形態の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 1、2、3  データ処理システム
 10  認識器訓練装置
 101  訓練用特徴データ選択部
 102  ラベル付与部
 103  訓練部
 20  認識装置
 201  認識用特徴データ選択部
 202  認識部
 203  出力部
 11  訓練モジュール
 111  読み出し部
 112  データ選択部
 113  ラベル決定部
 114  訓練部
 21、22、23  認識モジュール
 211  読み出し部
 212  データ選択部
 213  認識結果導出部
 214  出力部
 225  結果統合部
 235  結果統合部
 31  記憶モジュール
 311  サンプル用データ記憶部
 312  パラメータ記憶部
 313  辞書記憶部
 314  認識対象データ記憶部
 900  コンピュータ
 901  CPU
 902  ROM
 903  RAM
 904  プログラム
 905  記憶装置
 906  記憶媒体
 907  ドライブ装置
 908  通信インタフェース
 909  通信ネットワーク
 910  入出力インタフェース
 911  バス

Claims (38)

  1.  特徴データの時系列を入力として認識結果を出力する認識器を訓練する認識器訓練装置であって、
     時刻が付与された特徴データのセットに対して、長さが指定の時間幅であるデータ範囲を設定し、当該データ範囲の中から、指定の個数の前記特徴データを選択する訓練用特徴データ選択手段と、
     前記訓練用特徴データ選択手段により選択された複数の特徴データであって時間順が保持された複数の特徴データに対し、当該複数の特徴データに関する情報に基づいて、前記認識結果に相当する教師ラベルを付与するラベル付与手段と、
     前記時間順が保持された複数の特徴データと、前記ラベル付与手段により付与された前記教師ラベルとの組を、訓練データとして、前記認識器を訓練する訓練手段と、
     を備える認識器訓練装置。
  2.  前記訓練用特徴データ選択手段は、前記データ範囲を、ランダムにデータ範囲を設定する方法、または、設定の度にデータ範囲をずらして設定する方法により、設定する、
     請求項1に記載の認識器訓練装置。
  3.  前記セットに含まれる特徴データの各々にはそれぞれ前記認識結果に相当するラベルが付与されており、
     前記ラベル付与手段は、
      前記訓練用特徴データ選択手段により選択された前記複数の特徴データのそれぞれから、当該特徴データに関連づけられた前記ラベルを抽出し、
      抽出した前記ラベルのうちで個数が最も多いラベルを選択する方法、または、抽出した前記ラベルごとに時刻に基づく重みをつけて個数を数え上げ、数え上げた結果としてのトータル値が最も大きいラベルを選択する方法、のいずれかを用いてラベルを選択し、選択したラベルを前記教師ラベルとして決定する、
     請求項1または2に記載の認識器訓練装置。
  4.  前記訓練用特徴データ選択手段は、前記指定の個数の前記特徴データを重複のないランダムな選択を行う方法で選択する、
     請求項1から3のいずれか一項に記載の認識器訓練装置。
  5.  前記訓練用特徴データ選択手段は、前記データ範囲から前記指定の個数の前記特徴データを選択する際に、当該データ範囲内の特徴データのうち最も新しい時刻が付与された特徴データを含むように、前記指定の個数の前記特徴データを選択する、
     請求項1から4のいずれか一項に記載の認識器訓練装置。
  6.  前記訓練用特徴データ選択手段は、前記データ範囲の中で新しい時刻が付与された特徴データほど大きい重みを設定し、重み付きのランダムな選択方法によって前記指定の個数の前記特徴データを選択する、
     請求項1から4のいずれか一項に記載の認識器訓練装置。
  7.  前記時間順が保持された複数の特徴データのそれぞれはベクトルで表現され、
     前記訓練手段は、前記訓練用特徴データ選択手段により選択された複数の前記特徴データを前記時刻順に連結することにより生成する、1つのベクトルを、前記訓練データの入力側のデータとして使用する、
     請求項1から6のいずれか一項に記載の認識器訓練装置。
  8.  前記時間順が保持された複数の特徴データのそれぞれは2次元に配列した値により表現され、前記認識器はニューラルネットワークであり、
     前記訓練手段は、前記訓練用特徴データ選択手段により選択された複数の前記特徴データを前記時刻順に配置することにより生成する、3次元のデータを、前記訓練データの入力側のデータとして使用する、
     請求項1から6のいずれか一項に記載の認識器訓練装置。
  9.  時刻が付与された特徴データのセットに対して、長さが指定の時間幅であるデータ範囲を設定し、当該データ範囲の中から、指定の個数の前記特徴データを選択する認識用特徴データ選択手段と、
     前記認識用特徴データ選択手段により選択された複数の特徴データであって時間順が保持された複数の特徴データを認識器に入力することにより、認識結果を導出する認識手段と、
     前記認識結果に基づく情報を出力する出力手段と、
     を備える認識装置。
  10.  前記認識用特徴データ選択手段は、前記データ範囲を、前記特徴データのセットのうち最も新しい時刻が付与された特徴データを含むように、設定する、
     請求項9に記載の認識装置。
  11.  前記認識用特徴データ選択手段は、前記指定の個数の前記特徴データを重複のないランダムな選択を行う方法で選択する、
     請求項9または10に記載の認識装置。
  12.  前記認識用特徴データ選択手段は、前記データ範囲から前記指定の個数の前記特徴データを選択する際に、当該データ範囲内の特徴データのうち最も新しい時刻が付与された特徴データを含むように、前記指定の個数の前記特徴データを選択する、
     請求項9から11のいずれか一項に記載の認識装置。
  13.  前記認識用特徴データ選択手段は、前記データ範囲の中で新しい時刻が付与された特徴データほど大きい重みを設定し、重み付きのランダムな選択方法によって前記指定の個数の前記特徴データを選択する、
     請求項9から11のいずれか一項に記載の認識装置。
  14.  固定された前記データ範囲の設定のもとで、前記認識用特徴データ選択手段の処理と前記認識手段の処理とを所定の回数実行することにより、複数の認識結果を取得し、
     前記複数の認識結果を統合することで総合的な認識結果を導出する認識結果統合手段をさらに備える、
     請求項9から13のいずれか一項に記載の認識装置。
  15.  複数の相異なる指定の時間幅のそれぞれについて、前記認識用特徴データ選択手段の処理と前記認識手段の処理とを実行することにより、時間幅毎の前記認識結果を取得し、
     前記時間幅毎の前記認識結果を統合することで最終的な認識結果を導出する認識結果統合手段をさらに備える、
     請求項9から13のいずれか一項に記載の認識装置。
  16.  請求項1から8のいずれか1項に記載の認識器訓練装置と、
     請求項9から15のいずれか1項に記載の認識装置と、を含む
     データ処理システム。
  17.  特徴データの時系列を入力として認識結果を出力する認識器を訓練するデータ処理方法であって、
     時刻が付与された特徴データのセットに対して、長さが指定の時間幅であるデータ範囲を設定し、当該データ範囲の中から、指定の個数の前記特徴データを選択し、
     前記選択された複数の特徴データであって時間順が保持された複数の特徴データに対し、当該複数の特徴データに関する情報に基づいて、前記認識結果に相当する教師ラベルを付与し、
     前記時間順が保持された複数の特徴データと、前記教師ラベルとの組を、訓練データとして、前記認識器を訓練する、
     データ処理方法。
  18.  時刻が付与された特徴データのセットに対して、長さが指定の時間幅であるデータ範囲を設定し、当該データ範囲の中から、指定の個数の前記特徴データを選択し、
     前記選択された複数の特徴データであって時間順が保持された複数の特徴データを認識器に入力することにより、認識結果を導出し、
     前記認識結果に基づく情報を出力する、
     データ処理方法。
  19.  前記データ範囲を、ランダムにデータ範囲を設定する方法、または、設定の度にデータ範囲をずらして設定する方法により、設定する、
     請求項17または18に記載のデータ処理方法。
  20.  前記セットに含まれる特徴データの各々にはそれぞれ前記認識結果に相当するラベルが付与されており、
     前記複数の特徴データのそれぞれから、それぞれに関連づけられた前記ラベルを抽出し、
     抽出した前記ラベルのうちで個数が最も多いラベルを選択する方法、または、抽出した前記ラベルごとに時刻に基づく重みをつけて個数を数え上げ、数え上げた結果としてのトータル値が最も大きいラベルを選択する方法、のいずれかを用いてラベルを選択し、選択したラベルを前記教師ラベルとして決定する、
     請求項17に記載のデータ処理方法。
  21.  前記指定の個数の前記特徴データを重複のないランダムな選択を行う方法で選択する、
     請求項17から20のいずれか一項に記載のデータ処理方法。
  22.  前記データ範囲から前記指定の個数の前記特徴データを選択する際に、当該データ範囲内の特徴データのうち最も新しい時刻が付与された特徴データを含むように、前記指定の個数の前記特徴データを選択する、
     請求項17から20のいずれか一項に記載のデータ処理方法。
  23.  前記データ範囲の中で新しい時刻が付与された特徴データほど大きい重みを設定し、重み付きのランダムな選択方法によって前記指定の個数の前記特徴データを選択する、
     請求項17から20のいずれか一項に記載のデータ処理方法。
  24.  前記時間順が保持された複数の特徴データのそれぞれはベクトルで表現され、
     前記選択された複数の前記特徴データを前記時刻順に連結することにより生成する1つのベクトルを、前記認識器に入力されるデータとして使用する、
     請求項17から23のいずれか一項に記載のデータ処理方法。
  25.  前記時間順が保持された複数の特徴データのそれぞれは2次元に配列した値により表現され、前記認識器はニューラルネットワークであり、
     前記選択された複数の前記特徴データを前記時刻順に配置することにより生成する3次元のデータを、前記認識器に入力されるデータとして使用する、
     請求項17から23のいずれか一項に記載のデータ処理方法。
  26.  固定された前記データ範囲の設定のもとで、前記指定の個数の前記特徴データの選択と前記認識結果の導出とを所定の回数実行することにより、複数の認識結果を取得し、
     前記複数の認識結果を統合することで総合的な認識結果を導出し、
     前記総合的な認識結果に基づく情報を出力する、
     請求項18に記載のデータ処理方法。
  27.  複数の相異なる指定の時間幅のそれぞれについて、前記指定の個数の前記特徴データの選択と前記認識結果の導出とを実行することにより、時間幅毎の前記認識結果を取得し、
     前記時間幅毎の前記認識結果を統合することで最終的な認識結果を導出し、
     前記最終的な認識結果に基づく情報を出力する、
     請求項18または26に記載のデータ処理方法。
  28.  特徴データの時系列を入力として認識結果を出力する認識器を訓練するためのプログラムであって、
     時刻が付与された特徴データのセットに対して、長さが指定の時間幅であるデータ範囲を設定し、当該データ範囲の中から、指定の個数の前記特徴データを選択する特徴データ選択処理と、
     前記特徴データ選択処理により選択された複数の特徴データであって時間順が保持された複数の特徴データに対し、当該複数の特徴データに関する情報に基づいて、前記認識結果に相当する教師ラベルを付与するラベル付与処理と、
     前記時間順が保持された複数の特徴データと、前記ラベル付与処理により付与された前記教師ラベルとの組を、訓練データとして、前記認識器を訓練する訓練処理と、
     をコンピュータに実行させるプログラムを記録した、コンピュータ読み取り可能な記憶媒体。
  29.  時刻が付与された特徴データのセットに対して、長さが指定の時間幅であるデータ範囲を設定し、当該データ範囲の中から、指定の個数の前記特徴データを選択する特徴データ選択処理と、
     前記特徴データ選択処理により選択された複数の特徴データであって時間順が保持された複数の特徴データを認識器に入力することにより、認識結果を導出する認識処理と、
     前記認識結果に基づく情報を出力する出力処理と、
     をコンピュータに実行させるプログラムを記録した、コンピュータ読み取り可能な記憶媒体。
  30.  前記特徴データ選択処理は、前記データ範囲を、ランダムにデータ範囲を設定する方法、または、設定の度にデータ範囲をずらして設定する方法により、設定する、
     請求項28または29に記載の記憶媒体。
  31.  前記セットに含まれる特徴データの各々にはそれぞれ前記認識結果に相当するラベルが付与されており、
     前記ラベル付与処理は、
      前記特徴データ選択処理により選択された前記特徴データのそれぞれから、それぞれに関連づけられた前記ラベルを抽出し、
      抽出した前記ラベルのうちで個数が最も多いラベルを選択する方法、または、抽出した前記ラベルごとに時刻に基づく重みをつけて個数を数え上げ、数え上げた結果としてのトータル値が最も大きいラベルを選択する方法、のいずれかを用いてラベルを選択し、選択したラベルを前記教師ラベルとして決定する、
     請求項28に記載の記憶媒体。
  32.  前記特徴データ選択処理は、前記指定の個数の前記特徴データを重複のないランダムな選択を行う方法で選択する、
     請求項28から31のいずれか一項に記載の記憶媒体。
  33.  前記特徴データ選択処理は、前記データ範囲から前記指定の個数の前記特徴データを選択する際に、当該データ範囲内の特徴データのうち最も新しい時刻が付与された特徴データを含むように、前記指定の個数の前記特徴データを選択する、
     請求項28から31のいずれか一項に記載の記憶媒体。
  34.  前記特徴データ選択処理は、前記データ範囲の中で新しい時刻が付与された特徴データほど大きい重みを設定し、重み付きのランダムな選択方法によって前記指定の個数の前記特徴データを選択する、
     請求項28から31のいずれか一項に記載の記憶媒体。
  35.  前記時間順が保持された複数の特徴データのそれぞれはベクトルで表現され、
     前記プログラムは、前記コンピュータに、前記特徴データ選択処理により選択された複数の前記特徴データを前記時刻順に連結することにより生成する1つのベクトルを、前記認識器に入力されるデータとして使用する、
     請求項28から34のいずれか一項に記載の記憶媒体。
  36.  前記時間順が保持された複数の特徴データのそれぞれは2次元に配列した値により表現され、前記認識器はニューラルネットワークであり、
     前記プログラムは、前記コンピュータに、前記特徴データ選択処理により選択された複数の前記特徴データを前記時刻順に配置することにより生成する3次元のデータを、前記認識器に入力されるデータとして使用する、
     請求項28から34のいずれか一項に記載の記憶媒体。
  37.  前記プログラムは、
     前記コンピュータに、固定された前記データ範囲の設定のもとで、前記特徴データ選択処理と前記認識処理とを所定の回数実行させることにより、複数の認識結果を取得させ、
     前記コンピュータに、前記複数の認識結果を統合することで総合的な認識結果を導出する認識結果統合処理を実行させる、
     請求項29に記載の記憶媒体。
  38.  前記プログラムは、
     前記コンピュータに、複数の相異なる指定の時間幅のそれぞれについて、前記特徴データ選択処理と前記認識処理とを実行させることにより、時間幅毎の前記認識結果を取得させ、
     前記コンピュータに、前記時間幅毎の前記認識結果を統合することで最終的な認識結果を導出する統合処理を実行させる、
     請求項29または37に記載の記憶媒体。
PCT/JP2019/002475 2019-01-25 2019-01-25 認識器訓練装置、認識装置、データ処理システム、データ処理方法、および記憶媒体 WO2020152848A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020567333A JP7238905B2 (ja) 2019-01-25 2019-01-25 認識器訓練装置、認識装置、データ処理システム、データ処理方法、およびプログラム
PCT/JP2019/002475 WO2020152848A1 (ja) 2019-01-25 2019-01-25 認識器訓練装置、認識装置、データ処理システム、データ処理方法、および記憶媒体
US17/420,229 US20220067480A1 (en) 2019-01-25 2019-01-25 Recognizer training device, recognition device, data processing system, data processing method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/002475 WO2020152848A1 (ja) 2019-01-25 2019-01-25 認識器訓練装置、認識装置、データ処理システム、データ処理方法、および記憶媒体

Publications (1)

Publication Number Publication Date
WO2020152848A1 true WO2020152848A1 (ja) 2020-07-30

Family

ID=71736679

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/002475 WO2020152848A1 (ja) 2019-01-25 2019-01-25 認識器訓練装置、認識装置、データ処理システム、データ処理方法、および記憶媒体

Country Status (3)

Country Link
US (1) US20220067480A1 (ja)
JP (1) JP7238905B2 (ja)
WO (1) WO2020152848A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023113400A1 (ko) * 2021-12-14 2023-06-22 한국전자기술연구원 임베딩 기반 데이터 집합의 처리 장치 및 그 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020217425A1 (ja) * 2019-04-25 2020-10-29 日本電気株式会社 教師データ生成装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007220055A (ja) * 2006-02-14 2007-08-30 Gootech:Kk 時系列パターン解析を伴うニューラルネットワーク
JP2018055294A (ja) * 2016-09-27 2018-04-05 Kddi株式会社 時系列のイベント群から異常状態を検知するプログラム、装置及び方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10943100B2 (en) * 2017-01-19 2021-03-09 Mindmaze Holding Sa Systems, methods, devices and apparatuses for detecting facial expression
US11475372B2 (en) * 2018-03-26 2022-10-18 H2O.Ai Inc. Evolved machine learning models
US11620528B2 (en) * 2018-06-12 2023-04-04 Ciena Corporation Pattern detection in time-series data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007220055A (ja) * 2006-02-14 2007-08-30 Gootech:Kk 時系列パターン解析を伴うニューラルネットワーク
JP2018055294A (ja) * 2016-09-27 2018-04-05 Kddi株式会社 時系列のイベント群から異常状態を検知するプログラム、装置及び方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023113400A1 (ko) * 2021-12-14 2023-06-22 한국전자기술연구원 임베딩 기반 데이터 집합의 처리 장치 및 그 방법

Also Published As

Publication number Publication date
JP7238905B2 (ja) 2023-03-14
JPWO2020152848A1 (ja) 2021-11-11
US20220067480A1 (en) 2022-03-03

Similar Documents

Publication Publication Date Title
US20180260735A1 (en) Training a hidden markov model
CN111626303B (zh) 性别和年龄的识别方法、装置、存储介质及服务器
US11449715B2 (en) Sequential learning maintaining a learned concept
CN109344794B (zh) 一种钢琴演奏评分方法、装置及计算机存储介质
WO2020152848A1 (ja) 認識器訓練装置、認識装置、データ処理システム、データ処理方法、および記憶媒体
US20230419170A1 (en) System and method for efficient machine learning
CN115222443A (zh) 客户群体划分方法、装置、设备及存储介质
JP7168485B2 (ja) 学習データの生成方法、学習データ生成装置及びプログラム
JP2015225410A (ja) 認識装置、方法及びプログラム
US11727534B2 (en) Normalizing OCT image data
CN113850160A (zh) 重复动作的计数方法及装置
JP6713422B2 (ja) 学習装置、イベント検出装置、学習方法、イベント検出方法、プログラム
CN112529078A (zh) 一种业务处理方法、装置及设备
CN116959097A (zh) 动作识别方法、装置、设备及存储介质
CN116484881A (zh) 对话生成模型的训练方法、装置、存储介质及计算机设备
KR102413588B1 (ko) 학습 데이터에 따른 객체 인식 모델 추천 방법, 시스템 및 컴퓨터 프로그램
CN112434629B (zh) 一种在线时序动作检测方法及设备
CN112383819B (zh) 视频帧提取方法及相关设备
JP7140186B2 (ja) 動作分類用モデル学習装置、動作分類装置、動作分類用モデル学習方法、プログラム
CN113780444A (zh) 基于渐进式学习的舌苔图像分类模型的训练方法
US20240062103A1 (en) Machine learning system, edge device, and information processing device
WO2023175931A1 (ja) 画像分類装置、画像分類方法、及び、記録媒体
JP2014123184A (ja) 認識装置、方法及びプログラム
CN113723554B (zh) 模型调度方法、装置、电子设备及计算机可读存储介质
US20240104178A1 (en) Information processing apparatus, information processing method, matching system, program, and storage medium

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19911397

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020567333

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19911397

Country of ref document: EP

Kind code of ref document: A1