WO2021149528A1 - イベント予測システム、イベント予測方法およびプログラム - Google Patents

イベント予測システム、イベント予測方法およびプログラム Download PDF

Info

Publication number
WO2021149528A1
WO2021149528A1 PCT/JP2021/000606 JP2021000606W WO2021149528A1 WO 2021149528 A1 WO2021149528 A1 WO 2021149528A1 JP 2021000606 W JP2021000606 W JP 2021000606W WO 2021149528 A1 WO2021149528 A1 WO 2021149528A1
Authority
WO
WIPO (PCT)
Prior art keywords
time
prediction
sensor data
event
series
Prior art date
Application number
PCT/JP2021/000606
Other languages
English (en)
French (fr)
Inventor
崇人 本田
靖子 櫻井
光希 川畑
保志 櫻井
Original Assignee
国立大学法人大阪大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人大阪大学 filed Critical 国立大学法人大阪大学
Priority to JP2021573071A priority Critical patent/JP7440938B2/ja
Priority to US17/793,388 priority patent/US20230058585A1/en
Publication of WO2021149528A1 publication Critical patent/WO2021149528A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Definitions

  • the present invention relates to an event prediction technique based on time series sensor data.
  • Non-Patent Documents 2, 17, 19, 22, 24, 25 are typical technologies, and there are many methods for analyzing and predicting sensor data based on these (Non-Patent Document 13). ..
  • Non-Patent Document 15 has the ability to estimate a nonlinear dynamic system in real time from a large amount of multidimensional sensor data that continues to be generated, and to continue to predict the future adaptively.
  • this method uses a sensor stream as an input and shows high performance in predicting the measured value of the sensor data, it does not correspond to the prediction of event data such as normal / abnormal.
  • Non-Patent Documents 8, 10, 11, 16, 28, 29, 31 Matsubara et al.
  • Non-Patent Document 18 proposed TriMine as an analysis method for large-scale event tensors. TriMine classifies given data into multiple topics and detects potential trends and patterns, but targets discrete event data such as click logs on the web and time series such as IOT sensor data. It is not possible to express the dynamic pattern of a sequence or its group (regime), and the problems to be dealt with are different. In addition, TriMine does not have the ability to predict events.
  • Non-Patent Documents 3, 9, 26, 27 Research on analysis of nonlinear dynamic characteristics based on Deep Neural Network is also active (Non-Patent Documents 3, 9, 26, 27).
  • Qin et al. Proposed a method for predicting stock prices with high accuracy by modeling important dimensions in the input time series and important dimensions in the special space after dimension reduction over two layers. ..
  • the method of modeling the event occurrence intensity is the mainstream (Non-Patent Documents 5, 6, 20, 30).
  • RMTPP Non-Patent Document 5 proposes a non-linear model for predicting the time and type of the next event to occur from the past event history.
  • these methods target categorical data composed only of event history, and cannot predict events by continuous data composed of measured values from sensors.
  • the neural hawkes process A neutrally self-modulating multivariate point process.
  • NIPS pages 6757-6767, 2017. Y. Qin, D. Song, H. Chen, W. Cheng, G. Jiang, and G. W. Cottonrell.
  • IJCAI pages 2627-2633, 2017. T.Rakthanmanon, B.J.L.Campana, A.Mueen, G.E.A.P.A.Batista, M.B.Westover, Q.Zhu, J.Zakaria, and E.J.Keogh.Searching and mining trillions of time series subsequences under dynamic time warning.
  • the present invention has been made in view of the above, and provides an event prediction system, a method and a program for time-series tensor data, which enables long-term and highly accurate event prediction through data summarization processing. It is to provide.
  • the first feature amount extraction unit of the computer is a time series in which the first feature amount extraction unit of the computer is continuously collected from a plurality of types of sensors arranged in a plurality of observation targets and stored in the storage unit.
  • the model parameters of the multifaceted dynamic pattern are continuously extracted from the sensor data and stored in the storage unit, and the second feature quantity extraction unit of the computer stores the model parameters and the time series sensor data in the storage unit.
  • the time-series sensor data is read from the storage unit, sequentially featured into summary information including modeling information and its error information, and stored in the storage unit, and the prediction unit of the computer stores the summary information. It is read from the unit and used as an input, and the occurrence probability of a predetermined event at a predetermined time ahead is output.
  • the program according to the present invention continuously extracts model parameters of a multifaceted dynamic pattern from time-series sensor data continuously collected from a plurality of types of sensors arranged in a plurality of observation targets.
  • the first feature amount extracting means, the second feature amount extracting means for sequentially characterizing the time-series sensor data into summary information including modeling information and its error information using the model parameters, and the summary information.
  • the computer functions as a predictive means for outputting the occurrence probability of a predetermined event at a predetermined time ahead as input.
  • time-series sensor data is continuously collected from a plurality of types of sensors arranged in a plurality of observation targets, and model parameters of a multifaceted dynamic pattern are collected from the collected time-series sensor data.
  • the extraction is continuously performed by the first feature amount extraction means.
  • the second feature amount extracting means sequentially features the time-series sensor data into summary information including modeling information and error information thereof using the model parameters.
  • the prediction means outputs the probability of occurrence of a predetermined event at a predetermined time ahead by inputting the summary information.
  • the change points and potential behaviors of the patterns can be determined from, for example, time transitions and multifaceted viewpoints between observation targets. Be grasped.
  • the sensor may be arranged directly on the observation target or in a manner in which the observation target can be observed remotely.
  • FIG. 1 It is an overall block diagram which shows one Embodiment of the event prediction system which concerns on this invention. It is a figure which shows an example of the processing state of the information taken in from the smart factory data which this invention is an application example, (a) shows the original sensor data, (b) shows the pattern detection result from the original data. , (C), (d) are diagrams showing typical regime examples of a case where an emergency stop occurs after a predetermined time (d) and a case where the emergency stop is not performed (c) based on the original data. It is a figure which shows the outline of the proposed model which concerns on this invention. It is a transition diagram for demonstrating the basic concept of the proposed algorithm which concerns on this invention.
  • the present invention preferably relates to an event prediction method for large-scale time series sensor data.
  • the present invention comprehensively analyzes and summarizes a multifaceted time series pattern based on a plurality of viewpoints from, for example, factory equipment sensor data composed of a triplet of (facility, sensor, time), and in the future.
  • technology for long-term event prediction More specifically, when time-series data consisting of measured values of sensor data such as rotation speed, operating voltage, and equipment temperature in each equipment installed in the factory is given, (a) basic time-series. By extracting patterns, common patterns between each facility and patterns unique to each facility, and statistically summarizing them, (b) predict future events. Moreover, these processes are (c) linear with respect to the data size.
  • this prediction system will occur in the future by grasping the number of typical patterns (hereinafter referred to as regimes) included in time series data and the points of change from various angles and accurately grasping the operating status of the system. Predict events. More specifically, when large-scale time-series sensor data collected from a plurality of sensors is given in a plurality of facilities, an event after a predetermined time, that is, one l s step ahead is predicted.
  • FIG. 1 shows an overall block diagram of an event prediction system (hereinafter, prediction system 1) according to the present invention.
  • This prediction system 1 transmits large-scale time-series sensor data related to the operating status from each of the sensor groups 21 installed in the observation targets 20, ...
  • a computer having a control unit 10 including a processor (CPU) that extracts a feature amount from each of the captured time-series data and executes an event prediction process after a predetermined time is provided. ..
  • machine learning is used, and the parameters applied to the prediction processing are updated through machine learning. Details of FIG. 1 will be described later.
  • FIG. 2 is sensor data from a smart factory as an example of the observation target 20 (FIG. 1), and shows information to be used (input) for prediction processing.
  • FIG. 2A shows the original sensor data, and three sensor values (rotational speeds) collected as an example of each sensor group 21 (FIG. 1) from the five equipments (# 1 to # 5). : Speed, operating voltage: Load, equipment temperature: Temp).
  • Speed operating voltage: Load
  • equipment temperature Temp
  • FIG. 2A the part painted with a black rectangle indicates that the corresponding equipment is in an emergency stop.
  • the waveform of the operating voltage: Load in FIG. 2A generally overlaps with the waveform of the rotation speed: Speed.
  • the prediction system 1 analyzes time-series data obtained from a plurality of facilities at the same time to generate a multifaceted pattern, that is, not only a time transition of a pattern in each facility but also a pattern common or different among the facilities. It is possible to detect.
  • the left side of FIGS. 2 (c) and 2 (d) shows the segmentation result.
  • ⁇ 1 to ⁇ 5 on the right side represent common time-series patterns (that is, regimes), and visualize the transitions between them.
  • the value of p200 is the emergency stop probability at 200 steps ahead output by this prediction system when the partial sequence corresponding to the left side figure of FIGS. 2C and 2d and the pattern detection result thereof are given.
  • thick arrows are displayed between the regimes in which more transitions are detected.
  • the size of the circle indicates the size of the period during which the regime occurs.
  • the rotation speed Speed increases ( ⁇ 5 ) before the equipment stops in an emergency, and this tendency is expressed by the appearance of transitions between the regimes ⁇ 4 and ⁇ 5.
  • the prediction system 1 accurately predicts an emergency stop, and p200 shows a high value. That is, by detecting the potential pattern contained in the data, not only the process leading to the emergency stop can be analyzed from various angles, but also long-term and highly accurate prediction can be made by using the summary information.
  • transitions without signs of an emergency stop such as regimes ⁇ 2 , ⁇ 3 , ⁇ 2 , ⁇ 1 , and ⁇ 2 are observed, and p200 also shows a low value.
  • This prediction system 1 predicts the equipment alert of the l s step ahead from the given time-series tensor X, and the processing required for that is shown below.
  • the alert label y (t e + l s ) at the l s step destination is predicted based on the following equation (1).
  • t s : t e represents the window of the sequence used for prediction (a predetermined period from the present time to the past direction), and F is a proposed model.
  • the prediction system 1 executes the following three processes (P1), (P2), and (P3).
  • a storage unit 100 for example, a display unit 121 for displaying a window described later, and an operation unit 122 for receiving an instruction from the outside are connected to the control unit 10.
  • the storage unit 100 includes a control program storage unit 101, a data stream storage unit 102 that stores time-series sensor data input from each sensor group 21, and a neural network that constitutes artificial intelligence (AI) applied to prediction processing.
  • a parameter storage unit 103 that stores model parameters (weights of each edge, etc.) is provided.
  • the control program storage unit 101 stores program data for executing the event prediction process described later and various necessary arithmetic expression data.
  • the storage unit 100 also performs processing "(P1) multifaceted detection of potential dynamic patterns", “(P2) feature extraction based on dynamic patterns” and processing described later. It has a work area (storage unit) that temporarily stores each data obtained during the execution of "(P3) l s step ahead long-term prediction”.
  • the control unit 10 functions as a data acquisition processing unit 11, a feature amount extraction unit 12, a prediction unit 13, and a parameter update unit 14 when the control program is executed.
  • the data acquisition processing unit 11 acquires time-series sensor data from the sensor group 21 of each observation target 20 (each facility in the factory) via the network 110.
  • the feature extraction unit 12 executes the processes “(P1) multifaceted detection of potential dynamic patterns” and “(P2) feature extraction based on dynamic patterns”, which will be described later.
  • the prediction unit 13 executes the process “(P3) l s step ahead long-term prediction”. In the present embodiment, the prediction unit 13 applies the parameters from the parameter storage unit 103 to perform the prediction process. Details of each process will be described later.
  • the machine learning device 30 includes a control unit 300 and a storage unit 310 composed of a computer having a built-in processor, and also includes a display unit 321 and an operation unit 322.
  • the storage unit 310 includes a learning program storage unit 311, a data stream storage unit 312, and a parameter storage unit 313.
  • the data stream storage unit 312 captures the time-series sensor data input from each sensor group 21 by communication or via an external memory, or fetches and stores the data once written in the data stream storage unit 102.
  • the control unit 300 functions as a data acquisition processing unit 301, a feature amount extraction unit 302, and a machine learning unit 303 by executing a learning program from the learning program storage unit 311.
  • the data acquisition processing unit 301 is the same as the data acquisition processing unit 11, and the acquisition period of the acquired data can be appropriately set automatically or manually (for example, for the latest one week).
  • the feature amount extraction unit 302 is provided as necessary, and confirms the processing by appropriately adjusting the conditions of the processing (P1) and (P2) according to, for example, a change in factory equipment or other changes in the situation.
  • the machine learning unit 303 preferably performs machine learning by applying, for example, "supervised learning” to the time-series sensor data for the latest predetermined period, and stores the parameters that are the learning results in the parameter storage unit 313. Then, if necessary, the parameter storage unit 103 is updated via the parameter update unit 14 or in response to an instruction from the operation unit 322 of the machine learning device 30.
  • various modes can be adopted in addition to the mode of the separate machine learning device 30.
  • the input data may be taken out from the data stream storage unit 102 for a predetermined period.
  • the learning may be executed by using the prediction unit 13 by using the system stop period (for example, at night), and the parameter which is the learning result may be updated.
  • the multidimensional time series tensor X can be expressed as ⁇ m, r, S, ⁇ , F ⁇ with m segments and r regimes.
  • this prediction system statistically models the multidimensional time series tensor X based on the obtained regime information and extracts important features.
  • HMM hidden Markov model
  • k indicates the number of latent states of HMM.
  • the output probability B is generated from the multidimensional Gaussian distribution.
  • ⁇ ) of ⁇ is as shown in the following equation (Equation 1). It is calculated.
  • Cost M (M) indicates the model cost for expressing the model M
  • M) indicates the coding cost of the tensor X given the model M.
  • the coding cost of X when a model parameter is given can be expressed as follows (Equation 6) using negative log-likelihood by information compression using Huffman coding. ..
  • ⁇ SPLITCAST (P3): Among ⁇ Z, ⁇ , a partial sequence of a window t s : t e ⁇ Z (t s : t e ), ⁇ (t s : t e ) ⁇ is a feature that predicts a failure. Is extracted, and the failure label y (t e + l s ) at the l s destination is predicted.
  • the fundamental question in time series analysis is whether there are hidden structures inherent in the time series data.
  • the multidimensional time series tensor X dealt with here has features from a plurality of viewpoints. That is, the characteristics of the time domain and the characteristics of the equipment domain. Specifically, the time-series sensor data obtained from the smart factory has a time transition pattern of each process and a pattern peculiar to the equipment. Therefore, in the following, we will simultaneously perform multifaceted pattern discovery and grouping, which briefly summarizes the underlying structure of a given time-series tensor.
  • the V-Assignment can detect the change point of the X pattern based on the model parameters of the regime (steps 5 to 7 in Table 2).
  • the transition diagram of FIG. 4 is shown. Estimate the pattern transition between given regimes by connecting the transitions of the two regimes ⁇ 1 , ⁇ 2 ⁇ and comparing the coding costs of the two regimes at each time.
  • This algorithm calculates the coding cost Cost T (X
  • ⁇ ) -ln P (X
  • H-Assignment effectively extracts equipment-specific patterns. Specifically, when the tensor X and the model parameters ⁇ 1 , ⁇ 2 ⁇ are given, the algorithm 2 calculates the coding cost when the segment of the equipment i is assigned to a certain regime ⁇ as follows (Equation 10). And assign the segment of equipment i to the regime where the cost is lower.
  • z i (t) indicates the set ⁇ , ⁇ of the mean and variance of all data points belonging to the same state as itself. That is, the dimension of the latent state tensor is Z ⁇ R w ⁇ 2d ⁇ n .
  • the coding error of the measured value x ij (t) ⁇ X of the sensor j of the equipment i at time t is expressed by the posterior probability p (x ij (t)
  • this prediction system combines a feature extraction method based on a probabilistic model and a deep learning method to learn characteristic time-series patterns extracted from actual data, so that it can be learned with a smaller network and solve the problem of overfitting. Achieve efficient and effective alert label prediction while mitigating.
  • LSTM Long-short term memory
  • Non-Patent Document 9 is one of the deep learning models that treats input samples as time series data and enables learning of high-dimensional nonlinear dynamics.
  • LSTM replaces the unit in the middle layer of RNN (Recurrent neural network) with a special structure called a memory unit. It uses three types of input gate, output gate, and forgetting gate, and the unit value c t at time t. And the output value h t of the unit.
  • Each i t the output values of each gate, o t, When f t, forward propagation of LSTM is expressed by the following equation (11).
  • the sigmoid function is used as the activation function.
  • LSTM can learn the long-term dependence of the input sequence given by the memory unit, so it remembers the features that are particularly important for equipment failure in the process of regime transition and state transition inside the regime. At the same time, it is considered that a feature vector summarizing the latest operating status of the equipment is extracted.
  • Equation 13 The objective function that the model in this prediction system should minimize is BCE (Binary cross entropy). If the batch size at the time of model learning is N and the output value in this prediction system for each input sample i is y ⁇ i , It is represented as shown by (Equation 13).
  • V-Assignment, H-Assignment, and ModelEstimation require O (wdnk 2 ) complexity to estimate the coding cost and model parameters.
  • w is the number of equipment
  • d is the number of dimensions
  • n is the length of the time series
  • the number of iterations #iter and the number of hidden states k are very small constants and can be ignored. Therefore, the computational complexity of RegimeGeneration is O (wdn).
  • the amount of calculation is O (wdn) because it outputs the error when modeling with the latent state of each equipment, each sensor, and each time.
  • O (wdn) because it outputs the error when modeling with the latent state of each equipment, each sensor, and each time.
  • LR Logistic regression
  • RNN Recurrent neural network
  • GRU Gate recurrent unit
  • LSTM LSTM
  • the dataset used was Speed, which was installed in 55 factory equipment that had been in operation for three months from October 2017 at Mitsubishi Heavy Industries Engine & Turbo Charger Co., Ltd. and was processing bearings and housings. , Operating voltage (Load), and equipment temperature (Temp), which are acquired at 5-second intervals.
  • the learning sample is generated in the sliding window, and the sample when the equipment itself is not in operation is omitted. Since the number of samples during normal operation is 62983 and the number of samples before emergency stop is 1069, which causes a bias in learning, the number of samples during normal operation is aligned with the number of samples during emergency stop, and as a result, 1069 x 2 samples are used. An experiment was conducted.
  • FIG. 5 is a comparison diagram of the accuracy when the number of predicted destination steps l s is changed.
  • the type notation of the comparative example and the data display order (left and right) correspond.
  • FIG. 9 is a diagram showing the relationship between the number of training samples and the prediction accuracy. This prediction system shows higher performance than the comparative example even with a small number of samples, and as the number of training samples increases, it is possible to predict a failure event with higher accuracy.
  • this prediction system conducts experiments using, for example, actual data obtained from factory equipment, and this prediction system appropriately models complex time-series patterns to make long-term failure prediction highly accurate. It was confirmed that it could be done, and that it achieved a significant improvement in accuracy and performance compared to the existing comparative examples.
  • the event prediction system has a multi-faceted dynamic pattern of model parameters from time-series sensor data continuously collected from a plurality of types of sensors arranged in a plurality of observation targets.
  • a first feature amount extraction means that continuously performs extraction, and a second feature amount extraction that sequentially features the time series sensor data into summary information including modeling information and its error information using the model parameters. It is preferable to include means and predictive means for outputting the occurrence probability of a predetermined event at a predetermined time ahead by inputting the summary information.
  • the first feature amount extraction unit of the computer is a time series in which the first feature amount extraction unit of the computer is continuously collected from a plurality of types of sensors arranged in a plurality of observation targets and stored in the storage unit.
  • the model parameters of the multifaceted dynamic pattern are continuously extracted from the sensor data and stored in the storage unit, and the second feature quantity extraction unit of the computer stores the model parameters and the time series sensor data in the storage unit.
  • the time-series sensor data is read from the storage unit, sequentially featured into summary information including modeling information and its error information, and stored in the storage unit, and the prediction unit of the computer stores the summary information. It is preferable to read from the unit and use it as an input to output the occurrence probability of a predetermined event at a predetermined time ahead.
  • the program according to the present invention continuously extracts model parameters of a multifaceted dynamic pattern from time-series sensor data continuously collected from a plurality of types of sensors arranged in a plurality of observation targets.
  • the first feature amount extracting means, the second feature amount extracting means for sequentially characterizing the time-series sensor data into summary information including modeling information and its error information using the model parameters, and the summary information. It is preferable to make a computer function as a predictive means for outputting the occurrence probability of a predetermined event at a predetermined time ahead as input.
  • time-series sensor data is continuously collected from a plurality of types of sensors arranged in a plurality of observation targets, and model parameters of a multifaceted dynamic pattern are collected from the collected time-series sensor data.
  • the extraction is continuously performed by the first feature amount extraction means.
  • the second feature amount extracting means sequentially features the time-series sensor data into summary information including modeling information and error information thereof using the model parameters.
  • the prediction means outputs the probability of occurrence of a predetermined event at a predetermined time ahead by inputting the summary information.
  • the change points and potential behaviors of the patterns can be determined from, for example, time transitions and multifaceted viewpoints between observation targets. Be grasped.
  • the sensor may be arranged directly on the observation target or in a manner in which the observation target can be observed remotely.
  • the first feature amount extracting means detects the dynamic pattern by performing a segment and its patterning in the time direction and between the observation targets. According to this configuration, since the dynamic pattern is extracted from various angles, it is possible to reduce the amount of data required for processing while suppressing a decrease in accuracy.
  • the first feature amount extracting means sets the number of the segments by using a cost function. According to this configuration, in the segmentation of the time series sensor data, the number of segments is set to the optimum value in consideration of the data amount and the processing time by the cost function.
  • the prediction means obtains the probability of occurrence of the predetermined event based on the parameters set in the neural network model. According to this configuration, highly accurate prediction is possible with a model having a small and simple structure.
  • the prediction means applies LSTM (Long-short term memory) to the neural network model.
  • LSTM Long-short term memory
  • the LSTM can be applied to a deep learning model, and the long-term dependence of the input sequence can be learned, so that it is possible to make a highly accurate prediction for a long period of time.
  • the summary information obtained by the second feature amount extracting means is taken in for a predetermined period, machine learning is performed by a learning prediction means having the same configuration as the prediction means, and the learning result is obtained. It is preferable to provide a machine learning device that updates the parameters to the prediction means. According to this configuration, it is possible to gradually improve the prediction accuracy.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Automation & Control Theory (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

イベント予測システム(1)は、特徴量抽出部(12)と予測部(13)とを備える。特徴量抽出部(12)は、工場の複数wの設備にそれぞれ配置された複数種dのセンサから期間nごとに収集される時系列センサデータの多次元時系列テンソルXから時間方向、設備方向の動的パターンのモデルパラメータ{m,r,S,Θ,F}の抽出を継続的に行い、さらに、モデルパラメータ{m,r,S,Θ、F}を用いて多次元時系列テンソルXをモデル化情報Zとその誤差情報εとを含む要約情報{Z,ε}に順次特徴量化する。予測部(13)は、要約情報{Z,ε}を入力として所定時間ls先でのアラートラベルyの発生確率pを出力する。これにより、時系列センサデータから特徴量を抽出して要約することで、簡易な構成で長期的かつ高精度なイベント予測を行う。

Description

イベント予測システム、イベント予測方法およびプログラム
 本発明は、時系列センサデータに基づくイベント予測技術に関する。
 近年、製造業においては製造工場のスマート化が推し進められている。大量のセンサを使用して生産ラインの稼働状況を常に監視し、その様子を時系列データとして蓄積、分析することにより、機器の異常検知(非特許文献25,32)や品質管理(非特許文献14)等、あらゆる側面から生産性を向上する取り組みが行われている。これらの取り組みに共通する重要な課題は、収集した大規模データからの効果的な知見獲得と、それに基づく将来予測技術の開発である。特に、製造工場から得られる時系列データは複数のドメイン(設備、センサ、時間など)を持つ複雑なデータであり、多角的なパターンを持つことが多い。生産ラインにおいては、複数の作業工程(パターン)の時間遷移のみならず、複数ラインでの並列作業によって生まれる作業ラインごとに共通/相違なパターンを持つ。不良品や設備故障の要因を効果的に捉えるためには、このような多角的かつ動的なパターンを柔軟に表現すると同時に、それらの間に隠された因果関係を明らかにする必要がある。
 加えて、スマート工場で想定されるタスクでは、故障や不具合、加工精度の低下など、各イベントの発生を事前に把握することで、対策の選択肢が広がる。つまり、大規模センサデータの将来予測技術は、より長期的な予測能力を有することが望ましい(非特許文献15)。
 センサデータの解析に関する研究は、データベースやデータマイニング等、様々な分野で進められている(非特許文献2,17,19,22,24,25)。自己回帰モデル(AR: auto regressive model)、線形動的システム(LDS: linear dynamical systems) は代表的な技術であり,これらに基づくセンサデータの解析と予測手法が数多く存在する(非特許文献13)。
 Regime-Cast(非特許文献15)は、大量に生成され続ける多次元センサデータから非線形動的システムをリアルタイムに推定し、適応的に将来を予測し続ける能力を持つ。しかし、この手法はセンサストリームを入力とし、センサデータの実測値の予測において高い性能を示すが、正常/異常といったイベントデータの予測には対応していない。
 また、時系列ビッグデータを対象としたパターン発見とクラスタリングも重要な課題である(非特許文献8,10,11,16,28,29,31)。Matsubaraら(非特許文献18)は、大規模イベントテンソルの解析手法として、TriMineを提案した。TriMineは、与えられたデータを複数のトピックに分類し、潜在的なトレンドやパターンを検出するが、Web上のクリックログのような離散イベントデータを対象としており、IOTセンサデータのような時系列シーケンスの動的パターンやそのグループ(レジーム)を表現することができず、扱う問題が異なる。加えて、TriMineはイベントを予測する能力を持たない。
 Deep Neural Networkに基づく非線形動特性の解析に関する研究も盛んである(非特許文献3,9,26,27)。Qinらは非特許文献21において、入力時系列の中で重要な次元と次元削減後の特空間で重要な次元を2階層にわたりモデル化することで、高精度に株価を予測する手法を提案した。一方で、本研究のように、不連続に発生するイベントを予測するタスクではイベントの発生強度(Intensity)をモデル化する手法が主流である(非特許文献5,6,20,30)。例えば、RMTPP(非特許文献5)は、過去のイベント履歴から次に発生するイベントの時刻と種類を予測するための非線形モデルを提案している。しかし、これらの手法はイベント履歴のみから構成されるカテゴリカルデータを対象としており、センサからの実測値で構成される連続データによるイベント予測を行うことはできない。
C. M. Bishop. Pattern Recognition and Machine Learning (Information Science and Statistics). Springer, 2006. G. E. Box, G. M. Jenkins, and G. C. Reinsel. Time Series Analysis: Forecasting and Control. Prentice Hall, Englewood Cliffs, NJ, 3rd edition, 1994. P. Chen, S. Liu, C. Shi, B. Hooi, B. Wang, and X. Cheng. Neucast: Seasonal neural forecast of power grid time series. In IJCAI, pages 3315-3321, 2018. K. Cho, B. van Merrienboer, D. Bahdanau, and Y. Bengio. On the Properties of Neural Machine Translation: Encoder-Decoder Approaches. arXiv e-prints, page arXiv:1409.1259, Sep 2014. N. Du, H. Dai, R. Trivedi, U. Upadhyay, M. Gomez-Rodriguez, and L. Song. Recurrent marked temporal point processes: Embedding event history to vector. In KDD, pages 1555-1564, 2016. N. Du, Y. Wang, N. He, and L. Song. Time-sensitive recommendation from recurrent user activities. In NIPS, pages 3492-3500, 2015. J. G. DAVID FORNEY. The viterbi algorithm. In Proceedings of the IEEE, pages 268-278, 1973. D. Hallac, S. Vare, S. Boyd, and J. Leskovec. Toeplitz inverse covariance-based clustering of multivariate time series data. In KDD, pages 215-223, 2017. S. Hochreiter and J. Schmidhuber. Long short-term memory. Neural Comput., 9(8):1735-1780, Nov. 1997. T. Honda, Y. Matsubara, R. Neyama, M. Abe, and Y. Sakurai. Multi-aspect mining of complex sensor sequences. In ICDM, 2019. K. Kawabata, Y. Matsubara, and Y. Sakurai. Automatic sequential pattern mining in data streams. In CIKM, pages 1733-1742, 2019. D. P. Kingma and J. Ba. Adam: A method for stochastic optimization. CoRR, abs/1412.6980, 2015. L. Li, J. McCann, N. Pollard, and C. Faloutsos. Dynammo: Mining and summarization of coevolving sequences with missing values. In KDD, 2009. Y. Li, J. Wang, J. Ye, and C. K. Reddy. A multi-task learning formulation for survival analysis. In KDD, pages 1715-1724, 2016. Y. Matsubara and Y. Sakurai. Regime shifts in streams: Realtime forecasting of co-evolving time sequences. In KDD, 2016. Y. Matsubara, Y. Sakurai, and C. Faloutsos. Autoplait: Automatic mining of co-evolving time sequences. In SIGMOD, pages 193-204, 2014. Y. Matsubara, Y. Sakurai, and C. Faloutsos. The web as a jungle: Non-linear dynamical systems for co-evolving online activities. In WWW, pages 721-731, 2015. Y. Matsubara, Y. Sakurai, C. Faloutsos, T. Iwata, and M. Yoshikawa. Fast mining and forecasting of complex timestamped events. In KDD, pages 271-279, 2012. Y. Matsubara, Y. Sakurai, B. A. Prakash, L. Li, and C. Faloutsos. Rise and fall patterns of information diffusion: model and implications. In KDD, pages 6-14, 2012. H. Mei and J. Eisner. The neural hawkes process: A neutrally self-modulating multivariate point process. In NIPS, pages 6757-6767, 2017. Y. Qin, D. Song, H. Chen, W. Cheng, G. Jiang, and G. W. Cottrell. A dual-stage attention-based recurrent neural network for time series prediction. In IJCAI, pages 2627-2633, 2017. T. Rakthanmanon, B. J. L. Campana, A. Mueen, G. E. A. P. A. Batista, M. B. Westover, Q. Zhu, J. Zakaria, and E. J. Keogh. Searching and mining trillions of time series subsequences under dynamic time warping. In KDD, pages 262-270, 2012. J. Rissanen. A Universal Prior for Integers and Estimation by Minimum Description Length. Ann. of Statist, 11(2):416-431, 1983. Y. Sakurai, Y. Matsubara, and C. Faloutsos. Mining and forecasting of big time-series data. In SIGMOD, pages 919-922, 2015. Y. Sakurai, S. Papadimitriou, and C. Faloutsos. Braid: Stream mining through group lag correlations. In SIGMOD, pages 599-610, 2005. I. Sutskever, O. Vinyals, and Q. V. Le. Sequence to sequence learning with neural networks. In NIPS, pages 3104-3112. 2014. Tsungnan Lin, B. G. Horne, P. Tino, and C. L. Giles. Learning long-term dependencies in narx recurrent neural networks. IEEE Transactions on Neural Networks, 7(6):1329-1338, 1996. P. Wang, H. Wang, and W. Wang. Finding semantics in time series. In SIGMOD Conference, pages 385-396, 2011. S.Wang, K. Kam, C. Xiao, S. R. Bowen, and W. A. Chaovalitwongse. An efficient time series subsequence pattern mining and prediction framework with an application to respiratory motion prediction. In AAAI, pages 2159-2165, 2016. S. Xiao, J. Yan, X. Yang, H. Zha, and S. Chu. Modeling the intensity function of point process via recurrent neural networks, 2017. R. Zhao and Q. Ji. An adversarial hierarchical hidden markov model for human pose modeling and generation. In AAAI, 2018. Y. Zhou, H. Zou, R. Arghandeh, W. Gu, and C. J. Spanos. Non-parametric outliers detection in multiple time series A case study: Power grid data analysis. In AAAI, 2018.
 以上説明したように、従来、時系列テンソルデータを対象とし、かつ時系列パターンに関する事前知識を必要とせず、時系列データの特徴的なパターンを用いてイベント予測を行うイベント予測方法乃至システムは提案されていない。
 本発明は、上記に鑑みてなされたもので、時系列テンソルデータを対象とし、データの要約処理を介して、長期的かつ高精度なイベント予測を可能にするイベント予測システム、その方法およびプログラムを提供するものである。
 本発明に係るイベント予測システムは、複数の観測対象にそれぞれ配置された複数種のセンサから継続的に収集される時系列センサデータから多角的な動的パターンのモデルパラメータの抽出を継続的に行う第1の特徴量抽出手段と、前記モデルパラメータを用いて前記時系列センサデータをモデル化情報とその誤差情報とを含む要約情報に順次特徴量化する第2の特徴量抽出手段と、前記要約情報を入力として所定時間先での所定のイベントの発生確率を出力する予測手段とを備えたものである。
 また、本発明に係るイベント予測方法は、コンピュータの第1の特徴量抽出部が、複数の観測対象にそれぞれ配置された複数種のセンサから継続的に収集され、記憶部に記憶された時系列センサデータから多角的な動的パターンのモデルパラメータの抽出を継続的に行って前記記憶部に記憶し、前記コンピュータの第2の特徴量抽出部が、前記モデルパラメータ及び前記時系列センサデータを前記記憶部から読み出して、前記時系列センサデータをモデル化情報とその誤差情報とを含む要約情報に順次特徴量化して前記記憶部に記憶し、前記コンピュータの予測部が、前記要約情報を前記記憶部から読み出して入力とし、所定時間先での所定のイベントの発生確率を出力するものである。
 また、本発明に係るプログラムは、複数の観測対象にそれぞれ配置された複数種のセンサから継続的に収集される時系列センサデータから多角的な動的パターンのモデルパラメータの抽出を継続的に行う第1の特徴量抽出手段、前記モデルパラメータを用いて前記時系列センサデータをモデル化情報とその誤差情報とを含む要約情報に順次特徴量化する第2の特徴量抽出手段、及び前記要約情報を入力として所定時間先での所定のイベントの発生確率を出力する予測手段として、コンピュータを機能させるものである。
 これらの発明によれば、複数の観測対象にそれぞれ配置された複数種のセンサから継続的に時系列センサデータが収集され、収集された時系列センサデータから多角的な動的パターンのモデルパラメータの抽出が、第1の特徴量抽出手段によって継続的に行われる。次いで、第2の特徴量抽出手段によって、前記モデルパラメータを用いて前記時系列センサデータがモデル化情報とその誤差情報とを含む要約情報に順次特徴量化される。そして、予測手段によって、前記要約情報を入力として所定時間先での所定のイベントの発生確率が出力される。従って、時系列センサデータ内に含まれる時系列パターンに関する事前知識を必要とせず、パターン(レジーム)の変化点と潜在的な振る舞いとが、例えば時間遷移と観測対象間の多角的な観点とから把握される。また、大規模な時系列センサデータの特徴的なパターンを発見し、それらを用いて長期間先のイベント予測が可能となる。なお、センサの配置は、観測対象に直接設置され、乃至観測対象を遠隔的に観測可能な態様で設置でもよい。
 本発明によれば、時系列センサデータから多角的に特徴量を抽出して要約することで、簡易な構成で長期的かつ高精度なイベント予測を可能にする。
本発明に係るイベント予測システムの一実施形態を示す全体ブロック図である。 本発明が適用例であるスマート工場データから取り込んだ情報の処理状況の一例を示す図で、(a)は、オリジナルのセンサデータを示し、(b)は、オリジナルデータからのパターン検出結果を示し、(c)、(d)は、オリジナルデータに基づき、所定時間後に非常停止した場合(d)と、そうでない場合(c)との典型的なレジーム例を示した図である。 本発明に係る提案モデルの概要を示す図である。 本発明に係る提案アルゴリズムの基本的な概念を説明するための遷移図である。 予測先のステップ数lsを変化させたときの精度の比較図である。 ネットワーク学習時に使用するミニバッチのウインドウ幅を変化させたときの予測精度の比較図である。 予測結果の適合率(Precision)と再現率(Recall)とを示す比較図である。 検出セグメント数mに対する本予測システムの予測精度の変化を示す図である。 学習サンプル数と予測精度との関係性を示す図である。 設備数w、センサ数d、シーケンス長nをそれぞれ変化させたときの本予測システムの計算コストを示す図である。
 本発明は、好ましくは大規模の時系列センサデータのためのイベント予測手法に関する。本発明は、一例として、(facility, sensor, time)の3つ組で構成される、例えば工場設備センサデータから、複数の観点に基づく多角的な時系列パターンを統合的に解析要約し、将来の長期的なイベント予測を行う技術に関する。より具体的には、工場に取り付けられた各設備における回転速度、稼働電圧、設備温度などのセンサデータの実測値で構成される時系列データが与えられたとき、(a)基本的な時系列パターン、各設備間における共通パターンや設備固有のパターンを抽出し、統計的に要約することで、(b)将来的なイベント予測を行う。さらに、これらの処理は、(c)データサイズに対して線形である。なお、後述するように、実データを用いた実験では、本予測手法が工場設備のセンサデータに含まれる特徴的な時系列パターンを多角的に捉え、長期的なイベント予測を行うことを確認し、さらに、後述するように最新の既存手法(比較例)と比較し、大幅な精度、性能向上を達成していることを明らかにした。
 すなわち、本予測システムは、時系列データに含まれる典型的なパターン(以下、レジームという)の数と変化点とを多角的に捉え、システムの稼働状況を正確に把握することで、将来発生するイベントを予測する。より具体的には、複数箇所の設備で複数のセンサから収集された大規模時系列センサデータが与えられたとき、所定時間後すなわちlsステップ先のイベントを予測する。
 さらに具体的には、(a)センサデータの中から多角的なパターンとその変化点を検出し、それらを要約情報としてまとめることで、(b)長期的かつ高精度な予測の実現に供する。さらに、(c)これらの処理を高速に行う。
 以下、図面を参照して本発明を説明する。図1は、本発明に係るイベント予測システム(以下、予測システム1)の全体ブロック図を示す。本予測システム1は、例えば工場などの複数の設備としての観測対象20,…に設置されたそれぞれのセンサ群21からの、稼働状況に関連する大規模時系列センサデータを有線又は無線の通信路を介して収集する構成と、取り込んだ各時系列データから特徴量を抽出し、さらに所定時間後でのイベント予測処理を実行するプロセッサ(CPU)からなる制御部10を有するコンピュータとを備えている。また、本実施形態では、機械学習を利用しており、予測処理に適用されるパラメータを、機械学習を通して更新するようにしている。図1の詳細は後述する。
 まず、予測処理の理解のために、図2に記載された具体例で説明する。図2は、観測対象20(図1)の一例としてのスマート工場からのセンサデータであって、予測処理に供する(入力するための)情報を示している。図2(a)は、オリジナルのセンサデータを示しており、5つの設備(#1~#5)からの、各センサ群21(図1)の一例として収集される3つのセンサ値(回転速度:Speed、稼働電圧:Load、設備温度:Temp)で構成されている。図2(a)中、黒矩形で塗られた箇所は、対応する設備が非常停止中であることを示す。なお、図2(a)の稼働電圧:Loadの波形は、回転速度:Speedの波形とおおむね重複している。図2(b)は、本予測システムによる、オリジナルデータからのパターン抽出結果を示している。図2(b)中の縦線は、時系列パターンが変化した時刻を示し、同一レジームに属するセグメントは同一の濃淡色で表されている。予測システム1は、複数の設備から得られた時系列データを同時に解析することにより、多角的なパターン、すなわち、各設備内のパターンの時間遷移だけでなく、設備間で共通あるいは相違するパターンを検出することが可能である。
 図2(c)(d)には、オリジナルデータの中から、ls = 200ステップ(約17分)後に非常停止した場合とそうでない場合との典型的な例を示した。図2(c)(d)の左側は、セグメンテーション結果を示す。右側のθ1~θ5は、それぞれ共通の時系列パターン(すなわちレジーム)を表し、それらの遷移の様子を可視化したものである。p200の値は、図2(c)(d)の左側の図にあたる部分シーケンスとそのパターン検出結果が与えられたとき、本予測システムが出力した200ステップ先での非常停止確率である。図2(c)(d)の右側の図において、より多くの遷移が検出されたレジーム間には、太い矢印が表示される。また、円の大きさはレジームの発生期間の大きさを示す。図2(d)を見ると、設備が非常停止する前に回転速度Speedが上昇(θ5)しており、その傾向はレジームθ4、θ5の遷移が現れることによって表現されている。実際に、本予測システム1は、非常停止を正確に予測し、p200が高い値を示している。すなわち、データに含まれる潜在的なパターンを検出することで、非常停止に至る過程を多角的に分析できるだけでなく、それらの要約情報を用いることで長期的かつ高精度な予測が可能となる。なお、図2(c)では、レジームθ2、θ3、θ2、θ1、θ2のような非常停止の予兆のない遷移が見られ、p200も低い値を示している。
 本予測システム1で扱う工場設備センサデータの一例として、三菱重工エンジン&ターボチャージャ株式会社で、2017年10月1日に稼働した55設備における3種類のセンサデータを示す。本データは、(facility, sensor, time) の3つ組で表現され、それぞれ、w個の設備、d種のセンサ、nの期間(例えば5秒単位)からなる。かかるセンサデータは、3階のテンソルX ∈ Rw×d×nとして表現することができ、テンソルXの要素xij(t)は、時刻tにおけるi番目の設備のj番目のセンサでの計測値を示す。本実施形態では、かかるセンサデータを多次元時系列テンソルと呼ぶ。
 本予測システム1は、与えられた時系列テンソルXから、lsステップ先の設備アラートを予測するものであり、そのために必要な処理を以下に示す。
 すなわち、時系列テンソルX(ts:te)が与えられたとき、lsステップ先のアラートラベルy(te+ls)を次の式(1)に基づいて予測する。
   у(te+ls) ≒F(X(ts:te))    (1)
 なお、ts:teは、予測に使用するシーケンスのウインドウ(現時点から過去方向に所定の期間)を表し、Fを提案モデルとする。
 ここでは、アラートラベルy(te+ls)を高精度に予測するために、確率モデルと深層学習に基づくモデルを構築し、与えられたセンサデータから、例えば故障(アラート)の要因となる高次元かつ非線形な動的特性を抽出する。具体的には、本予測システム1は、次の3つの処理(P1),(P2),(P3)を実行する。
(P1) 潜在的な動的パターンの多角的な検出
(P2) 動的パターンに基づく特徴抽出
(P3) lsステップ先の長期予測
 まず、各処理(P1),(P2),(P3)について、図1との関連を説明する。図1において、制御部10には、記憶部100、例えば後述するウインドウの表示を行うなどの表示部121、及び外部からの指示を受け付ける操作部122が接続されている。記憶部100は、制御プログラム記憶部101、各センサ群21から入力される時系列センサデータを記憶するデータストリーム記憶部102、及び予測処理に適用される、人工知能(AI)を構成するニューラルネットワークモデルのパラメータ(各エッジの重みなど)を記憶するパラメータ記憶部103を備える。制御プログラム記憶部101は、後述するイベント予測処理を実行するためのプログラムデータ及び必要な各種の演算式データを格納する。また、記憶部100は、データストリーム記憶部102の他、後述する各処理「(P1)潜在的な動的パターンの多角的な検出」、「(P2)動的パターンに基づく特徴抽出」及び処理「(P3)lsステップ先の長期予測」の実行中に得られる夫々のデータを一時的に保管するワークエリア(記憶部)を有する。
 制御部10は、制御プログラムが実行されることで、データ取込処理部11、特徴量抽出部12、予測部13、及びパラメータ更新部14として機能する。データ取込処理部11は、各観測対象20(工場の各設備)のセンサ群21からの時系列センサデータをネットワーク110を経由して取り込む。
 特徴量抽出部12は、後述する、処理「(P1)潜在的な動的パターンの多角的な検出」、及び「(P2)動的パターンに基づく特徴抽出」を実行する。予測部13は、処理「(P3)lsステップ先の長期予測」を実行する。本実施形態では、予測部13は、パラメータ記憶部103からのパラメータを適用して予測処理を行う。各処理の詳細は後述する。
 機械学習装置30は、プロセッサを内蔵するコンピュータからなる制御部300、記憶部310を備えると共に、表示部321、操作部322を備える。記憶部310は、学習プログラム記憶部311、データストリーム記憶部312及びパラメータ記憶部313を備える。データストリーム記憶部312は、各センサ群21から入力される時系列センサデータを通信で、または外部メモリを介して取り込んで、あるいはデータストリーム記憶部102に一旦書き込まれたデータを取り込んで記憶する。
 制御部300は、学習プログラム記憶部311からの学習プログラムが実行されることで、データ取込処理部301、特徴量抽出部302及び機械学習部303として機能する。データ取込処理部301は、データ取込処理部11と同様で、さらに取り込みデータの取り込み期間を適宜に自動乃至マニュアルで設定(例えば直近の1週間分など)可能である。特徴量抽出部302は、必要に応じて設けられ、例えば工場設備の変更その他の状況変化に応じて前記処理(P1)、(P2)の条件を適宜調整して処理を確認する。
 機械学習部303は、好ましくは直近の所定期間分の時系列センサデータに対して、例えば「教師あり学習」などを適用して機械学習を行い、学習結果であるパラメータをパラメータ記憶部313に保管し、かつ必要に応じてパラメータ更新部14を介して、あるいは機械学習装置30の操作部322からの指示を受けてパラメータ記憶部103を更新する。なお、機械学習は、別体の機械学習装置30の態様の他、各種の態様が採用可能である。例えば、入力データは、データストリーム記憶部102から所定期間分を取り出すようにしてもよい。また、システム停止期間(例えば夜間)を利用するなどして、予測部13を利用して学習を実行し、学習結果であるパラメータを更新する態様でもよい。
 次に、「提案モデル」の概要と必要な定義を、表1のように示す。
Figure JPOXMLDOC01-appb-T000001
<提案モデル>
(P1) 潜在的な動的パターンの検出
 多次元時系列テンソルXが与えられたとき、本予測システムはまず、Xをm個のセグメント集合S={s1,. . . ,sm}に分割してその特徴をとらえる。siはi番目のセグメントの開始点ts、終了点te、設備番号で構成され(すなわち、s= {ts,te,facilityID})、各セグメントは重複がないものとする。そして、発見したセグメント集合を類似セグメントのグループに分類する。本予測システムではこれらのグループを「レジーム」と呼ぶ。
 ・定義1(レジーム)
 rを最適なセグメントグループの個数とする。それぞれのセグメントsは、セグメントグループの1つに割り当てられる。さらに、各セグメントが所属するレジームを表現するため、新たにセグメントメンバーシップを定義する。
 ・定義2(セグメントメンバーシップ)
 多次元時系列テンソルXが与えられたとき、F={f1, . . . ,fm}を、m個の整数列とし、fiをi番目のセグメントが所属するレジームの番号とする(1≦ fi≦r)。
 これにより、多次元時系列テンソルXをm個のセグメントとr個のレジームとで、{m,r,S,Θ,F} として表現することができる。次に、本予測システムは、得られたレジーム情報に基づき、多次元時系列テンソルXを統計モデル化し、重要な特徴を抽出する。
(P2)動的パターンに基づく特徴抽出
 それぞれのレジームは、統計モデルΘ={θ1, . . . ,θrr×r}として表現される。本研究では、多次元時系列テンソルXの振る舞いを表現するため、隠れマルコフモデル(HMM:Hidden Markov Model)を用いる。HMMは、隠れ状態を持つマルコフ過程を仮定した確率モデルの一種であり、音声認識を含む様々な分野において、時系列処理手法として広く利用されている。HMMは、初期確率Π={πi}k i=1、遷移確率A={aij}k i,j=1、出力確率B={bi(x)}k i=1の3つ組で表現される(すなわち、θ={Π,A,B})。ここで、kは、HMMの潜在状態数を示す。本予測システムでは、出力確率Bが多次元ガウス分布から生成されるものとする。これにより多次元ベクトルのシーケンスを確率モデルで表現する(すなわちB~{N(μi2 i)}k i=1)。HMMのモデルパラメータθ={Π,A,B}と、入力データとしてあるユーザのシーケンスхが与えられた時、хの尤度P(х|θ)は、次式(数1)のように計算される。
Figure JPOXMLDOC01-appb-M000002
 ここで、pi(t)は、時刻tにおける潜在状態iの最大確率を示し、nは、хのシーケンス長である。この尤度は、図4に示す遷移図に基づき、動的計画法の一種であるビタビアルゴリズム(非特許文献7)を用いて計算される。ここでさらに、新たな概念としてレジーム遷移行列Δr×rを導入する。
 ・定義3(レジーム遷移行列)
 Δr×rをr個のレジーム群の遷移行列と呼ぶ。ここで、要素δij∈Δ は、i番目のレジームからj番目のレジームへの遷移確率を示す。すなわち、0≦δij≦1,Σjδij = 1という条件を持つ。上記のモデルを用いて、多次元時系列テンソルXを、以下に示すHMMの潜在状態系列Zとモデル化した際の誤差εとで要約し、特徴量化することで、高精度かつ長期的な予測を実現する。
 ・定義4(潜在状態テンソル)
 設備ごとのHMMの潜在状態系列Z={Z1,. . . ,Zw}を潜在状態テンソルと呼ぶ。ここで、Zi={zij(1),. . . ,zij(n)}d j=1 であり、zij(t)は、自身と同じ潜在状態に属するデータ集合xの平均と分散の組{μ,σ}で構成される。
 ・定義5(誤差テンソル)
 多次元時系列テンソルXを潜在状態テンソルZでモデル化した際の誤差ε={E1, . . . ,Ew}を誤差テンソルと呼ぶ。本予測システムでは、HMMの出力確率Bが多次元ガウス分布に従うと仮定しているため、i番目の設備のj番目のセンサにおける時刻tでの誤差eij(t) ∈ Ei は、以下の(数2)ように表現される。
Figure JPOXMLDOC01-appb-M000003
 すなわち,時系列テンソルXを、(P1)で得られたレジーム情報{m,r,S,Θ,F} に基づきX≒IGPDF(Z,ε)となるような潜在状態テンソルZと誤差テンソルεとによって要約し、重要な特徴を抽出する。ここで、IGPDF(Inverse Gaussian Probability Density Function) は、ガウス分布における確率密度関数の逆関数を表す。
(P3)lsステップ先の長期予測
 結論として、前記式(1)は、以下の式(2)のように書き換えられる。
Figure JPOXMLDOC01-appb-M000004
 ここで、Fは、予測モデルを表す。すなわち、時系列テンソルXが与えられたとき、提案手法は、Xを潜在状態テンソルZと誤差テンソルεとで要約することで重要な特徴を抽出し、それらに提案モデルFを適用し、lsステップ先の長期的な予測を高精度に行う。
<処理(P1),(P2),(P3)についてのアルゴリズム>
 上記では、多次元時系列テンソルXを要約し、効果的に予測するための提案モデルについて述べた。ここでは、前記式(1)を解決するためのアルゴリズムについて説明を行う。ここで問題となるのは、どのようにレジームやセグメントの数を決定するかである。本予測システムは、最小記述長(MDL:Minimum Description Length)の概念に基づき、適切なモデルを生成するための基準となる符号化スキームを導入する。
1.モデル選択とデータ圧縮
 直感的には、データが与えられたときのモデルのよさは、次の式(3)で表現できる。
Figure JPOXMLDOC01-appb-M000005
 ここで,CostM(M)は、モデルMを表現するためのモデルコストを示し、CostC(X|M) は、モデルMが与えられたときのテンソルXの符号化コストを示す。αは、符号化コストに対する重み(デフォルトでは、α=1)であり、αの値が大きいほどより実データに正確なモデルを生成する(すなわち、セグメントの数m、レジームの数rが大きくなる)。
 ・モデルコスト
 具体的には、本予測システムの全パラメータ集合の表現コストは、以下の要素で構成される。
Figure JPOXMLDOC01-appb-M000006
 なお、上記*2に示すlogは、整数のユニバーサル符号長を表し、log(x)≒log(x)+loglog(x)+…である(非特許文献23)。また、浮動小数点のコストをcFとすると、k個の状態を持つ単一のレジームパラメータθは、CostM(θ)=log(k)+cF(k+k2+2kd)、レジーム遷移行列Δは、CostM(Δ)=cFr2のコストを要する。
・符号化コスト
 モデルパラメータが与えられたときのXの符号化コストは、ハフマン符号を用いた情報圧縮により、負の対数尤度を用いて次の(数6)のように表現することができる。 
Figure JPOXMLDOC01-appb-M000007
 ここで、iと(i-1)番目のセグメントは、それぞれuとv番目のレジームに所属するものとし、X[si]は、Xに含まれるセグメントsiで構成される部分シーケンスを表す。P(X[si]|θu)は、θuが与えられたときのX[si]の尤度とする。結論として、提案アルゴリズムは、前記式(3)を最小化するようにXに含まれる時系列パターンの数rとその変化点の数mを決定する。
 次いで、データをコスト関数に基づき要約しながら、長期的なラベル予測を実現するための具体的なアルゴリズムについて詳述する。
2.アルゴリズムの概要
 本予測システムは、次のアルゴリズムで構成される。
 ・REGIMEGENRATION (P1):テンソルXに含まれる時系列パターンの種類と変化点を検出する。各時系列パターンのダイナミクスをモデルパラメータΘとして表現し、モデルパラメータ集合{m,r,S,Θ,F}を得る。
 ・FEATUREEXTRACTION (P2):時系列パターンの要約情報{m,r,S,Θ,F}を用いて、オリジナルテンソルXを潜在状態テンソルZと誤差テンソルεとで表現する。
 ・SPLITCAST (P3):{Z,ε}のうち、あるウインドウts:teの部分シーケンス{Z(ts:te),ε(ts:te)}から故障の予兆となる特徴を抽出し、ls先の故障ラベルy(te+ls)を予測する。
 図3は、提案モデルの概要を示す。テンソルXが与えられたとき、提案手法は、Xの時系列パターンの時間遷移と設備固有のパターンを捉え,それに基づいてXを{Z,ε}で要約する。最終的に、得られた{Z,ε}からlsステップ先でのアラートラベルを予測し、出力する。
3.RegimeGeneration(P1)
 ここではアルゴリズムの詳細を述べる。時系列解析における根本的な問題は、時系列データに内在する隠された構造があるかどうかである。ここで扱う多次元時系列テンソルXは、複数の観点からの特徴を持つ。すなわち、時間ドメインの特徴と設備ドメインの特徴である。具体的には、スマート工場から得られる時系列センサデータは、各工程の時間遷移パターンと、設備固有のパターンとを持つ。そこで、以下では、与えられた時系列テンソルの根底にある構造を簡潔に要約した、多角的なパターン発見と、グループ化を同時に行う。
 ここで、時系列テンソルの多角的解析のためのアルゴリズムであるV-SplitとH-Splitを提案する。V-Splitは、時間方向の観点からレジームを推定し、H-Splitは、設備ごとの特性をレジームとして表現する。これら2つのアルゴリズムを任意方向に行うことで効率的かつ効果的に重要なパターンを多角的に発見し、レジームとして要約する。具体的には、式(3)に基づき、以下の2つのアルゴリズムを繰り返す。
 ・V-Split:テンソルXから時間遷移するパターンとその変化点を検出し、2つのグループ(すなわちレジーム)に分割する。それら2つのレジームに対し、モデルパラメータ{θ12,Δ}を推定する。
 ・H-Split:テンソルXに表れる、ある1つのレジームから設備ごとの特徴を抽出し、2つのレジームに分割後、それらのレジームのモデルパラメータを推定する。
 上記のアルゴリズムにより、r = 1, 2, . . . とレジーム数が変化していく。もし、レジームθ0を2つのレジーム{θ12}に分割した際、コスト関数(式(3))の値が大きくなればθ0は最適とみなし、それ以上分割しない。生成された全てのレジームについて同様にコスト計算を繰り返し、コストが下がらなくなるまで上記の分割アルゴリズムを繰り返す。最終的に、コストが収束したときのセグメント、レジーム、モデルパラメータ{m,r,S,Θ,F}を出力して、RegimeGenerationを終了する。
 続いて、分割アルゴリズムV-Split、H-Splitのそれぞれについて述べる。
 (3-1)V-Split
 多次元時系列テンソルXが与えられたとき、V-Splitは時間遷移の観点から2つのレジームを検出し、それらのモデルパラメータ{θ12,Δ}を推定する。高精度なモデルを生成するため、本予測システムは、セグメント/レジームの検出とモデルパラメータの更新を以下のように繰り返し行う。
 ・(Phase 1) V-Assignment:2つのモデルパラメータが与えられたとき、それらに基づいて2つのセグメントセット{S1,S2}とパターンの変化点とを抽出する。
 ・(Phase 2) ModelEstimation:2つのセグメントセットが与えられたとき、それらに基づいてモデルパラメータ{θ12,Δ}を更新する。
Figure JPOXMLDOC01-appb-T000008
 V-Splitの概要をアルゴリズム1(表2)に示す。上記のアルゴリズム1は期待値最大化法(EM:Expectation maximization)に基づいており、それぞれのフェーズがE,Mステップに対応している。
 まず、最も単純な部分問題として、テンソルXと2つのモデルパラメータ{θ12,Δ}が与えられている場合を考える。V-Assignmentは、レジームのモデルパラメータに基づき、Xのパターンの変化点を検出することができる(表2のステップ5~7)。提案アルゴリズムの基本的な概念を説明するため、図4の遷移図を示す。2つのレジーム{θ12}の遷移を接続し、時刻ごとに2つのレジームの符号化コストを比較しながら、与えられたレジーム間のパターン遷移を推定する。本アルゴリズムは動的計画法の一種であるビタビアルゴリズム(非特許文献7)に基づき、符号化コストCostT(X|Θ)=-ln P(X|Θ)を計算する。具体的には、尤度P(X|Θ)は、次の(数7)ように計算される。
Figure JPOXMLDOC01-appb-M000009
 ここで、P(X|Θ)iは、i番目のレジームθiへ遷移する時の尤度を示す。例として、P(X|Θ)1は、次の(数8)ように計算される。
Figure JPOXMLDOC01-appb-M000010
 ここで、p1;i(t)は、時刻tでのレジームθ1の潜在状態iの最大確率を表し、δ21は、レジームθ1からθ2へのレジーム遷移確率、maxu{p2;u(t-1)}は、前時刻t-1でのθ2の尤もらしい潜在状態である確率、π1;iは、θ1の潜在状態iの初期確率、b1;i(x(t))は、θ1の潜在状態iに対するx(t)の出力確率、そしてa1;jiは、θ1の潜在状態iから潜在状態jへの遷移確率を表す。ここで、時刻t=1において、レジームθ1である確率は、p1;i(1)=δ11π1;ib1;i(x(t))で与えられる。なお、モデルパラメータの推定には、BaumWelchアルゴリズム(非特許文献1)を用い、レジーム遷移確率Δ={δ11122122}を次の(数9)のように計算する。
Figure JPOXMLDOC01-appb-M000011
 ここで、Σs∈S1 |s|は、レジームθ1に所属するセグメントの長さの総和を表し、N12は、θ1からθ2へのレジームの切り替え回数を示す。δ2122についても同様に計算できる。
 (3-2)H-Split
 これまで、時系列テンソルXの中から時間方向の特徴を捉えるためのアルゴリズム1のV-Splitについて説明した。現実問題として、時系列テンソルXは、パターンの時間遷移だけでなく、設備ごとの個体差を持っている。例えば、ある2つの設備において、同じ部品を加工する場合であっても、工程ごとに設備間でのセンサデータの振る舞いに個体差が生じる。本予測システムでは、このような設備固有の特徴を捉え、効果的にモデル化するためのアルゴリズムであるH-Splitを提案する。直感的には、本アルゴリズム2は、V-Splitと同様に、(Phase 1)レジーム分割と(Phase 2)モデル推定との2つのフェーズを繰り返し行うことで、適切なレジームとそのモデルパラメータを推定する。V-Splitと異なるのは、設備固有の特徴を捉えるためのアルゴリズムH-Assignment(Phase 1)である。H-Assignmentの概要をアルゴリズム2(表3)に示す。なお、(表3)に示すアルゴリズムは、(表2)中のステップ5の「V-Assignment」に対応する部分に該当し、H-Splitは、H-Assignmentに置き換えた内容で(表2)を実行すればよい。
Figure JPOXMLDOC01-appb-T000012
 これまでの典型的なクラスタリングアルゴリズムと異なり、H-Assignmentは、効果的に設備固有のパターンを抽出する。具体的には、テンソルXとモデルパラメータ{θ12}が与えられたとき、アルゴリズム2は、設備iのセグメントをあるレジームθに割り当てたときの符号化コストを以下の(数10)のように計算し、よりコストが小さくなるレジームに設備iのセグメントを割り当てる。
Figure JPOXMLDOC01-appb-M000013
 ここで、X[i]={s1, s2,. . . }は、設備iのセグメントのセットである。すなわち、同じ設備のセグメントは同じレジームに属するよう制約されている。
4.FeatureExtraction(P2)
 ここまでは、多次元時系列テンソルから任意のタイミングで変化する時系列パターンを多角的に検出するためのアルゴリズムについて説明した。次に、故障発生の長期的な予測を実現するために、時系列データから故障の原因、あるいは予兆を示す特徴を抽出することである。一般に、高いサンプリングレートで収集されるセンサデータは、多くのノイズを含み、監視するシステムが複雑であるほどその正確なふるまいをモデル化することが難しくなる。そこで本予測システムでは、時系列パターンの特徴を利用してXを抽象化し、故障の予兆を効果的に抽出する手法を提案する。具体的には、時系列テンソルXとモデルパラメータ集合{m,r,S,Θ,F}とが与えられたとき、Xを時系列パターンに基づく潜在状態テンソルZとモデル化した際の誤差テンソルεとに分割する。
 今、r個のレジーム集合Θ={θ1, . . . ,θr}が与えられたとすると、各時刻tにおける、設備iのデータxi(t)={xij(t)}d j=1は、Θ内のレジームのいずれかの状態zi(t)に変換される。ここで、zi(t)は、自身と同じ状態に属する全データポイントの平均と分散の組{μ,σ}を示す。すなわち、潜在状態テンソルの次元は、Z∈Rw×2d×nとなる。続いて、Θが与えられたときの、時刻tにおける設備iのセンサjの計測値xij(t)∈Xの符号化誤差を事後確率p(xij(t)|θ)で表現する。すなわち、時系列テンソルX全体の符号化誤差は、ε∈Rw×d×nである。最終的に、2つの特徴を結合した系列X’∈Rw×3d×nを出力する。以上の処理により、入力データの情報を失うことなく、学習モデル推定の際に時系列方向の潜在的なふるまいを考慮することができる。
5.SPLITCAST(P3)
 本予測システムの最終的な目標は、与えられた時系列テンソルXから、lsステップ先の長期的な予測を高精度に行うことである。ラベル予測タスクの典型的な手法として、近年では深層学習に基づく手法が数多く提案されている。深層学習に基づく手法は、中間層を多層にしたり、中間層のユニット数を増やしたりすることで柔軟な学習を実現できる一方、層数やユニット数が増えるほど学習パラメータが多くなり計算時間が長くなる。また、過学習の問題もあり、問題を解決するためのテクニックが数多く存在する一方、どれも経験則に基づくものであり、人手を介した非常に細かなチューニングが必要となる。そこで本予測システムは、確率モデルに基づく特徴抽出手法と深層学習手法を組み合わせ、実データから抽出された特徴的な時系列パターンを学習することで、より小さなネットワークで学習でき、過学習の問題を軽減しながら効率的かつ効果的なアラートラベル予測を実現する。
 具体的には、テンソルX’={Z,ε}の時間発展の様子をモデル化するために、図3に示すように、LSTM(Long-short term memory)(非特許文献9)を適用する。LSTMは、入力サンプルを時系列データとして扱い、高次元の非線形ダイナミクスを学習可能にする深層学習モデルのひとつである。LSTMは、RNN(Recurrent neural network) の中間層のユニットをメモリユニットと呼ばれる特殊な構造に置き換えたもので、入力ゲート、出力ゲート、忘却ゲートの3種類を使用して時刻tのユニット値ctとユニットの出力値htとを制御する。各ゲートの出力値をそれぞれit, ot, ftとすると、LSTMの順伝播は、以下の式(数11)で表される。
Figure JPOXMLDOC01-appb-M000014
 本予測システムでは、活性化関数にsigmoid関数を使用する。LSTMは、公知のように、メモリユニットによって与えられた入力系列の長期依存性を学習することができるため、レジーム遷移とレジーム内部の状態遷移の過程で設備故障に対して特に重要な特徴を記憶しながら、設備の最新の稼働状況を要約した特徴ベクトルを抽出すると考えられる。
 最後に、htを用いてlsステップ先のラベル予測を行う。本実施形態では、時刻tにおける最新の部分シーケンスからのls先の故障予測を2クラス分類タスクとして扱い、出力を時刻t+lsにおける故障発生確率とする。したがって、本予測システムの最終的な出力は、(数12)で示すようになる。
Figure JPOXMLDOC01-appb-M000015
 また、本予測システムにおけるモデルが最小化すべき目的関数は、BCE(Binary cross entropy)となり、モデル学習時のバッチサイズをN、各入力サンプルiに対する本予測システムにおける出力値をy^ iとすると、(数13)で示すように表される。
Figure JPOXMLDOC01-appb-M000016
 ここで重要な点として、本予測システムは、比較的小さなユニット数(=10)、かつシンプルな構造のモデルを用いながら、以下の評価実験に示すように、非常に高い性能を示している。
(5-1)理論的な分析
 本予測システムでの計算量は、データサイズに対し線形(O(wdn))である。以下、この補助(実質的な)定理について説明する。
 各反復処理において、V-Assignment、H-Assignment、およびModelEstimationは、符号化コストとモデルパラメータの推定のためにO(wdnk2)の計算量を要する。ここで、wは設備数、dは次元数、nは時系列の長さ、kはレジーム{θi}r i=1の中の隠れ状態の数を示す。よって、RegimeGeneration (P1)の計算量は、O(#iter wdnk2)である。ここで、反復回数#iterと隠れ状態の個数kとは非常に小さい定数であるため、無視することができる。よって、RegimeGeneration の計算量は、O(wdn)となる。FeatureExtraction (P2)においては、各設備、各センサ、各時刻の潜在状態とモデル化した際の誤差を出力するため、計算量はO(wdn)である。最終的に、得られたモデルをユニット数uのLSTMで学習する際、計算量はO(u2 wdn)となる。ここで、本予測システムにおいては、複雑なニューラルネットワークを想定しておらず、ニューラルネットワークのユニット数uは、非常に小さい定数であるため無視できる。従って、本予測システムでの計算量はO(wdn)である。
<評価実験>
 本予測システムの有効性を検証するため、図2の具体例を適用して、実データを用いた実験を行った。本実験では、以下の項目について検証した。
(1)設備故障の長期的予測に対する提案手法の精度
(2)設備のリアルタイム監視に対する計算時間の検証
実験は128GBのメモリ、NVIDIA TITAN V 12GBのGPU搭載のLinux(登録商標)(Ubuntu 18.04 LTS)マシン上で実施した。また、データセットは、平均値と分散値で正規化(z-normalization)して使用した。
1.本予測システムの予測精度
 与えられた時系列テンソルに対する故障予測精度について検証した。比較例として、一般的な2値予測モデルであるロジスティック回帰(LR:Logistic regression)(非特許文献1)と再帰型ニューラルネットワークモデルであるRNN(Recurrent neural network)、GRU(Gated recurrent unit)(非特許文献4)、LSTMとを採用した。LRでは、他の再帰型モデルを推定する際にミニバッチとして与える部分シーケンスから平均値、分散値、最大値、最小値を算出し、4次元の特徴ベクトルとしてラベル予測を行った。RNN,GRU,LSTMでは、実データを入力としてラベル予測を行った。
 本予測システムに関して、予測ステップ数200、ウインドウサイズ400、符号化コストの重み(α=)1.0をデフォルトとして実験を行った。また、本予測システム(Proposed、図5)を含むすべての再帰型モデルについて、中間層のユニット数を10、出力層のユニット数は5とし、最適化アルゴリズムにはAdam(非特許文献12)を使用した。 評価指標にはAccuracyを使用し、5分割交差検証を行なった際の平均値を比較した。
 使用したデータセットは、三菱重工エンジン&ターボチャージャ株式会社で2017年10月から3ヶ月間実際に稼働し、ベアリング・ハウジング加工を行っていた55の工場設備に取り付けられた、回転速度(Speed)、稼働電圧(Load)、設備温度(Temp) の3つのセンサによって5秒間隔で取得されたものである。スライディングウインドウで学習用サンプルを生成しており、設備自体が稼働していないときのサンプルは省いている。正常稼働時のサンプル数が62983、非常停止前のサンプル数が1069あり、学習に偏りが生じるため、非常停止時のサンプル数に正常稼働時のサンプル数を揃え、結果として1069×2サンプルを用い実験を行った。
 (1)予測先ステップ数を変化させたときの予測精度
 図5は、予測先のステップ数lsを変化させたときの精度の比較図である。図中、比較例の種別表記とデータ表示順(左右)とは対応している。本実験は、異なるlsごとにサンプルを生成し、学習と予測を行った。比較例は、ランダムに予測した場合と同程度(Accuracy=0.5)の予測精度を示す一方で、本予測システムでは、いずれの条件下でも優れた性能を示している。この結果から、非常停止の要因は、温度の上昇や稼働電圧の低下といった単純なものではなく、非線形性を有する複雑な事象だと考えられる。本予測システムは、実データに含まれる時系列パターンを考慮して各時刻のダイナミクスを捉えることができるため、他の再帰型モデルと比べて効果的に非常停止の要因を抽出することに成功した。
 (2)ウインドウサイズを変化させたときの予測精度
 図6は、ネットワーク学習時に使用するミニバッチのウインドウ幅を変化させたときの予測精度の比較図である。本予測システムは、異なるウインドウ幅のデータに対しても安定して高い性能を示している。
 (3)予測結果の適合率と再現率
 図7は、予測結果の適合率(Precision)と再現率(Recall)とを示す図である。適合率は、予測されたイベントの合計数とそのうち正解であったイベントの合計数の割合を示す。再現率は、全てのイベントの正解値の数と予測されたイベントの中で正解した合計数の割合を示す。両者とも、精度が高い場合には、1に近づく。本予測システムはどちらの指標に対しても優れた性能を示している。
 (4)発見セグメント数に対する予測精度
 図8は、検出セグメント数mに対する本予測システムの予測精度を示す図である。符号化コストの重みであるαを、0.1~10まで変化させながら、検出セグメント数を増減させた。図8に示すように、本予測システムによって分割したセグメントの数によって予測精度は大きく変化している。mが小さい場合、時系列データから十分な要約情報を得ることができず予測精度が低下している。また、mが大きい場合にも同様に、要約情報が実データに近づくため予測精度が低下している。この結果からも、時系列テンソルからのパターン検出が故障予測の精度向上に有効であると考えられる。本実験では、m=1000のとき、最も良い結果(Accuracy=0.88)が得られた。結論として、本予測システムは比較例に対し、平均して約62%もの精度向上を達成した。
 (5)学習サンプル数と予測精度の関係
 実運用において、学習サンプルが少ない場合、十分な精度を得られない可能性がある。図9は、学習サンプル数と予測精度との関係性を示す図である。本予測システムは、少ないサンプル数においても比較例より高い性能を示しており、学習サンプル数が増大するにつれて、より高い精度で故障イベントを予測することができている。
2.提案手法の計算速度
 図10は、設備数w、センサ数d、シーケンス長nをそれぞれ変化させたときの本予測システムの計算コストを示す図である。より具体的には、入力データを時系列パターンに分割し、モデルの学習を10 epoch分、終えたときの計算時間である。本予測システムは、与えられた時系列テンソルから効率的に時系列パターンを検出するため、すべての実験においてデータサイズに線形な計算量であり(すなわち、O(wdn))、大規模センサデータの解析に適した手法であることが分かった。
 以上のように、本予測システムは、例えば工場設備で得られた実データを用いて実験を行い、本予測システムが複雑な時系列パターンを適切にモデル化し、長期的な故障予測を高精度に行えることが確認でき、さらに既存の比較例と比較して大幅な精度と性能の向上を達成していることが確認できた。
 なお、本発明は、工場設備に対するアラートイベントの予測に限らず、車載の各種センサを利用して各車両の走行状態による故障などのアラートラベル予測、各種の生体情報に基づくアラートラベルの予測などに適用可能である。また、アラートラベルは、不良、故障、品質低下の他、適用対象に応じて種々のアラート内容を設定することが可能である。また、予測処理は、人工知能(AI)に限定されず、他の手法を採用してもよい。
 以上説明したように、本発明に係るイベント予測システムは、複数の観測対象にそれぞれ配置された複数種のセンサから継続的に収集される時系列センサデータから多角的な動的パターンのモデルパラメータの抽出を継続的に行う第1の特徴量抽出手段と、前記モデルパラメータを用いて前記時系列センサデータをモデル化情報とその誤差情報とを含む要約情報に順次特徴量化する第2の特徴量抽出手段と、前記要約情報を入力として所定時間先での所定のイベントの発生確率を出力する予測手段とを備えることが好ましい。
 また、本発明に係るイベント予測方法は、コンピュータの第1の特徴量抽出部が、複数の観測対象にそれぞれ配置された複数種のセンサから継続的に収集され、記憶部に記憶された時系列センサデータから多角的な動的パターンのモデルパラメータの抽出を継続的に行って前記記憶部に記憶し、前記コンピュータの第2の特徴量抽出部が、前記モデルパラメータ及び前記時系列センサデータを前記記憶部から読み出して、前記時系列センサデータをモデル化情報とその誤差情報とを含む要約情報に順次特徴量化して前記記憶部に記憶し、前記コンピュータの予測部が、前記要約情報を前記記憶部から読み出して入力とし、所定時間先での所定のイベントの発生確率を出力することが好ましい。
 また、本発明に係るプログラムは、複数の観測対象にそれぞれ配置された複数種のセンサから継続的に収集される時系列センサデータから多角的な動的パターンのモデルパラメータの抽出を継続的に行う第1の特徴量抽出手段、前記モデルパラメータを用いて前記時系列センサデータをモデル化情報とその誤差情報とを含む要約情報に順次特徴量化する第2の特徴量抽出手段、及び前記要約情報を入力として所定時間先での所定のイベントの発生確率を出力する予測手段として、コンピュータを機能させることが好ましい。
 これらの発明によれば、複数の観測対象にそれぞれ配置された複数種のセンサから継続的に時系列センサデータが収集され、収集された時系列センサデータから多角的な動的パターンのモデルパラメータの抽出が、第1の特徴量抽出手段によって継続的に行われる。次いで、第2の特徴量抽出手段によって、前記モデルパラメータを用いて前記時系列センサデータがモデル化情報とその誤差情報とを含む要約情報に順次特徴量化される。そして、予測手段によって、前記要約情報を入力として所定時間先での所定のイベントの発生確率が出力される。従って、時系列センサデータ内に含まれる時系列パターンに関する事前知識を必要とせず、パターン(レジーム)の変化点と潜在的な振る舞いとが、例えば時間遷移と観測対象間の多角的な観点とから把握される。また、大規模な時系列センサデータの特徴的なパターンを発見し、それらを用いて長期間先のイベント予測が可能となる。なお、センサの配置は、観測対象に直接設置され、乃至観測対象を遠隔的に観測可能な態様で設置でもよい。
 また、前記第1の特徴量抽出手段は、前記動的パターンを時間方向及び前記観測対象間におけるセグメント及びそのパターン化を行って検出することが好ましい。この構成によれば、動的パターンが多角的に抽出されるので、精度の低下を抑止しつつ処理に要するデータ量の低減が図れる。
 また、前記第1の特徴量抽出手段は、前記セグメントの個数の設定を、コスト関数を用いて行うことが好ましい。この構成によれば、時系列センサデータのセグメント化において、セグメント数がコスト関数によってデータ量及び処理時間を考慮した最適値に設定される。
 また、前記予測手段は、ニューラルネットワークモデルに設定されたパラメータに基づいて前記所定のイベントの発生確率を得ることが好ましい。この構成によれば、小型かつシンプルな構造のモデルで高精度の予測が可能となる。
 また、前記予測手段は、ニューラルネットワークモデルにLSTM(Long-short term memory)を適用することが好ましい。この構成によれば、LSTMによって、深層学習モデルでの適用が可能であり、また、入力系列の長期依存性を学習することができるため、長期間先の高精度での予測が可能となる。
 また、本発明は、前記第2の特徴量抽出手段で得た前記要約情報を所定期間分取り込み、前記予測手段と同一の構成を有する学習用予測手段で機械学習をさせ、学習結果で得られたパラメータを前記予測手段に更新する機械学習装置を備えることが好ましい。この構成によれば、予測精度を漸次向上させることが可能となる。
 1 イベント予測システム
 11 データ取込処理部
 12 特徴量抽出部(第1、第2の特徴量抽出手段)
 13 予測部
 14 パラメータ更新部
 100 記憶部
 20 観測対象
 21 センサ群
 30 機械学習装置

Claims (8)

  1.  複数の観測対象にそれぞれ配置された複数種のセンサから継続的に収集される時系列センサデータから多角的な動的パターンのモデルパラメータの抽出を継続的に行う第1の特徴量抽出手段と、
     前記モデルパラメータを用いて前記時系列センサデータをモデル化情報とその誤差情報とを含む要約情報に順次特徴量化する第2の特徴量抽出手段と、
     前記要約情報を入力として所定時間先での所定のイベントの発生確率を出力する予測手段とを備えたイベント予測システム。
  2.  前記第1の特徴量抽出手段は、前記動的パターンを時間方向及び前記観測対象間におけるセグメント及びそのパターン化を行って検出する請求項1に記載のイベント予測システム。
  3.  前記第1の特徴量抽出手段は、前記セグメントの個数の設定を、コスト関数を用いて行う請求項2に記載のイベント予測システム。
  4.  前記予測手段は、ニューラルネットワークモデルに設定されたパラメータに基づいて前記所定のイベントの発生確率を得る請求項1に記載のイベント予測システム。
  5.  前記予測手段は、ニューラルネットワークモデルにLSTM(Long-short term memory)を適用することを特徴とする請求項4に記載のイベント予測システム。
  6.  前記第2の特徴量抽出手段で得た前記要約情報を所定期間分取り込み、前記予測手段と同一の構成を有する学習用予測手段で機械学習をさせ、学習結果で得られたパラメータを前記予測手段に更新する機械学習装置を備えた請求項4に記載のイベント予測システム。
  7.  コンピュータの第1の特徴量抽出部が、複数の観測対象にそれぞれ配置された複数種のセンサから継続的に収集され、記憶部に記憶された時系列センサデータから多角的な動的パターンのモデルパラメータの抽出を継続的に行って前記記憶部に記憶し、
     前記コンピュータの第2の特徴量抽出部が、前記モデルパラメータ及び前記時系列センサデータを前記記憶部から読み出して、前記時系列センサデータをモデル化情報とその誤差情報とを含む要約情報に順次特徴量化して前記記憶部に記憶し、
     前記コンピュータの予測部が、前記要約情報を前記記憶部から読み出して入力とし、所定時間先での所定のイベントの発生確率を出力するイベント予測方法。
  8.  複数の観測対象にそれぞれ配置された複数種のセンサから継続的に収集される時系列センサデータから多角的な動的パターンのモデルパラメータの抽出を継続的に行う第1の特徴量抽出手段、
     前記モデルパラメータを用いて前記時系列センサデータをモデル化情報とその誤差情報とを含む要約情報に順次特徴量化する第2の特徴量抽出手段、及び
     前記要約情報を入力として所定時間先での所定のイベントの発生確率を出力する予測手段として、コンピュータを機能させるプログラム。
PCT/JP2021/000606 2020-01-22 2021-01-12 イベント予測システム、イベント予測方法およびプログラム WO2021149528A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021573071A JP7440938B2 (ja) 2020-01-22 2021-01-12 イベント予測システム、イベント予測方法およびプログラム
US17/793,388 US20230058585A1 (en) 2020-01-22 2021-01-12 Event forecasting system, event forecasting method, and storage medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020008388 2020-01-22
JP2020-008388 2020-01-22

Publications (1)

Publication Number Publication Date
WO2021149528A1 true WO2021149528A1 (ja) 2021-07-29

Family

ID=76992209

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/000606 WO2021149528A1 (ja) 2020-01-22 2021-01-12 イベント予測システム、イベント予測方法およびプログラム

Country Status (3)

Country Link
US (1) US20230058585A1 (ja)
JP (1) JP7440938B2 (ja)
WO (1) WO2021149528A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220284277A1 (en) * 2021-02-25 2022-09-08 International Business Machines Corporation Network of tensor time series
WO2023149236A1 (ja) * 2022-02-04 2023-08-10 国立大学法人大阪大学 学習装置、予測装置、学習方法、予測方法、学習プログラム及び予測プログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220358182A1 (en) * 2021-05-07 2022-11-10 International Business Machines Corporation Scalable error mitigation
CN117493068B (zh) * 2024-01-03 2024-03-26 安徽思高智能科技有限公司 一种微服务系统根因定位方法、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005251185A (ja) * 2004-02-05 2005-09-15 Toenec Corp 電気設備診断システム
WO2018012487A1 (ja) * 2016-07-12 2018-01-18 国立大学法人熊本大学 予測装置、パラメータ集合生産方法及びプログラム
JP2019003389A (ja) * 2017-06-15 2019-01-10 株式会社 日立産業制御ソリューションズ 異常診断装置、異常診断方法及び異常診断プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6276732B2 (ja) * 2015-07-03 2018-02-07 横河電機株式会社 設備保全管理システムおよび設備保全管理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005251185A (ja) * 2004-02-05 2005-09-15 Toenec Corp 電気設備診断システム
WO2018012487A1 (ja) * 2016-07-12 2018-01-18 国立大学法人熊本大学 予測装置、パラメータ集合生産方法及びプログラム
JP2019003389A (ja) * 2017-06-15 2019-01-10 株式会社 日立産業制御ソリューションズ 異常診断装置、異常診断方法及び異常診断プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
IRIFUNE, YASUAKI ET AL.: "Detailed labeling to time series data using weak labels", THE 11TH FORUM ON DATA ENGINEERING AND INFORMATION MANAGEMENT (THE 17TH ANNUAL CONFERENCE OF THE DATABASE SOCIETY OF JAPAN, 6 March 2019 (2019-03-06) *
YAMAMURO, SAERU ET AL.: "Summary and Classification of Time Series Data Using Deep Learning", THE 10TH FORUM ON DATA ENGINEERING AND INFORMATION MANAGEMENT (THE 16TH ANNUAL CONFERENCE OF THE DATABASE SOCIETY OF JAPAN, 6 March 2018 (2018-03-06) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220284277A1 (en) * 2021-02-25 2022-09-08 International Business Machines Corporation Network of tensor time series
WO2023149236A1 (ja) * 2022-02-04 2023-08-10 国立大学法人大阪大学 学習装置、予測装置、学習方法、予測方法、学習プログラム及び予測プログラム

Also Published As

Publication number Publication date
JPWO2021149528A1 (ja) 2021-07-29
JP7440938B2 (ja) 2024-02-29
US20230058585A1 (en) 2023-02-23

Similar Documents

Publication Publication Date Title
Choi et al. Deep learning for anomaly detection in time-series data: Review, analysis, and guidelines
WO2021149528A1 (ja) イベント予測システム、イベント予測方法およびプログラム
Ahmad et al. Unsupervised real-time anomaly detection for streaming data
Lindemann et al. A survey on anomaly detection for technical systems using LSTM networks
Hosseini et al. An ensemble of cluster-based classifiers for semi-supervised classification of non-stationary data streams
Esteban et al. Data mining in predictive maintenance systems: A taxonomy and systematic review
Reunanen et al. Unsupervised online detection and prediction of outliers in streams of sensor data
Ahmadi et al. Modeling recurring concepts in data streams: a graph-based framework
Yu et al. Control chart recognition based on the parallel model of CNN and LSTM with GA optimization
Chadha et al. Generalized dilation convolutional neural networks for remaining useful lifetime estimation
Li et al. Just-in-time learning based probabilistic gradient boosting tree for valve failure prognostics
Kang Product failure prediction with missing data using graph neural networks
Ali et al. A review of meta-level learning in the context of multi-component, multi-level evolving prediction systems
Duarte et al. Ensembles of adaptive model rules from high-speed data streams
Jaenal et al. MachNet, a general Deep Learning architecture for Predictive Maintenance within the industry 4.0 paradigm
Iturria et al. A framework for adapting online prediction algorithms to outlier detection over time series
Zhong et al. Adaptive Memory Broad Learning System for Unsupervised Time Series Anomaly Detection
Heyden et al. Adaptive Bernstein change detector for high-dimensional data streams
Ogasawara et al. Online event detection for sensor data
Serrurier et al. Fairness with wasserstein adversarial networks
Rahman Multivariate time series classification of sensor data from an industrial drying hopper: A deep learning approach
Wenig et al. Series2Graph++: Distributed Detection of Correlation Anomalies in Multivariate Time Series
Vishwakarma et al. Taming False Positives in Out-of-Distribution Detection with Human Feedback
Shahad et al. Challenges in streaming data analysis for building an adaptive model for handling concept drifts
Islam et al. A Novel Ensemble K-Nearest Neighbours Classifier with Attribute Bagging

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21744039

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021573071

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21744039

Country of ref document: EP

Kind code of ref document: A1