WO2019087987A1 - 異常検知装置、異常検知方法、及びプログラム - Google Patents

異常検知装置、異常検知方法、及びプログラム Download PDF

Info

Publication number
WO2019087987A1
WO2019087987A1 PCT/JP2018/039987 JP2018039987W WO2019087987A1 WO 2019087987 A1 WO2019087987 A1 WO 2019087987A1 JP 2018039987 W JP2018039987 W JP 2018039987W WO 2019087987 A1 WO2019087987 A1 WO 2019087987A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
layer
learning
input
parameters
Prior art date
Application number
PCT/JP2018/039987
Other languages
English (en)
French (fr)
Inventor
泰弘 池田
石橋 圭介
中野 雄介
敬志郎 渡辺
川原 亮一
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2019550352A priority Critical patent/JPWO2019087987A1/ja
Priority to US16/760,709 priority patent/US11615343B2/en
Publication of WO2019087987A1 publication Critical patent/WO2019087987A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Definitions

  • the present invention relates to a technology for monitoring various data collected from a system and detecting an abnormality in the system, and for detecting an abnormality that appears as a broken correlation between data types.
  • Non-Patent Document 3 there is a problem that the relationship between the normal data space to be learned and the projection data space is combinedly increased as the number of observation data increases, and the necessary normal data is increased.
  • the present invention provides an anomaly detection technique using multiple types of data as input, which can solve the problem that the space in which normal data is distributed increases in combination as the number of observation data increases. With the goal.
  • an abnormality detection device having an input layer, an intermediate layer, and an output layer, and having an auto encoder function of learning parameters so as to reproduce data of the input layer in the output layer.
  • Input means for inputting plural types of normal data;
  • In the intermediate layer by using data of a dimension number smaller than the dimensional number of normal data, by learning features across data types, parameters are reproduced so as to reproduce normal data of the input layer in the output layer.
  • Learning means to learn Test data is input to the auto encoder using the parameters learned by the learning means, and abnormality degree calculation means for calculating the abnormality degree of the test data based on the output data of the auto encoder and the test data
  • an abnormality detection device characterized by comprising:
  • the disclosed technology in the anomaly detection technology using multiple types of data as input, it is possible to solve the problem that the space in which normal data is distributed increases in combination as the number of observation data increases. Provided.
  • FIG. 5 is a flowchart showing the operation of the abnormality detection device in the first embodiment.
  • FIG. 6 is a diagram for explaining a learning method using a model used in Example 1 and Example 6;
  • 15 is a flowchart showing the operation of the abnormality detection device in the fourth embodiment.
  • 10 is a flowchart showing the operation of the anomaly detection apparatus in a sixth embodiment based on the first embodiment.
  • 15 is a flowchart showing the operation of the abnormality detection device in a sixth embodiment based on the fourth embodiment.
  • Example 6 and 7 When performing abnormality detection of a test bed using Example 6 and 7 based on Example 1, it is a figure which shows the list of key and value at the time of producing
  • FIG. 1 shows a configuration example of the abnormality detection device 100 according to the embodiment of the present invention.
  • the computing unit 101, the storage unit 102, the input unit 103, and the output unit 104 are included.
  • the calculation unit 101 executes parameter learning processing in the learning phase and calculation processing of the degree of abnormality in the test phase. Details of the process executed by the calculation unit 101 will be described later.
  • the storage unit 102 is a storage that stores various data, parameters, and the like.
  • the input unit 103 inputs various data, and the output unit 104 outputs the degree of abnormality.
  • the abnormality detection apparatus 100 can be realized by causing a computer to execute a program in which the processing content described in the present embodiment is described. That is, the abnormality detection apparatus 100 can be realized by executing a program corresponding to the process performed by the abnormality detection apparatus 100 using hardware resources such as a CPU and a memory built in the computer. is there.
  • the program can be recorded on a computer readable recording medium (portable memory or the like), and can be stored or distributed.
  • a network such as the Internet or e-mail.
  • FIG. 2 is a diagram showing an example of the hardware configuration of the computer according to the present embodiment.
  • the computer in FIG. 2 has a drive device 150, an auxiliary storage device 152, a memory device 153, a CPU 154, an interface device 155, a display device 156, an input device 157, and the like mutually connected by a bus B.
  • the program for realizing the processing in the computer is provided by a recording medium 151 such as a CD-ROM or a memory card, for example.
  • a recording medium 151 such as a CD-ROM or a memory card
  • the program is installed from the recording medium 151 to the auxiliary storage device 152 via the drive device 150.
  • the installation of the program does not necessarily have to be performed from the recording medium 151, and may be downloaded from another computer via a network.
  • the auxiliary storage device 152 stores the installed program and also stores necessary files and data.
  • the memory unit 153 reads out the program from the auxiliary storage unit 152 and stores it when there is a program start instruction.
  • the CPU 154 implements the function related to the abnormality detection apparatus 100 in accordance with the program stored in the memory device 153.
  • the interface device 155 is used as an interface for connecting to the network.
  • the display device 156 displays a graphical user interface (GUI) according to a program.
  • the input device 157 includes a keyboard and a mouse, buttons, or a touch panel, and is used to input various operation instructions. Note that the display device 156 may not be provided.
  • Examples 1 to 8 will be described below as operation examples of the abnormality detection apparatus 100.
  • the process based on the first embodiment is described below, and in the second to eighth embodiments, basically, differences from the first embodiment and points added to the first embodiment will be described.
  • any of the plurality of embodiments 1 to 8 can be implemented in combination as long as no contradiction arises.
  • normal data is given as x for the mapping f to a space Z different from the original data space X and the mapping g from Z to the original data space X
  • x is projected to Z with f
  • f and g are learned so that the reconstruction error, which is the distance between the reconstructed data projected to the original data space with g and the original data, is as small as possible.
  • test data is projected from X to Z by the mapping f, and a reconstruction error when Z is projected to X by the mapping g is regarded as an anomaly of the data.
  • the outline of the abnormality detection method performed by the abnormality detection apparatus 100 according to the first embodiment is as follows.
  • Normal data is input to the abnormality detection apparatus 100.
  • the space to which the normal data is finally mapped is not the space P but the space P, and the degree of abnormality of the data is about the probability distribution F determined in advance.
  • a parameter is given as a value when normal data is mapped onto the space P, it is given as a value obtained by inverting the positive or negative of the likelihood function by which normal data is observed under the probability distribution.
  • Example 5 Outline of Example 5
  • the parameter is given by the value when normal data is mapped on the space Z, and the probability distribution is followed. Random numbers are given on the space Z ', and the mapping from Y on the space Z' is learned.
  • the original data and the reconstructed data are obtained with the mapping parameters obtained by learning each mapping parameter individually as the initial values in the first to fifth embodiments.
  • the learning is performed such that the distance between the reconstruction data for each data type and the original data becomes smaller by learning the mapping parameter such that the distance of.
  • the weight w_k considering the ease of reconstruction for each data type is used to reconstruct the data abnormality degree for each data type Given as a weighted average of the errors.
  • Example 1 First, Example 1 will be described.
  • the extraction of the feature based on the correlation for each data type and the extraction of the feature based on the learning of the correlation across the data types are performed.
  • Implement anomaly detection as you do.
  • various data may be rephrased as plural types of data.
  • various data are, for example, MIB data, flow data, syslog, CPU information, and the like.
  • abnormality detection is performed by unsupervised learning.
  • the auto encoder is a function using a neural network that has an input layer, an intermediate layer, and an output layer, and learns parameters so as to reproduce data of the input layer in the output layer.
  • the abnormality detection apparatus 100 includes the function of the auto encoder. Specifically, the function of the auto encoder corresponds to the arithmetic processing by the arithmetic unit 101.
  • S101 and S102 are learning phases
  • S103 to S105 are test phases (which may be called an abnormality detection phase).
  • the training data is normal data.
  • the input learning data is stored in the storage unit 102.
  • t is omitted and the k-th type data is denoted as x ⁇ k.
  • Data x is a vector of a certain dimension. Also, t represents, for example, time.
  • the arithmetic operation unit 101 performs learning of parameters using learning data as follows.
  • the model to be learned is an anomaly detection model to which a multimodal auto-encoder comprising five layers is applied.
  • multi-modal encoders see, for example, Zhang, Hanwang, et al. “Starting from scratch: Automatically identifying, modeling, and naming visual attributes.” Proceedings of the 22nd ACM international conference on Multimedia. ACM, 2014., etc. It may be done.
  • FIG. 1 An image diagram of a model of the multimodal auto encoder consisting of five layers is shown in FIG.
  • the first layer is a layer of input data
  • the second and fourth layers are layers for extracting features for each data type
  • the third layer is a layer for extracting features across data types.
  • the purpose of the model is to perform parameter learning so that the data input in the first layer is reconstructed in the fifth output layer.
  • each of the second and fourth layers is a node that extracts a feature of MIB data by data in which the dimension of MIB data is reduced, and a feature of flow data by data in which the dimension of flow data is reduced.
  • the nodes in the third layer extract features across the data types by weighting and adding output data from the nodes in the second layer. 6 (a) and 4 (b) will be described in the sixth embodiment.
  • the mapping from the second layer to the third layer corresponds to the mapping f2
  • the mapping from the third layer to the fourth layer corresponds to the mapping g1
  • N_k is the number of dimensions of data type k.
  • x ⁇ ⁇ (3) ⁇ indicates the output of the third layer. It shows, respectively as below.
  • W ⁇ ⁇ k, (l) ⁇ is the connection weight of layers l-1 to l regarding the k-th data type
  • b ⁇ ⁇ k, (l) ⁇ is the k-th data type Is a bias term of the l layer related to
  • ⁇ ⁇ (l) is an activation function of the l layer.
  • the number of dimensions of the second and fourth layers is smaller than the number of dimensions of each data.
  • Test data x_test is input from the input unit 104 in S103 of the test phase.
  • the vector x_test ⁇ (5) of the output layer is calculated using (2) to (5), and the mean square error (MSE) thereof is calculated as the abnormality (S104). Then, the abnormality degree is output from the output unit 104 (S105).
  • test data is input to an auto encoder (here, a multimodal auto encoder) using parameters learned in the learning phase, and based on the output data of the auto encoder and the test data, Calculate the degree of abnormality of test data.
  • an auto encoder here, a multimodal auto encoder
  • Example 2 data is not classified according to the data type in the first embodiment, but classification is performed from another viewpoint.
  • a classification method for example, there is a method of classification according to data attributes, such as classification of each data collection device, classification of each collection point, and the like. Also, a method may be employed in which data is subjected to clustering in advance and classification according to the cluster is performed.
  • the processing content of the abnormality detection apparatus 100 in the second embodiment is the same as the processing content in the first embodiment.
  • the “data type” may be interpreted as including both the data classification in the first embodiment and the data classification in the second embodiment.
  • Example 3 Next, Example 3 will be described.
  • more complicated feature extraction is performed by further increasing the number of layers of the auto encoder in the first embodiment. For example, it is expected that more complex features can be extracted in feature extraction for each data type by increasing the number of layers between the first and second layers and the number of layers between the fourth and fifth layers. Ru. Also, by increasing the number of layers between the second and third layers and / or the number of layers between the third and fourth layers, more complex features can be extracted in the feature extraction of the entire data There is expected.
  • the third embodiment it is possible to prevent the combinatorial increase of the normal space due to the increase of the dimension without correlation across the data types. Further, in the third embodiment, it is possible to perform more accurate dimension reduction by increasing the number of layers, especially when the data is complicated and dimension reduction is difficult.
  • Example 4 A fourth embodiment will now be described.
  • the input layer instead of representing the degree of abnormality of data in the first embodiment by the MSE between the input layer and the output layer, the input layer has a predetermined probability distribution using values in the output layer as parameters.
  • the value obtained by inverting the positive or negative of the likelihood function from which the data of is observed is regarded as anomalous.
  • a value obtained by inverting the positive or negative of the likelihood function may be reworded as a value obtained by multiplying the likelihood function by minus.
  • Such definition of the degree of abnormality is also made in abnormality detection using a variational autoencoder. For anomaly detection using a variational autoencoder, for example, An, Jinwon, and Sungzoon Cho. Variational Autoencoder based Anomaly Detection using Reconstruction Probability. Technical Report, 2015., etc. may be referred to.
  • FIG. 5 is a flowchart showing the operation of the abnormality detection apparatus 100 in the fourth embodiment.
  • S401 and S402 are learning phases
  • S403 to S405 are test phases.
  • the input learning data is stored in the storage unit 102.
  • the operation unit 101 is a parameter W that minimizes the value obtained by inverting the positive or negative of the likelihood function by which data in the input layer is observed under F (x, ⁇ ) where the value in the output layer is ⁇ .
  • the computing unit 101 is input based on F (x, ⁇ ) where the value in the output layer is ⁇ in the equations (1) to (5) of the first embodiment.
  • the optimization problem is solved as an objective function that represents minimizing the value obtained by inverting the positive and negative of the likelihood function in which layer data is observed.
  • Test data x_test is input from the input unit 104 in S403 of the test phase.
  • a value obtained by inverting the positive or negative of the likelihood function by which data of the input layer is observed under F (x, ⁇ ) with ⁇ as ⁇ is calculated as the abnormality degree.
  • the output unit 104 outputs the degree of abnormality of the test data.
  • a value obtained by inverting the positive and negative values of the likelihood function is calculated, and parameter learning is performed so as to minimize the value. Also in the definition of the degree of abnormality, the value is defined as the degree of abnormality of the test data.
  • Example 5 a new layer is defined between the third and fourth layers in the first embodiment, and a random number generated by a predetermined probability distribution with the value of the third layer as a parameter is used as a new layer. Values are mapped to the fourth layer in the first embodiment. Mappings that introduce such random numbers are also performed in the above-mentioned Variational Autoencoder (see, for example, An, Jinwon, and Sungzoon Cho. Variational Autoencoder based Anomaly Detection using Reconstruction Probability. Technical Report, 2015.). A normal distribution is given as the distribution, and the values in the third layer are regarded as the average and the variance of the normal distribution to generate random numbers, and the random numbers are used as the value of the fourth layer.
  • the process flow of the abnormality detection apparatus 100 in the fifth embodiment is basically the same as the process flow shown in FIG. However, in step S102, the fifth embodiment solves the optimization problem of the equations (1) to (5) in the first embodiment to which the modifications described below are added.
  • Example 5 a predetermined half of the values of each dimension of x ⁇ (3) calculated by the equation (3) is regarded as an average, the other half is regarded as a variance, and the covariance is assumed to be 0.
  • a random number x ⁇ (3) 'of half the dimension number of (3) is generated according to the normal distribution.
  • the expression that maps x ⁇ (3) 'to the fourth layer considers the input x ⁇ (3) in equation (4) as x ⁇ (3)', and W ⁇ ⁇ k, (4) ⁇ and b ⁇ ⁇ k, (4) ⁇ is also an expression such that it becomes a matrix and a vector in accordance with the dimensionality of x ⁇ (3) '. The same applies to the test phase.
  • Example 6 will now be described.
  • the sixth embodiment is based on the first embodiment or the fourth embodiment.
  • learning of the mapping in the first embodiment is performed separately for each data type, thereby performing learning of parameters such that reconstruction is sufficiently performed for each data type.
  • performing mapping learning individually for each data type can also be applied to the second to fifth embodiments.
  • a parameter that is sufficiently reconstructed for each data type is first learned, and learning is performed to reduce the overall reconstruction error after using the parameter as an initial value.
  • FIG. 6 is a flowchart showing the operation of the anomaly detection apparatus 100 in the sixth embodiment based on the first embodiment.
  • S511 to S514 are learning phases
  • S515 to S517 are test phases.
  • the input learning data is stored in the storage unit 102.
  • Parameters that minimize the reconstruction error of are determined using x_t as learning data.
  • Data obtained by converting parameters to be converted into data according to equation (2) using x_t by W ⁇ ⁇ k, (l) ⁇ , b ⁇ ⁇ k, (l) ⁇ , l 2, for all k Use it as
  • FIGS. 4 (a) and 4 (b) Images of prior learning in S512 and S513 are shown in FIGS. 4 (a) and 4 (b).
  • W ⁇ ⁇ k, (l) ⁇ , b ⁇ ⁇ k, (l) ⁇ , l 5
  • the normal data is used to learn parameters so as to reduce the reconstruction error of the input data and the output data.
  • the parameters are learned to reduce the error.
  • step S514 in FIG. 6 the arithmetic operation unit 101 sets the parameters already obtained in steps S512 and S513 as initial values, and then reduces the parameter W ⁇ to minimize the reconstruction error (equation (1)).
  • ⁇ k, (l) ⁇ , b ⁇ ⁇ k, (l) ⁇ , l 2,..., 5 for all k are determined, and the determined parameters are stored in the storage unit 102.
  • test phases S515 to S517 are the same as S103 to S105 in FIG. 3 in the first embodiment.
  • the parameters are learned to reduce the reconstruction error.
  • FIG. 7 is a flowchart showing the operation of the anomaly detection apparatus 100 in the sixth embodiment based on the fourth embodiment.
  • S541 to S544 are learning phases
  • S545 to S547 are test phases.
  • a parameter that minimizes the value obtained by inverting the positive or negative of the likelihood function under which data in the input layer is observed under F (x, ⁇ ) is determined using x_t as learning data.
  • Data obtained by transforming such parameters according to equation (2) using x_t using W ⁇ ⁇ k, (l) ⁇ , b ⁇ ⁇ k, (l) ⁇ , l 2, for all k as training data Ask.
  • test phases S545 to S547 are the same as S403 to S405 in FIG. 5 in the fourth embodiment.
  • Example 7 A seventh embodiment will now be described.
  • weighting is performed in consideration of the ease of reconstruction for each data type or the magnitude of the likelihood. For example, in the case of the first embodiment, when the ease of reconstruction is different for each data type, the variation of the reconstruction error due to the abnormality occurring in the data that is easy to reconstruct is the reconstruction error of the data that is difficult to reconstruct. It may become small compared with and cause the failure to detect such an abnormality.
  • the computing unit 101 performs MSE calculation as a weighted mean square error as follows.
  • w_k is a coefficient representing the ease of reconstruction of the data type k, and the larger the data type k is, the smaller it becomes difficult to reconstruct. This is because data which is easy to be reconstructed tends to have a small reconstruction error, and data which is hard to be reconstructed tends to have a large reconstruction error, so that the difference is offset.
  • w_k for example, a reciprocal of an average of a distribution of reconstruction errors when normal data is input to a learned model can be considered.
  • the value obtained by reversing the positive and negative of the likelihood function tends to be small, and can not be detected when an abnormality occurs as in the first embodiment. It may be the cause. Therefore, when the weighting of the seventh embodiment is applied to the fourth embodiment, a value obtained by similarly weighting the value obtained by reversing the positive and negative of the likelihood function for each data type is taken as the abnormality degree.
  • w_k is larger as the value obtained by reversing the positive and negative of the likelihood function in the data type k is smaller, and the positive and negative of the likelihood function in the data type k is The smaller the reverse value, the smaller.
  • Example 8 An eighth embodiment will now be described.
  • weighting is performed in consideration of ease of reconstruction for each data type or the size of the likelihood function, as in the seventh embodiment. This is because, as described in the sixth embodiment, at the time of learning, the MSE of data that is difficult to reconstruct is minimized, or the value obtained by inverting the positive or negative of the likelihood function of data whose likelihood function tends to be small is learning.
  • the computing unit 101 obtains a parameter that minimizes the following equation in the learning phase.
  • the reciprocal r of the average of the distribution of reconstruction errors when normal data is input to the model using the parameters at that time can be considered.
  • MAE shown in FIG. 9 is a method combining Example 6 and Example 7, normal AE combines input data of all data types into a one-dimensional vector, and one auto encoder performs learning. It is a detection result at the time of performing. ⁇ indicates that the MSE did not reach the threshold and could not be detected, one check mark indicates that the MSE could be detected above the threshold, and two check marks resulted from the failure that the MSE exceeded the threshold It shows the case where it can be confirmed that it is a thing.
  • the detection accuracy is improved as compared with a normal auto encoder.
  • the abnormality that appears in the syslog does not appear larger as an MSE compared to the other in the normal auto encoder due to the difference in the reconstruction error for each data type, but in the MAE, the error for each data type is redetermined according to the seventh embodiment. Since the difference in configuration error is taken into consideration, it is possible to detect MSE fluctuation due to a syslog error.
  • an abnormality As described above, according to the present embodiment, an abnormality is provided that has an input layer, an intermediate layer, and an output layer, and has an auto encoder function that learns parameters so as to reproduce data of the input layer in the output layer.
  • a detection device comprising: input means for inputting a plurality of types of normal data; and learning in the intermediate layer using a data of a dimension number smaller than the number of dimensions of normal data to learn features across data types
  • Test data input to the auto encoder using learning means for learning parameters so as to reproduce normal data of the input layer in the output layer, and the auto encoder using the parameters learned by the learning means, and an output of the auto encoder Characterized in that it comprises abnormality degree calculation means for calculating the abnormality degree of the test data based on the data and the test data.
  • Atmospheric sensing device is provided.
  • the input unit 103 described in the embodiment is an example of an input unit, and the operation unit 101 is an example of a learning unit and an abnormality degree calculation unit.
  • the auto encoder has a first layer as the input layer, second, third, and fourth layers which are three layers as the intermediate layer, and a fifth layer as the output layer.
  • the learning unit extracts features in each of the data types with a dimension number smaller than the dimension number of normal data in the second layer and the fourth layer, and in the third layer, features across data types. It may be extracted.
  • the learning means learns the parameters so as to minimize MSE between the data of the input layer and the data of the output layer, or a predetermined probability distribution using values in the output layer as parameters
  • the parameter may be learned so as to minimize the value obtained by inverting the positive / negative of the likelihood function under which the data of the input layer is observed.
  • the learning means may learn parameters in the auto encoder by using, as an initial value, a parameter obtained by individually performing learning for each data type.
  • the abnormality degree calculating means may calculate the abnormality degree of the test data as a weighted average of reconstruction errors for each data type using a weight for each data type.
  • the learning means may perform learning of a parameter to minimize a weighted average of reconstruction errors for each data type using weights for each data type.
  • the abnormality detection apparatus is provided with an input layer, an intermediate layer, and an output layer, and an abnormality detection device having an auto encoder function that learns parameters so as to reproduce data of the input layer in the output layer.
  • An anomaly detection method comprising: inputting at a plurality of types of normal data; and learning features across data types using data of a dimension number smaller than the number of dimensions of normal data in the intermediate layer Test data is input to the auto encoder using the parameters learned in the learning step, and the auto encoder using the parameters acquired by the learning step, thereby reproducing the normal data of the input layer in the output layer. Calculating an abnormality degree of the test data based on the output data of the test data and the test data; Abnormality detection method characterized by comprising is provided.
  • a program for causing a computer to function as each means in the abnormality detection device is provided.
  • abnormality detection apparatus 101: operation unit 102: storage unit 103: input unit 104: output unit 150: drive device 151: recording medium 152: auxiliary storage device 153: memory device 154: CPU 155 interface device 156 display device 157 input device

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

入力層、中間層、及び出力層を有し、前記入力層のデータを前記出力層で再現するようにパラメータを学習するオートエンコーダの機能を備える異常検知装置において、複数種別の正常データを入力する入力手段と、前記中間層において、正常データの次元数よりも小さい次元数のデータを用いて、データ種別間に跨る特徴を学習することにより、前記入力層の正常データを前記出力層で再現するようにパラメータを学習する学習手段と、前記学習手段により学習されたパラメータを用いた前記オートエンコーダにテストデータを入力し、当該オートエンコーダの出力データと、前記テストデータとに基づいて、当該テストデータの異常度を算出する異常度算出手段とを備える。

Description

異常検知装置、異常検知方法、及びプログラム
 本発明は、システムから収集される多様なデータを監視し、システムの異常を検知する技術において、データ種別間に跨る相関関係の崩れとして表れるような異常を検知するための技術に関するものである。
 様々なデータをリアルタイムで観測する機能が存在するシステムにおいて、正常時のデータを用いて正常時におけるメトリック間の相関関係を、正常データ空間よりも少ない次元の空間に射影することで学習し、正常時におけるメトリック間の相関関係がテストデータにおいて崩れていた場合に、そのテストデータの「異常度」を出力する技術が提案されている(非特許文献1~4)。
 当該技術では、観測データ数が増えるほど学習するべき正常データ空間と射影データ空間の関係が組み合わせ的に増加し、必要な正常データが増加してしまうという問題がある(非特許文献3)。
Hodge, Victoria J., and Jim Austin. "A survey of outlier detection methodologies." Artificial intelligence review 22.2 (2004): 85-126. 櫻田 麻由 ・ 矢入 健久,"オートエンコーダを用いた次元削減による宇宙機の異常検知", 人工知能学会全国大会論文集 28, 1-3, 2014 池田,中野,渡辺,石橋,川原,"オートエンコーダを用いたネットワーク異常検知における精度向上に向けた一検討, Mar. 2017. 池田,石橋,中野,渡辺,川原,"オートエンコーダを用いた異常検知におけるスパース最適化を用いた要因推定手法,"信学会IN研究会信学技報
 本発明は、複数種別のデータを入力とする異常検知技術において、観測データ数が増加するに従い正常データが分布する空間が組み合わせ的に増加する問題を解決することを可能とする技術を提供することを目的とする。
 開示の技術によれば、入力層、中間層、及び出力層を有し、前記入力層のデータを前記出力層で再現するようにパラメータを学習するオートエンコーダの機能を備える異常検知装置であって、
 複数種別の正常データを入力する入力手段と、
 前記中間層において、正常データの次元数よりも小さい次元数のデータを用いて、データ種別間に跨る特徴を学習することにより、前記入力層の正常データを前記出力層で再現するようにパラメータを学習する学習手段と、
 前記学習手段により学習されたパラメータを用いた前記オートエンコーダにテストデータを入力し、当該オートエンコーダの出力データと、前記テストデータとに基づいて、当該テストデータの異常度を算出する異常度算出手段と
 を備えることを特徴とする異常検知装置が提供される。
 開示の技術によれば、複数種別のデータを入力とする異常検知技術において、観測データ数が増加するに従い正常データが分布する空間が組み合わせ的に増加する問題を解決することを可能とする技術が提供される。
本発明の実施の形態における異常検知装置の構成例を示すブロック図である。 異常検知装置のハードウェア構成の一例を示す図である。 実施例1における異常検知装置の動作を示すフローチャートである。 実施例1で用いるモデル及び実施例6を用いた学習方法を説明するための図である。 実施例4における異常検知装置の動作を示すフローチャートである。 実施例1をベースとした実施例6における異常検知装置の動作を示すフローチャートである。 実施例4をベースとした実施例6における異常検知装置の動作を示すフローチャートである。 実施例1をベースとした実施例6及び7を用いてテストベッドの異常検知を行う際に、収集したデータから特徴ベクトルを生成した際のkey及びvalueの一覧を示す図である。 実施例1をベースとした実施例6及び7を用いてテストベッドの異常検知を行った際に各障害を検知できたかどうかを示す表である。 各データ種別の学習データの再構成誤差を、実施例1の方法で学習したMAEと、中間層のノード数をMAEの3層目と同じにした通常のオートエンコーダと比較した結果を示す図である。
 以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
 (装置構成)
 図1に、本発明の実施の形態における異常検知装置100の構成例を示す。図1に示すように、演算部101、記憶部102、入力部103、及び出力部104を有する。
 演算部101は、学習フェーズでのパラメータ学習処理、及びテストフェーズでの異常度の計算処理を実行する。演算部101により実行される処理の詳細は後述する。記憶部102は、各種データ、パラメータ等を格納するストレッジである。入力部103は、各種データを入力し、出力部104は、異常度の出力を行う。
 (ハードウェア構成例)
 異常検知装置100は、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。すなわち、異常検知装置100は、コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、当該異常検知装置100で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
 図2は、本実施の形態における上記コンピュータのハードウェア構成例を示す図である。図2のコンピュータは、それぞれバスBで相互に接続されているドライブ装置150、補助記憶装置152、メモリ装置153、CPU154、インターフェース装置155、表示装置156、及び入力装置157等を有する。
 当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体151によって提供される。プログラムを記憶した記録媒体151がドライブ装置150にセットされると、プログラムが記録媒体151からドライブ装置150を介して補助記憶装置152にインストールされる。但し、プログラムのインストールは必ずしも記録媒体151より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置152は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
 メモリ装置153は、プログラムの起動指示があった場合に、補助記憶装置152からプログラムを読み出して格納する。CPU154は、メモリ装置153に格納されたプログラムに従って、異常検知装置100に係る機能を実現する。インターフェース装置155は、ネットワークに接続するためのインターフェースとして用いられる。表示装置156はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置157はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。なお、表示装置156を備えないこととしてもよい。
 (動作例)
 以下、異常検知装置100の動作例として、実施例1~実施例8を説明する。以下、実施例1がベースとなる処理であり、実施例2~8については、基本的に、実施例1と異なる点や、実施例1に対して追加される点を説明している。また、実施例1~8のうちの任意の複数の実施例は、矛盾が生じない限り、組み合わせて実施することが可能である。
 ここで、各実施例を詳細に説明する前に、各実施例の概要を説明する。
 (1)実施例1の概要
 まず、異常検知装置100が実行する動作の概要を説明する。異常検知装置100が実行する異常検知手法のベースとなる異常検知手法は、次のとおりである。
 まず、多次元数値ベクトルで表されるデータxに対し、元のデータ空間Xと異なる空間Zへの写像fと、Zから元のデータ空間Xへの写像gについて、xとして正常データが与えられた時には、xをfでZに射影し、更にgで元のデータ空間に射影した再構成データと元のデータの距離である再構成誤差ができるだけ小さくなるようにfとgを学習する。そして、異常検知の対象となるテストデータについて、テストデータをXから写像fでZに射影し、Zから写像gでXに射影した際の再構成誤差をそのデータの異常度とみなす。
 実施例1における異常検知装置100が実行する異常検知手法の概要は次のとおりである。
 異常検知装置100に正常データが入力される。ここでは、複数種別(全K種)のデータが存在する。元のデータ空間X上において、種別kのデータがXの部分空間X_k上に存在するとし、異常検知装置100は、X_kから他の空間Yの部分空間Y_kへの写像f1_k(k=1, …, K)と、空間Y上のデータを新たな空間Zに写像する写像f2と、ZからYへの写像g1及びYの部分空間Y_kから元のデータ空間Xの部分空間X_kへの写像g2_k(k=1,…,K)を学習する。
 そして、異常検知装置100は、学習した各写像を使用することで、テストデータを写像f1_k (k=1,…,K)によってYに射影し、Yから写像f2によってZに射影し、Zから写像g1によってYに射影し、Yから写像g2_k (k=1,…,K)によってXに射影した際の再構成誤差を異常度とみなす。これにより、データ種別間に跨るような特徴の抽出により異常検知を行うこととしている。
 (2)実施例2の概要
 実施例2では、実施例1において、データの種別以外の観点でデータを分類し、それぞれがXの部分空間X_kに存在するとみなす。
 (3)実施例3の概要  
 実施例3では、実施例1における各写像について、空間Aから空間Bへの写像fを、f=f1○f2○…, ○f_nのようなn個の写像の合成写像として学習する。
 (4)実施例4の概要
 実施例4では、実施例1において、正常データが最終的に写像される空間をXではなく空間Pとし、データの異常度を、予め定めた確率分布Fについて、パラメータを正常データが空間P上に写像された際の値で与えた場合の、その確率分布の元で正常データが観測される尤度関数の正負を逆転させた値として与える。
 (5)実施例5の概要
 実施例5では、実施例1において、予め定めた確率分布Gについて、パラメータを正常データが空間Z上に写像された際の値で与え、その確率分布に従った乱数を空間Z'上に与え、空間Z'上からYへの写像を学習する。
 (6)実施例6の概要
 実施例6では、実施例1~5において、各写像パラメータの学習を個別に行う事で得られた写像パラメータを初期値とした上で、元データと再構成データの距離が近くなるような写像パラメータを学習することで、データ種別毎の再構成データと元のデータの距離がより小さくなるような学習を行う。
 (7)実施例7の概要
 実施例7では、実施例1~6において、データ種別毎の再構成のし易さを考慮した重みw_kを用いて、データの異常度をデータ種別毎の再構成誤差の重み付け平均として与える。
 (8)実施例8の概要
 実施例8では、実施例1~6において、データ種別毎の再構成のし易さを考慮した重みw_kを用いて、各写像パラメータの学習を行う際にデータ種別毎の再構成誤差の重み付け平均を最小化するようなパラメータの学習を行う。
 以下、実施例1~8をより詳細に説明する。
 (実施例1)
 まず、実施例1を説明する。実施例1では、多種のデータの相関関係の学習による異常検知を行う際に、データ種別毎の相関関係に基づいた特徴の抽出と、データ種別を跨る相関関係の学習に基づいた特徴の抽出を行うような異常検知を実施する。なお、多種のデータは、複数種のデータと言い換えてもよい。また、多種のデータは、例えば、MIBデータ、フローデータ、syslog、CPU情報等である。また、実施例1~8においては、教師なし学習により異常検知を実施する。
 ここでは、異常検知装置100により実行される特徴抽出を行う異常検知アルゴリズムとして、オートエンコーダ(非特許文献2)を応用したアルゴリズムの例を示す。なお、オートエンコーダは、入力層、中間層、及び出力層を有し、入力層のデータを出力層で再現するようにパラメータを学習する、ニューラルネットワークを用いた機能である。異常検知装置100は、当該オートエンコーダの機能を含む。具体的には、当該オートエンコーダの機能は、演算部101による演算処理に相当する。
 図3のフローチャートを参照して、実施例1における異常検知装置100の動作を説明する。図3において、S101、S102が学習フェーズであり、S103~S105がテストフェーズ(異常検知フェーズと呼んでもよい)である。
 まず学習フェーズのS101において、入力部103から学習データx_t(t=1, …, T)が入力される。学習データは正常データである。入力された学習データは記憶部102に格納される。各学習データは、K種のデータ種別からなるデータであり、x_t = {x_t^1, …, x_t^K}として表される。以下、場合によってはtを省略しk番目の種別のデータをx^kと標記する。なお、データxは、ある次元のベクトルである。また、tは例えば時刻を表す。
 次に、S102において、演算部101は、学習データを用いてパラメータの学習を以下のようにして行う。ここでは、学習されるモデルは5層からなるマルチモーダルオートエンコーダを応用した異常検知モデルであるとする。マルチモーダルエンコーダについては、例えば、Zhang, Hanwang, et al. "Start from scratch: Towards automatically identifying、 modeling, and naming visual attributes." Proceedings of the 22nd ACM international conference on Multimedia. ACM, 2014.等が参考とされてもよい。
 5層からなるマルチモーダルオートエンコーダのモデルのイメージ図を図4(c)に示す。1層目は入力データの層、2層目及び4層目はデータ種別毎の特徴を抽出する層であり、3層目はデータ種別間に跨る特徴を抽出する層である。当該モデルの目的は、1層目に入力されたデータを5層目の出力層で再構成するようにパラメータの学習を行うことである。
 より具体的には、例えば、2層目及び4層目はそれぞれ、MIBデータの次元削減をしたデータによりMIBデータの特徴を抽出するノードと、フローデータの次元削減をしたデータによりフローデータの特徴を抽出するノードと、syslogの次元削減をしたデータによりsyslogの特徴を抽出するノードと、CPU情報の次元削減をしたデータによりCPU情報の特徴を抽出するノードからなる。3層目のノードは、2層目のノードからの出力データを重み付けして足し合わせること等により、これらのデータ種別間に跨る特徴を抽出する。なお、図4(a)、(b)については、実施例6において説明する。
 図4(c)において、1層目から2層目へのマッピングが前述した写像f1_k(k=1, …, K)に対応し、2層目から3層目へのマッピングが写像f2に対応し、3層目から4層目へのマッピングが写像g1に対応し、4層目から5層目へのマッピングが前述した写像g2_k(k=1, …, K)に対応する。
 具体的には、演算部101は、下記の最適化問題を解くことでパラメータW^{k, (l)}, b^{k, (l)}, l=2, …, 5, for all kを学習する。すなわち、演算部101は、入力データと出力層のデータの再構成誤差(下記の式(1)、ここではMSEを使用)を最小化するようなパラメータW^{k,(l)}, b^{k,(l)}, l=2,…,5を求め、求めたパラメータを記憶部101に保存する。
Figure JPOXMLDOC01-appb-M000001
 ただし、N_kはデータ種別kの次元数である。また、x^{k, (l)}, l=2, 4, 5は、k番目のデータ種別のl層目の出力を示し、x^{(3)}は、3層目の出力を示し、それぞれ下記のとおりである。
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000004
Figure JPOXMLDOC01-appb-M000005
 上記の各式において、W^{k, (l)}はk番目のデータ種別に関するl-1層からl層の接続重みであり、b^{k, (l)}はk番目のデータ種別に関するl層のバイアス項であり、φ^(l)はl層目の活性化関数である。ここで、2層目及び4層目の次元数は、各データの次元数よりも小さい。これにより、データ種別毎の次元を削減し、次元削減されたデータを用いてデータ種別を跨る相関関係を3層目で学習するため、データ種別を跨る相関のない次元の増加による正常空間の組み合わせ的増加を防ぐことが可能である。演算部101により学習されたパラメータは記憶部102に保存される。
 なお、前述した写像f1_k(k=1, …, K)、f2、g1、及びg2_k(k=1, …, K)を学習することは、パラメータW^{k,(l)}, b^{k,(l)}, l=2,…,5を学習することに相当する。
 テストフェーズのS103において入力部104からテストデータx_testが入力される。演算部101は、記憶部102に保存されたパラメータW^{k,(l)}, b^{k,(l)},l=2,…,5, for all kを元に上記の式(2)~(5)を用いて出力層のベクトルx_test^(5)を計算し、その平均二乗誤差(MSE)を異常度として計算する(S104)。そして、異常度を出力部104より出力する(S105)。すなわち、テストフェーズでは、学習フェーズにより学習されたパラメータを用いたオートエンコーダ(ここでは、マルチモーダルオートエンコーダ)にテストデータを入力し、当該オートエンコーダの出力データと、テストデータとに基づいて、当該テストデータの異常度を算出する。
 (実施例2)
 次に、実施例2を説明する。実施例2では、実施例1においてデータをデータ種別で分けるのではなく、その他の観点で分類を行う。分類の仕方としては、例えばデータの収集機器毎の分類や、収集箇所毎の分類など、データの属性に応じて分類を行う方法がある。また、事前にデータに対してクラスタリングを行い、クラスタに応じた分類を行う方法を採用してもよい。
 実施例2における異常検知装置100の処理内容は実施例1における処理内容と同じである。実施例2では、実施例1におけるK種のデータx_t = {x_t^1, …, x_t^K }を、実施例2における観点で分類したKグループのデータとすればよい。
 なお、「データ種別」を、実施例1でのデータの分類と実施例2でのデータの分類の両方を含む意味であると解釈してもよい。
 実施例2においても、データ種別を跨る相関のない次元の増加による正常空間の組み合わせ的増加を防ぐことが可能である。
 (実施例3)
 次に、実施例3を説明する。実施例3では、実施例1においてオートエンコーダの層の数を更に増やすことにより、より複雑な特徴抽出を行う。例えば、1層目から2層目の間の層数及び4層目から5層目の間の層数を増やす事により、データ種別毎の特徴抽出において、より複雑な特徴を抽出できることが期待される。また、2層目と3層目の間の層数、及び/又は、3層目と4層目の間の層数を増やすことで、データ全体の特徴抽出において、より複雑な特徴を抽出できることが期待される。
 実施例3によっても、データ種別を跨る相関のない次元の増加による正常空間の組み合わせ的増加を防ぐことが可能である。また、実施例3では、特に、データが複雑で次元削減が難しい場合に、層数を増やすことで、より正確な次元削減を行うことが可能である。
 (実施例4)
 次に、実施例4を説明する。実施例4では、実施例1においてデータの異常度を入力層と出力層との間のMSEで表わすことに代えて、出力層における値をパラメータとした、予め定めた確率分布の元で入力層のデータが観測される尤度関数の正負を逆転した値を異常度とみなす。なお、尤度関数の正負を逆転した値を、尤度関数にマイナスを掛けた値と言い換えてもよい。このような異常度の定義は、Variational Autoencoderを用いた異常検知においても行われている。Variational Autoencoderを用いた異常検知については、例えば、An, Jinwon, and Sungzoon Cho. Variational Autoencoder based Anomaly Detection using Reconstruction Probability. Technical Report, 2015.等が参考とされてもよい。
 図5は、実施例4における異常検知装置100の動作を示すフローチャートである。図5において、S401、S402が学習フェーズであり、S403~S405がテストフェーズである。
 S401において、入力部103から学習データx_t (t=1,…,T)及び確率分布F(x,θ)が入力される。入力された学習データは記憶部102に格納される。
 S402において、演算部101は、出力層における値をθとしたF(x,θ)の元で入力層のデータが観測される尤度関数の正負を逆転した値を最小化するようなパラメータW^{k,(l)}, b^{k,(l)}, l=2,…,5を求め、求めたパラメータを記憶部102に保存する。すなわち、実施例4では、演算部101は、実施例1の式(1)~(5)において、式(1)を、出力層における値をθとしたF(x,θ)の元で入力層のデータが観測される尤度関数の正負を逆転した値を最小化することを表す目的関数とした最適化問題を解く。
 テストフェーズのS403において入力部104からテストデータx_testが入力される。
 S404において、演算部101は、記憶部102から読み込んだパラメータW^{k,(l)}, b^{k,(l)}, l=2,…,5を用いて,出力層における値をθとしたF(x,θ)の元で入力層のデータが観測される尤度関数の正負を逆転した値を異常度として計算する。S405において、出力部104からテストデータの異常度を出力する。
 上述したとおり、実施例4では、実施例1におけるMSEの計算の代わりに、尤度関数の正負の値を逆転した値を計算し、その値を最小化するようなパラメータの学習を行う。また、異常度の定義においても、その値をテストデータの異常度として定義を行う。
 実施例4によっても、データ種別を跨る相関のない次元の増加による正常空間の組み合わせ的増加を防ぐことが可能である。
 (実施例5)
 次に、実施例5を説明する。実施例5では、実施例1において3層目と4層目の間に新たな層を定義し、3層目の値をパラメータとした、予め定めた確率分布によって生成した乱数を新たな層の値とし、その値を実施例1における4層目に写像する。このような乱数を導入した写像は前述したVariational Autoencoder(例えば、An, Jinwon, and Sungzoon Cho. Variational Autoencoder based Anomaly Detection using Reconstruction Probability. Technical Report, 2015.参照)においても行われており、そこでは確率分布として正規分布が与えられ、3層目における値を正規分布の平均及び分散とみなして乱数を発生させ、その乱数を4層目の値として用いる。
 実施例5における異常検知装置100の処理フローは基本的には図3に示した処理フローと同様である。ただし、S102において、実施例5では、実施例1における式(1)~(5)の最適化問題に対し、以下に説明する変更を加えた最適化問題を解く。
 すなわち、実施例5では、式(3)で計算されたx^(3)の各次元の値のうち予め定めた半数を平均、残りの半数を分散とみなし、共分散は0として、x^(3)の次元数の半分の次元の乱数x^(3)'を正規分布に従い発生させる。x^(3)'を4層目に写像する式は、式(4)における入力x^(3)をx^(3)'とみなし、W^{k,(4)}及びb^{k,(4)}もx^(3)'の次元数に合わせた行列及びベクトルになるような式である。テストフェーズにおいても同様である。
 実施例5によっても、データ種別を跨る相関のない次元の増加による正常空間の組み合わせ的増加を防ぐことが可能である。
 (実施例6)
 次に、実施例6を説明する。実施例6は、実施例1あるいは実施例4をベースとする。実施例1をベースとする場合において、実施例1における写像の学習をデータ種別毎に個別で行うことで、データ種別毎に再構成が十分に行われるようなパラメータの学習を行う。このように、写像の学習をデータ種別毎に個別で行うことは実施例2~5にも適用できる。
 例えば、実施例1のオートエンコーダに基づいたモデルを使用する場合、式(1)の最適化によるパラメータの学習を行うが、この時、再構成をし易いデータ種別と、再構成をし難いデータ種別が混在している場合、式(1)内における二乗誤差は後者の方が大きくなり易く、全てのパラメータは後者の二乗誤差を小さくするように更新される。そのため、前者のデータ種別については再構成できるような学習が十分に行われない可能性がある。
 そこで、実施例6では、データ種別毎に十分に再構成が行われるパラメータを最初に学習し、そのパラメータを初期値とした上で全体の再構成誤差を小さくするような学習を行う。
 図6は、実施例1をベースとする実施例6における異常検知装置100の動作を示すフローチャートである。ここでは実施例1と同様のマルチモーダルオートエンコーダの例を示す。図6において、S511~S514が学習フェーズであり、S515~S517がテストフェーズである。
 S511において、入力部103から学習データx_t (t=1,…,T)が入力される。入力された学習データは記憶部102に格納される。
 続いて、S512、S513において、演算部101は、データ種別毎の特徴抽出による再構成を十分に行えるようなパラメータW^{k,(l)}, b^{k,(l)},l=2,5, for all kの学習と、全データ種別の特徴抽出による再構成を十分に行えるようなパラメータW^{k,(l)}, b^{k,(l)},l=3,4, for all kの学習をそれぞれ事前学習として行う。
 すなわち、図6に示すとおり、S512において、演算部101は、W^{k,(l)}, b^{k,(l)}, l=2,5, for all kを用いたオートエンコーダの再構成誤差を最小化するようなパラメータを、x_tを学習データとして用いて求める。また、S513において、演算部101は、W^{k,(l)}, b^{k,(l)}, l=3,4, for all kを用いたオートエンコーダの再構成誤差を最小化するようなパラメータを、x_tをW^{k,(l)}, b^{k,(l)},l=2, for all kを用いて式(2)に従って変換したデータを学習データとして用いて求める。
 S512、S513における事前学習のイメージを図4(a)、(b)に示す。ここでは、まず、図4(a)に示すように、1層目と2層目の間のパラメータがW^{k,(l)}, b^{k,(l)},l=2, for all k、2層目と3層目の間のパラメータがW^{k,(l)}, b^{k,(l)},l=5, for all kであるオートエンコーダについて、正常データを用いて入力データと出力データの再構成誤差が小さくなるようにパラメータを学習する。
 次に、図4(b)に示すように、1層目と2層目の間の間のパラメータがW^{k,(l)}, b^{k,(l)},l=3, for all k,2層目と3層目の間のパラメータがW^{k,(l)}, b^{k,(l)},l=4, for all kであるようなオートエンコーダについて、正常データを、W^{k,(l)}, b^{k,(l)},l=2, for all kを用いて式(2)で変換したデータを入力として、再構成誤差が小さくなるようにパラメータを学習する。
 その後、図4(c)に示すように、学習されたパラメータを初期値として、式(1)の学習を行う。
 より詳細には、図6のS514において、演算部101は、S512、S513において既に求めたパラメータを初期値とした上で、再構成誤差(式(1))を最小化するようなパラメータW^{k,(l)}, b^{k,(l)}, l=2,…,5 for all kを求め、求めたパラメータを記憶部102に保存する。
 テストフェーズS515~S517における処理内容は、実施例1における図3のS103~S105と同じである。
 実施例4をベースとする場合、演算部101は、W^{k,(l)}, b^{k,(l)},l=2,5, for all kの学習においては実施例4と同様に尤度関数の正負を逆転させた値を学習し、W^{k,(l)}, b^{k,(l)},l=3,4, for all kの学習においては再構成誤差が小さくなるようなパラメータの学習を行う。
 図7は、実施例4をベースとした実施例6における異常検知装置100の動作を示すフローチャートである。図7において、S541~S544が学習フェーズであり、S545~S547がテストフェーズである。
 S541において、入力部103から学習データx_t (t=1,…,T)及び確率分布F(x,θ)が入力される。
 S542において、演算部101は、W^{k,(l)}, b^{k,(l)}, l=2,5,for all kを用いたオートエンコーダの出力層における値をθとしたF(x,θ)の元で入力層のデータが観測される尤度関数の正負を逆転した値を最小化するようなパラメータを、x_tを学習データとして用いて求める。
 S543において、演算部101は、W^{k,(l)}, b^{k,(l)}, l=3,4, for all kを用いたオートエンコーダの再構成誤差を最小化するようなパラメータを、x_tをW^{k,(l)}, b^{k,(l)},l=2, for all kを用いて式(2)に従って変換したデータを学習データとして用いて求める。
 そして、S544において、演算部101は、既に求めたパラメータを初期値とした上で、出力層における値をθとしたF(x,θ)の元で入力層のデータが観測される尤度関数の正負を逆転した値を最小化するようなパラメータW^{k,(l)}, b^{k,(l)}, l=2,…,5, for all kを求め、求めたパラメータを記憶部102に保存する。
 テストフェーズS545~S547における処理内容は、実施例4における図5のS403~S405と同じである。
 実施例6により、実施例1、4の効果に加えて、データ種別毎の学習のし易さがデータ全体の相関関係の学習やテストデータの異常度算出に影響を与えるという課題を解決できる効果がある。
 (実施例7)
 次に、実施例7を説明する。実施例7では、実施例1~6における異常度の計算において、データ種別毎の再構成のし易さ、又は、尤度の大きさを考慮した重み付けを行う。例えば実施例1の場合、データ種別毎に再構成のし易さが異なる場合、再構成し易いデータにおいて発生した異常による再構成誤差の変動が、再構成し難いデータの正常時の再構成誤差に比べて小さくなる可能性があり、そのような異常を検知できない原因となる。
 そこで、実施例7において、演算部101は、MSEの計算を、以下のような重み付け平均二乗誤差として行う。
Figure JPOXMLDOC01-appb-M000006
 上記の式(6)において、w_kはデータ種別kの再構成のし易さを表す係数であり、データ種別kが再構成し易いほど大きく、し難いほど小さくなる。これは、再構成し易いデータは再構成誤差が小さくなる傾向にあり、再構成し難いデータは再構成誤差が大きくなる傾向にあるため、その違いを相殺するためである。w_kの与え方としては、例えば学習済みのモデルに対して正常データを入力した際の再構成誤差の分布の平均の逆数などが考えられる。
 実施例4の場合には、尤度関数が大きくなり易いデータについては、尤度関数の正負を逆転させた値は小さくなり易く、実施例1の場合と同様、異常が発生した場合に検知できない原因となる可能性がある。そのため、実施例7の重み付けを実施例4に適用する場合には、データ種別毎の尤度関数の正負を逆転させた値について、同様に重み付けした値を異常度とする。すなわち、実施例7の重み付けを実施例4に適用する場合には、w_kは、データ種別kにおける尤度関数の正負を逆転させた値が小さいほど大きく、データ種別kにおける尤度関数の正負を逆転させた値が大きいほど小さくなる。
 実施例7によっても、データ種別毎の学習のし易さがデータ全体の相関関係の学習やテストデータの異常度算出に影響を与えるという課題を解決できる。
 (実施例8)
 次に、実施例8を説明する。実施例8では、実施例1~7における学習時において、実施例7と同様にデータ種別毎の再構成のし易さ、又は、尤度関数の大きさを考慮した重み付けを行う。これは、実施例6で説明したように、再構成し難いデータのMSEの最小化、又は、尤度関数が小さくなりやすいデータの尤度関数の正負を逆転させた値の最小化が学習時において支配的になるのを防ぐためである。実施例8において、演算部101は、学習フェーズにおいて下記の式を最小化するようなパラメータを求める。
Figure JPOXMLDOC01-appb-M000007
 w_kの与え方としては、例えば実施例1の場合、その時点におけるパラメータを用いたモデルに対して正常データを入力した際の再構成誤差の分布の平均の逆数rなどが考えられる。
 実施例8によっても、データ種別毎の学習のし易さがデータ全体の相関関係の学習やテストデータの異常度算出に影響を与えるという課題を解決できる。
 (実施の形態の効果について)
 以上、説明したように、本実施の形態における技術により、複数種別のデータを入力とした異常検知を行う際に生じる、学習すべき正常状態の組み合わせ的増加や、学習のし易さの違いによる影響を解決することが可能となる。ここでは、実施例1をベースとした実施例6及び実施例7を用いて、テストベッドネットワークにおいて、異常検知装置100が異常検知を行った結果によって本技術の効果を示す。
 テストベッドネットワークから、フローデータ、MIBデータ、syslogの3種のデータを収集し、図8に示すようなkeyとvalueの組み合わせによって特徴ベクトルの生成を行った。ここで、syslogについてはSTE(Statistical Template Extraction)を用いてテンプレートIDを付与し、そのIDの出現回数を特徴量としている。STEについては、例えば、Kimura, Tatsuaki, et al. "Spatio-temporal factorization of log data for understanding network events." INFOCOM, 2014 Proceedings IEEE. IEEE, 2014.等が参考とされてもよい。正常データとして、1ヶ月分のデータから、工事を行っていた時間と、トラブルチケットに報告があった障害の時間±6時間のデータを用い、テストデータとして1.5ヶ月分のデータを用いた際に、トラブルチケットに報告のあった障害を検知できたかどうかを確認した。
 ここでは、MSEの閾値を、工事以外の期間や障害の期間±6時間以外の正常な期間においてMSEが閾値を超えた割合が3%になるように設定した際に、20種類の異常について検知できたか否かを図9に示す。ここで、図9に示すMAEは実施例6及び実施例7を組み合わせた手法であり、normal AEは、全てのデータ種別の入力データを1次元のベクトルに結合し、一つのオートエンコーダで学習をおこなった際の検知結果である。×はMSEが閾値に届かず検知できなかった場合、1つのチェックマークはMSEが閾値を超えて検知できた場合を示し、2つのチェックマークは、MSEが閾値を超えたのが障害に起因するものであると確認ができた場合を示している。
 図9に示すように、実施例6及び実施例7を組み合わせた方法(MAE)では、通常のオートエンコーダに比べて検知精度が向上している。特に、#7の障害については通常のオートエンコーダでは見逃しているのがMAEでは検知できている。これは、syslogに出現した異常が、通常のオートエンコーダではデータ種別毎の再構成誤差の違いによってMSEとして他と比べて大きく現れなかったためであるが、MAEでは実施例7によりデータ種別毎の再構成誤差の違いを考慮しているため、syslogの異常によるMSEの変動を検知できている。
 また、MAEが各データ種別の次元削減を行った上でデータ間の相関関係を学習することで、正常データが分布する空間が組み合わせ的に増加する問題を解決している点を示すために、各データ種別の学習データの再構成誤差を、実施例1の方法で学習したMAEと、中間層のノード数をMAEの3層目と同じにした通常のオートエンコーダと比較した結果を図10に示す。図10に示すように、MAEでは通常のオートエンコーダに比べて再構成誤差が小さくなっており、MAEが通常のオートエンコーダに比べて3層目でより正確にデータ種別間の相関関係を学習できていることがわかる。
 (実施の形態のまとめ)
 以上、説明したとおり、本実施の形態により、入力層、中間層、及び出力層を有し、前記入力層のデータを前記出力層で再現するようにパラメータを学習するオートエンコーダの機能を備える異常検知装置であって、複数種別の正常データを入力する入力手段と、前記中間層において、正常データの次元数よりも小さい次元数のデータを用いて、データ種別間に跨る特徴を学習することにより、前記入力層の正常データを前記出力層で再現するようにパラメータを学習する学習手段と、前記学習手段により学習されたパラメータを用いた前記オートエンコーダにテストデータを入力し、当該オートエンコーダの出力データと、前記テストデータとに基づいて、当該テストデータの異常度を算出する異常度算出手段とを備えることを特徴とする異常検知装置が提供される。
 実施例で説明した入力部103は入力手段の例であり、演算部101は、学習手段と異常度算出手段の例である。
 前記オートエンコーダは、前記入力層としての第1層と、前記中間層としての3層である第2層、第3層、及び第4層と、前記出力層としての第5層とを有し、前記学習手段は、前記第2層と前記第4層において、正常データの次元数よりも小さい次元数でデータ種別毎の特徴を抽出し、前記第3層において、データ種別間に跨る特徴を抽出することとしてもよい。
 前記学習手段は、前記入力層のデータと前記出力層のデータとの間のMSEを最小化するように前記パラメータを学習する、又は、前記出力層における値をパラメータとした、予め定めた確率分布の元で前記入力層のデータが観測される尤度関数の正負を逆転した値を最小化するように前記パラメータを学習することとしてもよい。
 前記学習手段は、データ種別毎の学習を個別に実行することにより得られたパラメータを初期値として使用することにより、前記オートエンコーダにおけるパラメータを学習することとしてもよい。
 前記異常度算出手段は、データ種別毎の重みを用いて、前記テストデータの異常度をデータ種別毎の再構成誤差の重み付け平均として算出することとしてもよい。
 前記学習手段は、データ種別毎の重みを用いて、データ種別毎の再構成誤差の重み付け平均を最小化するようなパラメータの学習を行うこととしてもよい。
 また、本実施の形態により、入力層、中間層、及び出力層を有し、前記入力層のデータを前記出力層で再現するようにパラメータを学習するオートエンコーダの機能を備える異常検知装置が実行する異常検知方法であって、複数種別の正常データを入力する入力ステップと、前記中間層において、正常データの次元数よりも小さい次元数のデータを用いて、データ種別間に跨る特徴を学習することにより、前記入力層の正常データを前記出力層で再現するようにパラメータを学習する学習ステップと、前記学習ステップにより学習されたパラメータを用いた前記オートエンコーダにテストデータを入力し、当該オートエンコーダの出力データと、前記テストデータとに基づいて、当該テストデータの異常度を算出する異常度算出ステップとを備えることを特徴とする異常検知方法が提供される。
 また、本実施の形態により、コンピュータを、上記異常検知装置における各手段として機能させるためのプログラムが提供される。
 以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
 本特許出願は2017年11月2日に出願した日本国特許出願第2017-212801号に基づきその優先権を主張するものであり、日本国特許出願第2017-212801号の全内容を本願に援用する。
100 異常検知装置
101 演算部
102 記憶部
103 入力部
104 出力部
150 ドライブ装置
151 記録媒体
152 補助記憶装置
153 メモリ装置
154 CPU
155 インターフェース装置
156 表示装置
157 入力装置

Claims (8)

  1.  入力層、中間層、及び出力層を有し、前記入力層のデータを前記出力層で再現するようにパラメータを学習するオートエンコーダの機能を備える異常検知装置であって、
     複数種別の正常データを入力する入力手段と、
     前記中間層において、正常データの次元数よりも小さい次元数のデータを用いて、データ種別間に跨る特徴を学習することにより、前記入力層の正常データを前記出力層で再現するようにパラメータを学習する学習手段と、
     前記学習手段により学習されたパラメータを用いた前記オートエンコーダにテストデータを入力し、当該オートエンコーダの出力データと、前記テストデータとに基づいて、当該テストデータの異常度を算出する異常度算出手段と
     を備えることを特徴とする異常検知装置。
  2.  前記オートエンコーダは、前記入力層としての第1層と、前記中間層としての3層である第2層、第3層、及び第4層と、前記出力層としての第5層とを有し、
     前記学習手段は、前記第2層と前記第4層において、正常データの次元数よりも小さい次元数でデータ種別毎の特徴を抽出し、前記第3層において、データ種別間に跨る特徴を抽出する
     ことを特徴とする請求項1に記載の異常検知装置。
  3.  前記学習手段は、前記入力層のデータと前記出力層のデータとの間のMSEを最小化するように前記パラメータを学習する、又は、前記出力層における値をパラメータとした、予め定めた確率分布の元で前記入力層のデータが観測される尤度関数の正負を逆転した値を最小化するように前記パラメータを学習する
     ことを特徴とする請求項1又は2に記載の異常検知装置。
  4.  前記学習手段は、データ種別毎の学習を個別に実行することにより得られたパラメータを初期値として使用することにより、前記オートエンコーダにおけるパラメータを学習する
     ことを特徴とする請求項1ないし3のうちいずれか1項に記載の異常検知装置。
  5.  前記異常度算出手段は、データ種別毎の重みを用いて、前記テストデータの異常度をデータ種別毎の再構成誤差の重み付け平均として算出する
     ことを特徴とする請求項1ないし4のうちいずれか1項に記載の異常検知装置。
  6.  前記学習手段は、データ種別毎の重みを用いて、データ種別毎の再構成誤差の重み付け平均を最小化するようなパラメータの学習を行う
     ことを特徴とする請求項1ないし5のうちいずれか1項に記載の異常検知装置。
  7.  入力層、中間層、及び出力層を有し、前記入力層のデータを前記出力層で再現するようにパラメータを学習するオートエンコーダの機能を備える異常検知装置が実行する異常検知方法であって、
     複数種別の正常データを入力する入力ステップと、
     前記中間層において、正常データの次元数よりも小さい次元数のデータを用いて、データ種別間に跨る特徴を学習することにより、前記入力層の正常データを前記出力層で再現するようにパラメータを学習する学習ステップと、
     前記学習ステップにより学習されたパラメータを用いた前記オートエンコーダにテストデータを入力し、当該オートエンコーダの出力データと、前記テストデータとに基づいて、当該テストデータの異常度を算出する異常度算出ステップと
     を備えることを特徴とする異常検知方法。
  8.  コンピュータを、請求項1ないし6のうちいずれか1項に記載の異常検知装置における各手段として機能させるためのプログラム。
PCT/JP2018/039987 2017-11-02 2018-10-26 異常検知装置、異常検知方法、及びプログラム WO2019087987A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019550352A JPWO2019087987A1 (ja) 2017-11-02 2018-10-26 異常検知装置、異常検知方法、及びプログラム
US16/760,709 US11615343B2 (en) 2017-11-02 2018-10-26 Anomaly detection apparatus, anomaly detection method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-212801 2017-11-02
JP2017212801 2017-11-02

Publications (1)

Publication Number Publication Date
WO2019087987A1 true WO2019087987A1 (ja) 2019-05-09

Family

ID=66333243

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/039987 WO2019087987A1 (ja) 2017-11-02 2018-10-26 異常検知装置、異常検知方法、及びプログラム

Country Status (3)

Country Link
US (1) US11615343B2 (ja)
JP (1) JPWO2019087987A1 (ja)
WO (1) WO2019087987A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112180720A (zh) * 2020-09-08 2021-01-05 武汉大学 一种基于模仿学习的纤维铺放工艺参数模型构建方法及系统
JP2021012633A (ja) * 2019-07-09 2021-02-04 日立金属株式会社 異常度算出方法、及び、異常度算出用コンピュータプログラム
WO2021095680A1 (ja) * 2019-11-14 2021-05-20 オムロン株式会社 推定システム、推定装置および推定方法
JP2021078076A (ja) * 2019-11-13 2021-05-20 株式会社Nttドコモ 異常検知モデル学習装置、異常検知モデル及び異常検知装置
CN113157520A (zh) * 2021-03-22 2021-07-23 武汉大学 一种基于变分自动编码器的分布式系统异常检测方法
JP7229496B1 (ja) 2022-09-12 2023-02-28 17Live株式会社 異常検出のためのシステム、方法、及びコンピュータ可読媒体
JP7436134B1 (ja) 2023-08-17 2024-02-21 チョーチアン ヘンイー ペトロケミカル カンパニー,リミテッド 染色効果予測方法、染色効果予測モデルのトレーニング方法、装置、電子デバイス、記憶媒体、及びプログラム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7140194B2 (ja) * 2018-08-10 2022-09-21 日本電信電話株式会社 異常検知装置、確率分布学習装置、自己符号化器学習装置、プログラム
US11178170B2 (en) * 2018-12-14 2021-11-16 Ca, Inc. Systems and methods for detecting anomalous behavior within computing sessions
US11263104B2 (en) * 2019-05-30 2022-03-01 Micro Focus Llc Mapping between raw anomaly scores and transformed anomaly scores
JP7344149B2 (ja) * 2020-02-07 2023-09-13 キオクシア株式会社 最適化装置及び最適化方法
US11537498B2 (en) * 2020-06-16 2022-12-27 Microsoft Technology Licensing, Llc Techniques for detecting atypical events in event logs
US20220044133A1 (en) * 2020-08-07 2022-02-10 Sap Se Detection of anomalous data using machine learning

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005237668A (ja) * 2004-02-26 2005-09-08 Kazuya Mera コンピュータネットワークにおける感情を考慮した対話装置
WO2017094267A1 (ja) * 2015-12-01 2017-06-08 株式会社Preferred Networks 異常検出システム、異常検出方法、異常検出プログラム及び学習済モデル生成方法
US20170220854A1 (en) * 2016-01-29 2017-08-03 Conduent Business Services, Llc Temporal fusion of multimodal data from multiple data acquisition systems to automatically recognize and classify an action
US20170293736A1 (en) * 2016-03-25 2017-10-12 Martin Kramer Case-based reasoning in the cloud using deep learning

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220188700A1 (en) * 2014-09-26 2022-06-16 Bombora, Inc. Distributed machine learning hyperparameter optimization
US10579923B2 (en) * 2015-09-15 2020-03-03 International Business Machines Corporation Learning of classification model
US11501106B2 (en) * 2017-02-02 2022-11-15 Nippon Telegraph And Telephone Corporation Anomaly factor estimation device, anomaly factor estimation method, and storage medium

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005237668A (ja) * 2004-02-26 2005-09-08 Kazuya Mera コンピュータネットワークにおける感情を考慮した対話装置
WO2017094267A1 (ja) * 2015-12-01 2017-06-08 株式会社Preferred Networks 異常検出システム、異常検出方法、異常検出プログラム及び学習済モデル生成方法
US20170220854A1 (en) * 2016-01-29 2017-08-03 Conduent Business Services, Llc Temporal fusion of multimodal data from multiple data acquisition systems to automatically recognize and classify an action
US20170293736A1 (en) * 2016-03-25 2017-10-12 Martin Kramer Case-based reasoning in the cloud using deep learning

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
IKEDA, YASUHIRO ET AL.: "A Review on Accuracy Improvement in Network Anomaly Detection using Auto Encoder", PROCEEDINGS OF THE 2017 IEICE GENERAL CONF., 7 March 2014 (2014-03-07), pages 127 *
IKEDA, YASUHIRO ET AL.: "Inferring causal parameters of anomalies detected by autoencoder using sparse optimization", IEICE TECHNICAL REPORT, vol. 117, no. 89, 8 June 2017 (2017-06-08), pages 61 - 66 *
SAKURADA, MAYU ET AL.: "Dimensionality Reduction with the Autoencoder for Anomaly Detection of Spacecrafts", PROCEEDINGS OF 28TH ANNUAL CONF., 13 June 2014 (2014-06-13), pages 1 - 3 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7268509B2 (ja) 2019-07-09 2023-05-08 株式会社プロテリアル 異常度算出方法、及び、異常度算出用コンピュータプログラム
JP2021012633A (ja) * 2019-07-09 2021-02-04 日立金属株式会社 異常度算出方法、及び、異常度算出用コンピュータプログラム
JP2021078076A (ja) * 2019-11-13 2021-05-20 株式会社Nttドコモ 異常検知モデル学習装置、異常検知モデル及び異常検知装置
JP7377678B2 (ja) 2019-11-13 2023-11-10 株式会社Nttドコモ 異常検知モデル学習装置、異常検知モデル及び異常検知装置
JP2021081794A (ja) * 2019-11-14 2021-05-27 オムロン株式会社 推定システム、推定装置および推定方法
WO2021095680A1 (ja) * 2019-11-14 2021-05-20 オムロン株式会社 推定システム、推定装置および推定方法
JP7286091B2 (ja) 2019-11-14 2023-06-05 オムロン株式会社 推定システム、推定装置および推定方法
CN112180720A (zh) * 2020-09-08 2021-01-05 武汉大学 一种基于模仿学习的纤维铺放工艺参数模型构建方法及系统
CN112180720B (zh) * 2020-09-08 2022-03-15 武汉大学 一种基于模仿学习的纤维铺放工艺参数模型构建方法及系统
CN113157520A (zh) * 2021-03-22 2021-07-23 武汉大学 一种基于变分自动编码器的分布式系统异常检测方法
CN113157520B (zh) * 2021-03-22 2022-04-15 武汉大学 一种基于变分自动编码器的分布式系统异常检测方法
JP7229496B1 (ja) 2022-09-12 2023-02-28 17Live株式会社 異常検出のためのシステム、方法、及びコンピュータ可読媒体
JP2024039820A (ja) * 2022-09-12 2024-03-25 17Live株式会社 異常検出のためのシステム、方法、及びコンピュータ可読媒体
JP7436134B1 (ja) 2023-08-17 2024-02-21 チョーチアン ヘンイー ペトロケミカル カンパニー,リミテッド 染色効果予測方法、染色効果予測モデルのトレーニング方法、装置、電子デバイス、記憶媒体、及びプログラム

Also Published As

Publication number Publication date
JPWO2019087987A1 (ja) 2020-11-12
US11615343B2 (en) 2023-03-28
US20200349470A1 (en) 2020-11-05

Similar Documents

Publication Publication Date Title
WO2019087987A1 (ja) 異常検知装置、異常検知方法、及びプログラム
Chen et al. Signal recovery on graphs: Variation minimization
Zhang et al. Robust non-negative matrix factorization
Rotnitzky et al. Inverse probability weighted estimation in survival analysis
Zhang et al. Decentralized fault diagnosis of large-scale processes using multiblock kernel principal component analysis
Cen et al. Boosting occluded image classification via subspace decomposition-based estimation of deep features
Hong et al. Online robust principal component analysis via truncated nuclear norm regularization
CN109522948A (zh) 一种基于正交局部保持投影的故障检测方法
CN110222213A (zh) 一种基于异构张量分解的图像分类方法
Zhang et al. Energy theft detection in an edge data center using threshold-based abnormality detector
Yin Data-driven design of fault diagnosis systems
Shah et al. Abnormality detection using deep neural networks with robust quasi-norm autoencoding and semi-supervised learning
KR102605692B1 (ko) 탐지대상 이미지에서의 이상 부분 탐지 방법 및 시스템, 이의 복원 모델 학습 방법
CN111325697B (zh) 一种基于张量本征变换的彩色图像修复方法
WO2016084326A1 (ja) 情報処理システム、情報処理方法、及び、記録媒体
Ebrahimi et al. Monitoring and root-cause diagnostics of high-dimensional data streams
Yu et al. Outlier detection and robust mixture modeling using nonconvex penalized likelihood
Yue Data decomposition for analytics of engineering systems: Literature review, methodology formulation, and future trends
Shankar et al. Progressive fusion for multimodal integration
JP2010128674A (ja) コンピュータネットワーク、異常検出装置、異常検出方法および異常検出プログラム
Ma et al. Fuzzy nodes recognition based on spectral clustering in complex networks
Dai Non-parametric efficiency estimation using Richardson–Lucy blind deconvolution
Laszkiewicz et al. Single-Model Attribution via Final-Layer Inversion
Popolizio et al. The GAIN Method for the Completion of Multidimensional Numerical Series of Meteorological Data.
López-Rubio et al. Robust self-organization with M-estimators

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18874808

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019550352

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18874808

Country of ref document: EP

Kind code of ref document: A1