WO2019160003A1 - モデル学習装置、モデル学習方法、プログラム - Google Patents

モデル学習装置、モデル学習方法、プログラム Download PDF

Info

Publication number
WO2019160003A1
WO2019160003A1 PCT/JP2019/005230 JP2019005230W WO2019160003A1 WO 2019160003 A1 WO2019160003 A1 WO 2019160003A1 JP 2019005230 W JP2019005230 W JP 2019005230W WO 2019160003 A1 WO2019160003 A1 WO 2019160003A1
Authority
WO
WIPO (PCT)
Prior art keywords
model learning
data
observed
abnormality
model
Prior art date
Application number
PCT/JP2019/005230
Other languages
English (en)
French (fr)
Inventor
祐太 河内
悠馬 小泉
登 原田
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US16/970,330 priority Critical patent/US20210081805A1/en
Publication of WO2019160003A1 publication Critical patent/WO2019160003A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01MTESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
    • G01M99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Definitions

  • the present invention relates to a model learning technique for learning a model used for detecting an abnormality from observation data, such as detecting a failure from the operation sound of a machine.
  • abnormality detection is a technical field called anomaly detection that discovers “abnormality”, which is a deviation from the normal state, from data acquired using a sensor (hereinafter referred to as sensor data) by an electric circuit or program.
  • sensor data data acquired using a sensor
  • an apparatus that uses a sensor that converts sound into an electrical signal, such as a microphone is called abnormal sound detection.
  • abnormality detection can be performed in the same manner for any abnormality detection domain other than sound, for example, arbitrary sensor data such as temperature, pressure, and displacement, and traffic data such as network traffic.
  • AUC Ana the receiver operating characteristic curve
  • Non-patent Document 3 there is a technology that applies a generation model called a variational auto-encoder (VAE) to abnormality detection.
  • VAE variational auto-encoder
  • the AUC optimization standard is superior in that it can directly learn the optimal model for anomaly detection tasks.
  • the conventional model learning with a variational autoencoder which performs unsupervised learning using only normal data, has the drawback that the expressiveness of the learned model is high, but the abnormality detection evaluation criteria are not always optimized. It was.
  • an object of the present invention is to provide a model learning technique that enables model learning of a variational auto encoder using an AUC optimization criterion regardless of the number of dimensions of a sample.
  • One aspect of the present invention uses a learning data set defined using normal data generated from sound observed at normal time and abnormal data generated from sound observed at abnormal time, to obtain a predetermined AUC value.
  • encoder q (z ⁇ x; ⁇ ) to construct latent variable z from observed variable x with parameter ⁇ and reconstruct observed variable x from latent variable z with parameter ⁇
  • a model learning unit for learning the parameters ⁇ ⁇ and ⁇ ⁇ of the model of the variational auto encoder composed of the decoder p (x
  • One aspect of the present invention uses a learning data set defined using normal data generated from sound observed at normal time and abnormal data generated from sound observed at abnormal time, to obtain a predetermined AUC value.
  • encoder q (z ⁇ x; ⁇ ) to construct latent variable z from observed variable x with parameter ⁇ and reconstruct observed variable x from latent variable z with parameter ⁇
  • a model learning unit for learning the parameters ⁇ ⁇ and ⁇ ⁇ of the model of the variational auto encoder composed of the decoder p (x
  • the prior distribution p (z) is defined as the origin and A of the densely in the peripheral distribution, the prior distribution p -
  • One embodiment of the present invention uses a learning data set defined using normal data generated from data observed at normal time and abnormal data generated from data observed at abnormal time, to obtain a predetermined AUC value.
  • encoder q (z ⁇ x; ⁇ ) to construct latent variable z from observed variable x with parameter ⁇ and reconstruct observed variable x from latent variable z with parameter ⁇
  • a model learning unit for learning the parameters ⁇ ⁇ and ⁇ ⁇ of the model of the variational auto encoder composed of the decoder p (x
  • the figure which shows the mode of a heavy side step function and its approximation function The block diagram which shows an example of a structure of the model learning apparatus 100/101.
  • the problem of the number of dimensions of data is solved by defining the degree of abnormality using a latent variable that can be set to an arbitrary dimension depending on the setting by the user.
  • the AUC optimization criterion is directly applied using this degree of abnormality, it is restricted to lower the degree of abnormality for normal data, but it is restricted to increase the degree of abnormality for abnormal data.
  • the formulation becomes small, and the degree of abnormality with respect to abnormal data diverges.
  • a collection of abnormal data X + ⁇ x i +
  • i ⁇ [1, ..., N +] ⁇ set of the normal data X - ⁇ x j -
  • Each set element corresponds to one sample such as a feature vector.
  • the (experience) AUC value is given by the following equation.
  • the function H (x) is a heavy side step function. That is, the function H (x) is a function that returns 1 when the value of the argument x is larger than 0, and returns 0 when the value is smaller.
  • the function I (x; ⁇ ) is a function that has a parameter ⁇ and returns the degree of abnormality corresponding to the argument x. Note that the value of the function I (x; ⁇ ) with respect to x is a scalar value, and may be the degree of abnormality of x.
  • Equation (1) indicates that for any pair of abnormal data and normal data, a model in which the abnormal degree of abnormal data is larger than the abnormal degree of normal data is preferable.
  • the value of the expression (1) becomes maximum when the abnormality degree of abnormal data is larger than the abnormality degree of normal data for all pairs, and the value is 1 at that time.
  • the criterion for obtaining the parameter ⁇ that maximizes (that is, optimizes) the AUC value is the AUC optimization criterion.
  • variational auto encoder is a (autoregressive) generation model that is originally learned by unsupervised learning.
  • the variational auto-encoder is an encoder for constructing a latent variable z from an observed variable x having a parameter ⁇ , in order to handle a latent variable z that can be set to an arbitrary number of dimensions of 1 or more in addition to the observed variable x.
  • the marginal likelihood maximization criterion of the variational auto-encoder based on normal unsupervised learning is replaced by using the maximization criterion of the variation lower bound value L ( ⁇ , ⁇ ; X ⁇ ) of the following equation.
  • z; ⁇ ) is a decoder for reconstructing the observation variable x from the latent variable z having the parameter ⁇ , that is, the posterior probability distribution of the observation variable x.
  • P (z) is a prior distribution with respect to the latent variable z.
  • p (z) a Gaussian distribution whose average is 0 and whose vector variance is a unit matrix is usually used.
  • p (z)] representing the distance from the prior distribution p (z) of the latent variable z in the above maximization criterion
  • the degree of abnormality I KL (x; ⁇ ) indicates that the larger the value, the more abnormal, and the smaller the value, the normal.
  • the dimension of the latent variable z can be arbitrarily set, the number of dimensions can be reduced by defining the degree of abnormality I KL (x; ⁇ ) using the equation (3).
  • the AUC value of Equation (1) using the degree of abnormality I KL (x; ⁇ ) does not include the reconstruction probability.
  • the approximate value of equation (1) can be increased by increasing the degree of abnormality I KL (x + ; ⁇ ) for abnormal data. Emanates. This problem is solved by including reconstruction probabilities that work to preserve the features of the observed variable x. This makes it difficult to set the degree of abnormality to an extremely large value, and it is possible to suppress the divergence of the degree of abnormality with respect to abnormal data.
  • Equation (6) has a form in which priority is given to the restriction of reconstruction because there is no restriction on the maximum value by the heavy side step function.
  • the degree of contribution of each term in Equation (5) and Equation (6) may be changed using a linear combination constant.
  • the linear combination constant related to the reconstruction probability term may be set to 0 (that is, the contribution of the reconstruction probability term is 0), and the learning may be terminated at any time point to prevent the divergence of the abnormality level from the abnormal data.
  • the balance of the contribution of each term in Equation (5) and Equation (6) can be calculated by actually evaluating the relationship between the degree of reconstruction restrictions and the AUC value in the anomaly detection target domain. It is good to choose so that AUC value of becomes high.
  • Section on the difference in error probability I KL (x i +; ⁇ ) -I KL (x j -; ⁇ ) is the prior distribution p (z) mean 0, when using a Gaussian distribution vector variance is the identity matrix The following equation is obtained.
  • ⁇ i + and ⁇ i + , ⁇ j ⁇ and ⁇ j ⁇ are parameters of the encoder q (z
  • the latent variable z is multidimensional, the sum of terms relating to the difference in degree of abnormality for each dimension may be taken.
  • the AUC value is unchanged.
  • the AUC values in the equations (5) and (6) coincide with the (experience) AUC values.
  • the reconstruction probability term may be an arbitrary function that represents a regression problem, a discrimination problem, or the like depending on the type of vector of the observed variable, for example, a continuous vector or a discrete vector.
  • AUC optimization was performed by approximating the heavy side step function H (x) using a continuous function that can be differentiated and sub-differentiated.
  • KL divergence can be increased as much as possible, a constraint should be placed on the maximum value of the heavy side step function H (x).
  • the minimum value and the maximum value of the heavy side step function H (x) are 0 and 1, respectively, and not only the maximum value but also the minimum value is constrained.
  • it is desirable that the minimum value is not restricted.
  • softplus function (modification) softplus ′ (x) is given by the following equation.
  • Equation (8) is a function that linearly costs the degree of abnormality reversal, and the function of equation (9) is a differentiable approximation function.
  • FIG. 1 shows the appearance of the heavy side step function and its approximate function (standard sigmoid function, ramp function, soft plus function).
  • FIG. 1 can be regarded as a case where the positive region has succeeded in detecting an abnormality for a pair of normal data and abnormal data, and the negative region has failed, with 0 as a boundary.
  • the parameter ⁇ can be optimized by the gradient method etc. so as to optimize the AUC value (approximate AUC value) using these approximate functions as shown in Equation (10). Can do.
  • This approximate AUC value optimization standard partially includes the marginal likelihood maximization standard of the variational auto-encoder based on the conventional unsupervised learning, so it can be expected to operate stably. This will be specifically described.
  • the degree of anomaly inversion is large, that is, in the negative limit
  • the heavy side step function H (x) is approximated to x + 1, so the approximate AUC value is The following equation is obtained.
  • the term RP (Z j ⁇ ; ⁇ ) ⁇ I KL (x j ⁇ ; ⁇ ) in the equation (11) coincides with the marginal likelihood of the variational auto encoder by unsupervised learning using normal data.
  • the sign of the KL divergence term is reversed from the normal marginal likelihood. That is, when the degree of abnormality reversal is large as in the early learning stage where the abnormality detection performance is low, normal data is learned in the same manner as in the conventional method.
  • learning is performed in a direction to separate the posterior distribution q (z
  • the approximate function of the heavy side step function H (x) is 1 (identity function), and the posterior distribution q (z
  • the gradient in the direction of separating x; ⁇ ) is weakened, and it is spontaneously prevented that I KL (x; ⁇ ), which is the degree of abnormality, increases indefinitely.
  • FIG. 2 is a block diagram illustrating a configuration of the model learning device 100.
  • FIG. 3 is a flowchart showing the operation of the model learning device 100.
  • the model learning device 100 includes a preprocessing unit 110, a model learning unit 120, and a recording unit 190.
  • the recording unit 190 is a component that appropriately records information necessary for processing of the model learning device 100.
  • the preprocessing unit 110 generates learning data from the observation data.
  • the observation data is a sound that is observed in a normal state or a sound that is observed in an abnormal state, such as a normal operation sound of a machine or a sound waveform of an abnormal operation sound.
  • the observation data includes both data observed at normal time and data observed at abnormal time.
  • learning data generated from observation data is generally expressed as a vector.
  • the observation data that is, the sound observed at normal time or the sound observed at abnormal time is AD (analog-digital) converted at an appropriate sampling frequency to generate quantized waveform data.
  • the waveform data quantized in this way may be used as learning data, in which one-dimensional values are arranged in time series as they are, or may be extended to multi-dimensions using multiple sample concatenation, discrete Fourier transform, filter bank processing, and the like. What has undergone feature extraction processing may be used as learning data, or learning data may be obtained by performing processing such as calculating the average and variance of data to normalize the value range.
  • the same processing may be performed on continuous amounts such as temperature and humidity and current values.
  • continuous amounts such as temperature and humidity and current values.
  • frequency and text characters, word strings, etc.
  • a feature vector may be constructed using numerical values and 1-of-K representation, and the same processing may be performed.
  • learning data generated from normal observation data is referred to as normal data
  • learning data generated from abnormal observation data is referred to as abnormal data.
  • Abnormal data set X + ⁇ x i +
  • the normal data set X - ⁇ x j -
  • the Cartesian product set X ⁇ (x i + , x j ⁇ )
  • the learning data set is a set defined using normal data and abnormal data.
  • the model learning unit 120 uses the learning data set defined using the normal data and the abnormal data generated in S110, and has an observation variable having a parameter ⁇ based on a criterion using a predetermined AUC value. It consists of an encoder q (z ⁇ x; ⁇ ) for constructing a latent variable z from x and a decoder p (x
  • the AUC value is a scale for measuring the difference between the prior distribution p (z) with respect to the encoder q (z ⁇ x; ⁇ ) and the latent variable z (hereinafter referred to as the degree of abnormality) and the decoder p (x
  • a measure for measuring the difference between the encoder q (z ⁇ x; ⁇ ) and the prior distribution p (z) is, for example, for the prior distribution p (z) of the encoder q (z ⁇ x; ⁇ ) as shown in Equation (3). Defined as the amount of Cullback library information.
  • the reconstruction probability is defined as shown in Equation (4) when a logarithmic function is used as a function for substituting the decoder p (x
  • the AUC value is calculated as in, for example, Expression (5) or Expression (6). That is, the AUC value is a value defined using the sum of the value calculated from the degree of abnormality and the value calculated from the reconstruction probability.
  • the model learning unit 120 learns the parameters ⁇ ⁇ and ⁇ ⁇ using the AUC value, it learns using the optimization criterion.
  • any optimization method can be used.
  • the stochastic gradient method a learning batch that has a direct product of abnormal data and normal data as an element may be decomposed into a mini-batch set of arbitrary units, and the mini-batch gradient method may be used.
  • the above learning may be started by using, as an initial value, parameters ⁇ and ⁇ of a model learned on the basis of the marginal likelihood maximization for a normal unsupervised variational auto encoder.
  • FIG. 4 is a block diagram illustrating a configuration of the abnormality detection device 200.
  • FIG. 5 is a flowchart showing the operation of the abnormality detection apparatus 200.
  • the abnormality detection apparatus 200 includes a preprocessing unit 110, an abnormality degree calculation unit 220, an abnormality determination unit 230, and a recording unit 190.
  • the recording unit 190 is a component that appropriately records information necessary for processing of the abnormality detection apparatus 200. For example, the parameters ⁇ ⁇ and ⁇ ⁇ generated by the model learning device 100 are recorded.
  • the preprocessing unit 110 generates abnormality detection target data from the observation data to be the abnormality detection target.
  • the abnormality detection target data x is generated by the same method as the preprocessing unit 110 of the model learning device 100 generates learning data.
  • the abnormality degree calculation unit 220 calculates the abnormality degree from the abnormality detection target data x generated in S110, using the parameters recorded in the recording unit 190.
  • an amount obtained by combining I KL (x; ⁇ ⁇ ) and the amount calculated using the reconstruction probability or the reconstruction error by addition or the like may be used as the degree of abnormality.
  • a variational lower bound value as shown in Equation (2) may be used as the degree of abnormality. That is, the degree of abnormality used in the abnormality detection device 200 may not be the same as the degree of abnormality used in the model learning device 100.
  • the abnormality determination unit 230 generates a determination result indicating whether or not the observation data to be detected as an abnormality is abnormal, based on the degree of abnormality calculated in S220. For example, using a predetermined threshold value, a determination result indicating abnormality is generated when the degree of abnormality is equal to or greater than the threshold value (or greater than the threshold value).
  • the user may determine and select which model to use.
  • a selection method the following quantitative method or There is a qualitative approach.
  • ⁇ Quantitative method> Prepare an evaluation set (corresponding to the learning data set) that has the same tendency as the anomaly detection target, and judge the performance of each model based on the size of the original experience AUC value or approximate AUC value calculated for each model .
  • the dimension of the latent variable z is set to 2 by, for example, setting the dimension to 2 using a dimension reduction algorithm.
  • a two-dimensional latent variable space is divided into grids, and the latent variables are reconstructed by a decoder and visualized. This method can be reconstructed without distinguishing between normal data and abnormal data. If learning is successful (model accuracy is good), normal data is distributed near the origin and abnormal data is the origin. It is distributed away from the data. By visually confirming this distribution, the degree of success or failure of each model can be determined.
  • Model learning based on the AUC optimization standard is model learning so as to optimize the difference between the degree of abnormality for normal data and the degree of abnormality for abnormal data. Therefore, even for a method of optimizing a value (corresponding to an AUC value) defined using pAUC optimization (reference non-patent document 4) similar to AUC optimization and other abnormalities, ⁇ Technology Model learning can be performed by performing the same replacement described in the above.
  • Reference Non-Patent Document 4 Harikrishna Narasimhan and Shivani Agarwal, “A structural SVM based approach for optimizing partial AUC”, Proceeding of the 30th International Conference on Machine Learning, pp.516-524, 2013.
  • P (z) prior distribution for the latent variable z to normal data the prior distribution of potential variables z for abnormal data p - and (z), the prior distribution p (z), such as gather the origin of the latent variable space
  • the distribution that is, the constraint that the distribution is dense at the origin and the periphery thereof, and the prior distribution p ⁇ (z) is provided with the constraint that the distribution is sparse at the origin and the periphery thereof.
  • a prior distribution p (z) for example, the average is 0, the Gaussian distribution variance is 1, prior distribution p - as (z), for example, the distribution of the following formula Can be used.
  • N (z; 0, s 2 ) is a Gaussian distribution with an average of 0 and variance s 2
  • N (z; 0,1) is a Gaussian distribution with an average of 0 and variance of 1
  • Y is a predetermined constant.
  • s is a hyperparameter whose value is usually determined experimentally.
  • FIG. 2 is a block diagram illustrating a configuration of the model learning apparatus 101.
  • FIG. 3 is a flowchart showing the operation of the model learning apparatus 101.
  • the model learning device 101 includes a preprocessing unit 110, a model learning unit 121, and a recording unit 190.
  • the recording unit 190 is a component that appropriately records information necessary for processing of the model learning apparatus 101.
  • model learning unit 121 will be described.
  • the model learning unit 121 uses the learning data set defined using the normal data and the abnormal data generated in S110, and has an observation variable having a parameter ⁇ based on a criterion using a predetermined AUC value. It consists of an encoder q (z ⁇ x; ⁇ ) for constructing a latent variable z from x and a decoder p (x
  • the AUC value is a scale (hereinafter referred to as anomaly) for measuring the difference between the encoder q (z
  • the encoder q encoder q It is done.
  • the reconstruction probability is defined by equation (4) when a logarithmic function is used as a function for substituting the decoder p (x
  • the AUC value is calculated as in, for example, Expression (5) or Expression (6). That is, the AUC value is a value defined using the sum of the value calculated from the degree of abnormality and the value calculated from the reconstruction probability.
  • the model learning unit 121 learns the parameters ⁇ ⁇ and ⁇ ⁇ using the AUC values
  • the model learning unit 121 learns using the optimization criterion by the same method as the model learning unit 120.
  • model learning of a variational autoencoder using an AUC optimization criterion is possible regardless of the number of dimensions of a sample.
  • learning the model according to the AUC optimization standard using the latent variable z of the variational auto-encoder it is possible to avoid the dimensional curse of the conventional method using a regression error or the like.
  • by incorporating the reconstruction probability into the AUC value by addition it becomes possible to suppress the divergence phenomenon of the abnormality degree for the abnormal data.
  • the model learning using the conventional marginal likelihood maximization criterion is partially taken in, and normal data that reverses the degree of abnormality and Stable learning can be realized even when there are many pairs of abnormal data.
  • the apparatus of the present invention includes, for example, a single hardware entity as an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, and a communication device (for example, a communication cable) capable of communicating outside the hardware entity.
  • a communication unit a CPU (Central Processing Unit, may include a cache memory or a register), a RAM or ROM that is a memory, an external storage device that is a hard disk, and an input unit, an output unit, or a communication unit thereof ,
  • the hardware entity may be provided with a device (drive) that can read and write a recording medium such as a CD-ROM.
  • a physical entity having such hardware resources includes a general-purpose computer.
  • the external storage device of the hardware entity stores a program necessary for realizing the above functions and data necessary for processing the program (not limited to the external storage device, for example, reading a program) It may be stored in a ROM that is a dedicated storage device). Data obtained by the processing of these programs is appropriately stored in a RAM or an external storage device.
  • each program stored in an external storage device or ROM or the like
  • data necessary for processing each program are read into a memory as necessary, and are interpreted and executed by a CPU as appropriate.
  • the CPU realizes a predetermined function (respective component requirements expressed as the above-described unit, unit, etc.).
  • the processing functions in the hardware entity (the device of the present invention) described in the above embodiment are realized by a computer, the processing contents of the functions that the hardware entity should have are described by a program. Then, by executing this program on a computer, the processing functions in the hardware entity are realized on the computer.
  • the program describing the processing contents can be recorded on a computer-readable recording medium.
  • a computer-readable recording medium for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
  • a magnetic recording device a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only) Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording media, MO (Magneto-Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.
  • this program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program first stores a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device.
  • the computer reads a program stored in its own recording medium and executes a process according to the read program.
  • the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer.
  • the processing according to the received program may be executed sequentially.
  • the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes a processing function only by an execution instruction and result acquisition. It is good.
  • the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
  • the hardware entity is configured by executing a predetermined program on the computer.
  • a predetermined program on the computer.
  • at least a part of these processing contents may be realized in hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Testing Of Devices, Machine Parts, Or Other Structures Thereof (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

サンプルの次元数にかかわらず、AUC最適化基準を用いた変分オートエンコーダのモデル学習を可能とするモデル学習技術を提供する。正常時に観測される音から生成される正常データと異常時に観測される音から生成される異常データを用いて定義される学習データ集合を用いて、所定のAUC値を用いた基準に基づいて、パラメータφを持つ、観測変数xから潜在変数zを構成するためのエンコーダq(z│x; φ)とパラメータθを持つ、潜在変数zから観測変数xを再構成するためのデコーダp(x| z; θ)とからなる変分オートエンコーダのモデルのパラメータθ^, φ^を学習するモデル学習部とを含み、AUC値は、エンコーダq(z│ x; φ)と潜在変数zに関する事前分布p(z)の差異を測る尺度と再構成確率を用いて定義されるものである。

Description

モデル学習装置、モデル学習方法、プログラム
 本発明は、機械の動作音から故障を検知する等、観測データから異常を検知するために用いるモデルを学習するモデル学習技術に関する。
 例えば、機械の故障を故障前に発見することや、故障後に素早く発見することは、業務の継続性の観点で重要である。これを省力化するための方法として、センサを用いて取得したデータ(以下、センサデータという)から、電気回路やプログラムにより、正常状態からの乖離である「異常」を発見する異常検知という技術分野が存在する。特に、マイクロフォン等のように、音を電気信号に変換するセンサを用いるものを異常音検知と呼ぶ。また、音以外の、例えば、温度、圧力、変位等の任意のセンサデータやネットワーク通信量のようなトラフィックデータを対象とする任意の異常検知ドメインについても、同様に異常検知を行うことができる。
 異常検知分野において、異常検知の精度の良さを表す代表的尺度としてAUC(Area under the receiver operating characteristic curve)がある。このAUCを直接教師あり学習において最適化するアプローチであるAUC最適化という技術がある(非特許文献1、非特許文献2)。
 また、変分オートエンコーダ(VAE: Variational Autoencoder)という生成モデルを異常検知に適用する技術もある(非特許文献3)。
Akinori Fujino and Naonori Ueda, "A Semi-Supervised AUC Optimization Method with Generative Models", 2016 IEEE 16th International Conference on Data Mining (ICDM), IEEE, pp.883-888, 2016. Alan Herschtal and Bhavani Raskutti, "Optimising area under the ROC curve using gradient descent", ICML '04, Proceedings of the twenty-first international conference on Machine learning, ACM, 2004. Jinwon An and Sungzoon Cho, "Variational Autoencoder based Anomaly Detection using Reconstruction Probability", インターネット<URL: http://dm.snu.ac.kr/static/docs/TR/SNUDM-TR-2015-03.pdf>, 2015.
 AUC最適化基準は、異常検知タスクに対して最適なモデルを直接学習できる点において優れている。一方、正常データのみを用いて教師なし学習を行う、従来の変分オートエンコーダによるモデル学習では、学習したモデルの表現力は高いが、異常検知評価基準を最適にするとは限らないという欠点があった。
 そこで、AUC最適化基準を変分オートエンコーダによるモデル学習に適用することが考えられるが、適用にあたっては、サンプル(観測データ)の異常度合を表す「異常度」の定義が重要になる。異常度の定義によく利用されるものとして再構成確率があるが、この再構成確率はサンプルの持つ次元数に依存した形で異常度を定義するため、次元の大きさに起因する「次元の呪い」を回避することができないという問題がある(参考非特許文献1)。
(参考非特許文献1:Arthur Zimek, Erich Schubert, and Hans-Peter Kriegel, “A survey on unsupervised outlier detection in high-dimensional numerical data”, Statistical Analysis and Data Mining, Vol.5, Issue 5, pp.363-387, 2012.)
 つまり、サンプルの次元数が大きい場合、AUC最適化基準を用いて変分オートエンコーダのモデル学習を行うことは容易ではない。
 そこで本発明では、サンプルの次元数にかかわらず、AUC最適化基準を用いた変分オートエンコーダのモデル学習を可能とするモデル学習技術を提供することを目的とする。
 本発明の一態様は、正常時に観測される音から生成される正常データと異常時に観測される音から生成される異常データを用いて定義される学習データ集合を用いて、所定のAUC値を用いた基準に基づいて、パラメータφを持つ、観測変数xから潜在変数zを構成するためのエンコーダq(z│x; φ)とパラメータθを持つ、潜在変数zから観測変数xを再構成するためのデコーダp(x| z; θ)とからなる変分オートエンコーダのモデルのパラメータθ^, φ^を学習するモデル学習部とを含み、前記AUC値は、エンコーダq(z│ x; φ)と潜在変数zに関する事前分布p(z)の差異を測る尺度(以下、異常度という)と再構成確率を用いて定義されるものである。
 本発明の一態様は、正常時に観測される音から生成される正常データと異常時に観測される音から生成される異常データを用いて定義される学習データ集合を用いて、所定のAUC値を用いた基準に基づいて、パラメータφを持つ、観測変数xから潜在変数zを構成するためのエンコーダq(z│x; φ)とパラメータθを持つ、潜在変数zから観測変数xを再構成するためのデコーダp(x| z; θ)とからなる変分オートエンコーダのモデルのパラメータθ^, φ^を学習するモデル学習部とを含み、前記AUC値は、エンコーダq(z│ x; φ)と、正常データに対する潜在変数zに関する事前分布p(z)または異常データに対する潜在変数zに関する事前分布p-(z)の差異を測る尺度(以下、異常度という)と再構成確率を用いて定義されるものであり、前記事前分布p(z)は、原点およびその周辺において密となる分布であり、前記事前分布p-(z)は、原点およびその周辺において疎となる分布である。
 本発明の一態様は、正常時に観測されるデータから生成される正常データと異常時に観測されるデータから生成される異常データを用いて定義される学習データ集合を用いて、所定のAUC値を用いた基準に基づいて、パラメータφを持つ、観測変数xから潜在変数zを構成するためのエンコーダq(z│x; φ)とパラメータθを持つ、潜在変数zから観測変数xを再構成するためのデコーダp(x| z; θ)とからなる変分オートエンコーダのモデルのパラメータθ^, φ^を学習するモデル学習部とを含み、前記AUC値は、エンコーダq(z│ x; φ)と潜在変数zに関する事前分布p(z)の差異を測る尺度(以下、異常度という)と再構成確率を用いて定義されるものである。
 本発明によれば、サンプルの次元数にかかわらず、AUC最適化基準を用いた変分オートエンコーダのモデル学習が可能となる。
ヘヴィサイド階段関数とその近似関数の様子を示す図。 モデル学習装置100/101の構成の一例を示すブロック図。 モデル学習装置100/101の動作の一例を示すフローチャート。 異常検知装置200の構成の一例を示すブロック図。 異常検知装置200の動作の一例を示すフローチャート。
 以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
 本発明の実施の形態では、ユーザによる設定次第で任意の次元にすることができる潜在変数を用いた異常度を定義することにより、データの次元数の問題を解決する。しかし、この異常度を用いてAUC最適化基準を直接適用すると、正常データに対する異常度を下降させることに対しては制約されるが、異常データに対する異常度を上昇させることに対しては制約が少ない定式化となり、異常データに対する異常度が発散してしまう。このように異常度が発散するように学習が行われると、パラメータの絶対値が大きくなり、数値計算が不安定になるなどの不都合が生じることがある。そこで、再構成確率をAUC値の定義に取り込み、自己回帰も同時に行う形でモデル学習することにより、異常データに対する異常度の発散を抑制することが可能な変分オートエンコーダのモデル学習方法を提案する。
 まず、本発明の実施の形態の技術的背景について説明する。
<技術的背景>
 以下の説明に登場する小文字の変数は、特記なき場合、スカラーまたは(縦)ベクトルを表すものとする。
 パラメータψを持つモデルを学習するにあたり、異常データの集合X+={xi +| i∈[1, …, N+]}と正常データの集合X-={xj -| j∈[1, …, N-]}を用意する。各集合の要素は特徴量ベクトル等の1サンプルに相当する。
 要素数N=N+×N-である異常データ集合X+と正常データ集合X-の直積集合X={(xi +, xj -)|i∈[1, …, N+], j∈[1, …, N-]}を学習データ集合とする。このとき、(経験)AUC値は、次式により与えられる。
Figure JPOXMLDOC01-appb-M000003
 ただし、関数H(x)は、ヘヴィサイド階段関数である。つまり、関数H(x)は、引数xの値が0より大きいときは1を、小さいときは0を返す関数である。また、関数I(x; ψ)は、パラメータψを持つ、引数xに対応する異常度を返す関数である。なお、xに対する関数I(x;ψ)の値は、スカラー値であり、xの異常度ということもある。
 式(1)は、任意の異常データと正常データのペアに対して、異常データの異常度が正常データの異常度より大きくなるモデルが好ましいことを表す。また、式(1)の値が最大になるのは、すべてのペアに対して異常データの異常度が正常データの異常度より大きい場合であり、そのとき、値は1となる。このAUC値を最大(つまり、最適)にするパラメータψを求める基準がAUC最適化基準である。
 一方、変分オートエンコーダは、本来、教師なし学習により学習される(自己回帰)生成モデルである。この変分オートエンコーダを異常検知に用いる際は、正常データのみを用いて学習を行い、再構成誤差、再構成確率、変分下界値等を用いて定義される、適当な異常度を用いて異常検知を行うことが普通である。
 しかしながら、再構成誤差などを用いて定義される上記異常度はいずれも回帰誤差を含むため、サンプルの次元数が大きい場合、次元の呪いを回避することができない。つまり、球面集中現象により、正常・異常に関わらず、同じような異常度しか出力されなくなることが起こる。この問題に対する通常のアプローチは、次元数を落とすことである。
 変分オートエンコーダは、観測変数xに加えて、1以上の任意の次元数を設定可能な潜在変数zを扱うため、パラメータφを持つ、観測変数xから潜在変数zを構成するためのエンコーダ、つまり、潜在変数zの事後確率分布q(z│ x; φ)により、観測変数xを潜在変数zに変換し、その結果を用いたAUC最適化基準による学習を考えることができる。
 通常の教師なし学習による変分オートエンコーダの周辺尤度最大化基準は、次式の変分下界値L(θ, φ; X-)の最大化基準を用いて代替される。
Figure JPOXMLDOC01-appb-M000004
 ただし、p(x|z; θ)は、パラメータθを持つ、潜在変数zから観測変数xを再構成するためのデコーダ、つまり、観測変数xの事後確率分布である。また、p(z)は潜在変数zに関する事前分布である。p(z)には、通常、平均が0、ベクトル分散が単位行列であるガウス分布が用いられる。
 上記最大化基準における、潜在変数zの事前分布p(z)からの遠さを表すKLダイバージェンスKL[q(z│x;φ)|| p(z)]を用いて、次式により異常度IKL(x;φ)を定義する。
Figure JPOXMLDOC01-appb-M000005
 異常度IKL(x;φ)は、値が大きいほど異常、小さいほど正常であることを示す。また、潜在変数zの次元は任意に設定することが可能であるため、式(3)により異常度IKL(x;φ)を定義することで次元数を削減することが可能である。
 しかし、異常度IKL(x;φ)を用いた式(1)のAUC値は、再構成確率を含まない。このため、後述するヘヴィサイド階段関数の近似法によっては、異常データに対する異常度IKL(x+;φ)を上げることでいくらでも式(1)の近似値を上げることができてしまい、異常度が発散する。この問題を、観測変数xの特徴を保持するように働く再構成確率を含めることにより、解決する。これにより、異常度を極端に大きな値にすることが困難になり、異常データに対する異常度の発散を抑制することが可能となる。
 そこで、次式の再構成確率RP(Z={z(l)}; θ)を用いて式(1)を再定義することを考える。
Figure JPOXMLDOC01-appb-M000006
 具体的には、パラメータセットψ={θ, φ}に対して、再構成確率RP(Z={z(l)};θ)を統合したAUC値を次式により定義する。
Figure JPOXMLDOC01-appb-M000007
 または、再構成確率RP(Z={z(l)};θ)をヘヴィサイド階段関数の外に出した次式により定義する。
Figure JPOXMLDOC01-appb-M000008
 式(5)、式(6)のAUC値を用いると、観測変数の再構成とAUC最適化を同時に行うことができるようになる。また、式(5)に対して、式(6)の方がヘヴィサイド階段関数による最大値の制約がない分、再構成の制約を優先した形式となっている。
 また、線形結合定数を用いて式(5)、式(6)の各項の寄与度を変えてもよい。特に、再構成確率項に関する線形結合定数を0(つまり、再構成確率項の寄与を0)とし、任意の時点で学習を打ち切ることにより、異常データに対する異常度の発散を防止してもよい。式(5)、式(6)の各項の寄与度のバランスは、例えば、再構成の制約の程度と異常検知対象ドメインでのAUC値の関係を実際に評価して、異常検知対象ドメインでのAUC値が高くなるように選ぶとよい。
 異常度の差に関する項IKL(xi +;φ)-IKL(xj -;φ)は、事前分布p(z)として平均が0、ベクトル分散が単位行列であるガウス分布を用いる場合、次式のようになる。
Figure JPOXMLDOC01-appb-M000009
 ただし、μi +及びσi +、μj -及びσj -は、異常データxi +、正常データxj -に対応したエンコーダq(z│x;φ)のパラメータである。
 なお、潜在変数zが多次元である場合、各次元についての異常度の差に関する項の和をとってもよい。
 再構成確率RP(Z={z(l)};θ)の最大値が0となる場合(再構成が完璧に行える場合)は、AUC値が不変であることもわかる。つまり、式(5)、式(6)のAUC値は(経験)AUC値と一致する。例えば、再構成確率密度p(x|z(l);θ)の最大値が1となるケースが該当する。なお、再構成確率項には、観測変数のベクトルの種類、例えば、連続ベクトル、離散ベクトルの別に応じて、回帰問題、判別問題等を表現する任意の関数を用いてもよい。
 式(5)、式(6)をパラメータについて微分し、勾配を取り、適当な勾配法を用いることにより、最適なパラメータψ^={θ^, φ^}の導出が可能であるが、ヘヴィサイド階段関数H(x)は原点において微分不可能であるため、このままではうまくいかない。
 そこで、従来は、微分・劣微分可能な連続関数を用いてヘヴィサイド階段関数H(x)を近似することでAUC最適化を行っていた。ここで、KLダイバージェンスはいくらでも大きくすることができるため、ヘヴィサイド階段関数H(x)の最大値に対して制約を設けるべきであることがわかる。実際、ヘヴィサイド階段関数H(x)の最小値と最大値はそれぞれ0と1であり、最大値だけでなく、最小値についても制約が設定されている。しかし、正常、異常の間で異常度の逆転が著しい(「異常度逆転」する)場合に対するペナルティを大きくしたいという意味では、最小値にはむしろ制約を設けない方が望ましい。AUC最適化における関数近似法には様々なものが知られている(例えば、参考非特許文献2、参考非特許文献3、参考非特許文献4)が、以下では、ランプ関数とソフトプラス関数を用いた近似法について説明する。
(参考非特許文献2:Charanpal Dhanjal, Romaric Gaudel and Stephan Clemencon, “AUC Optimisation and Collaborative Filtering”, arXiv preprint, arXiv:1508.06091,2015.)
(参考非特許文献3:Stijn Vanderlooy and Eyke Hullermeier, “A critical analysis of variants of the AUC”, Machine Learning, Vol.72, Issue 3, pp.247-262, 2008.)
(参考非特許文献4:Steffen Rendle, Christoph Freudenthaler, Zeno Gantner and Lars Schmidt-Thieme, “BPR: Bayesian personalized ranking from implicit feedback”, UAI '09, Proceedings of the Twenty-Fifth Conference on Uncertainty in Artificial Intelligence, pp.452-461, 2009.)
 最大値を制約するランプ関数(の変形)ramp’(x)は、次式で与えられる。
Figure JPOXMLDOC01-appb-M000010
 また、ソフトプラス関数(の変形)softplus’(x)は、次式で与えられる。
Figure JPOXMLDOC01-appb-M000011
 式(8)の関数は異常度逆転に対して線形にコストを掛ける関数であり、式(9)の関数は微分可能な近似関数である。
 ソフトプラス関数(式(9))を用いた、式(5)のAUC値は、次式のようになる。
Figure JPOXMLDOC01-appb-M000012
 ソフトプラス関数を用いると、引数の値が十分大きい、つまり異常判定に成功したとみなせる場合には、ヘヴィサイド階段関数、標準シグモイド関数、ランプ関数と同様、1に近い値を返し、引数が十分小さい、つまり極端な異常度逆転を起こしている場合には、ランプ関数と同様、異常度逆転の程度に比例した値をペナルティとして返すことができる。
 また、標準シグモイド関数では、異常検知に成功した場合についても関数の傾きが存在するため、厳密なAUCには存在しなかった、異常データの異常度と正常データの異常度との間のマージンを引き離す効果が存在する。異常度間のマージンの大きさは、厳密なAUCでは測定していないが異常検知タスクにおいて重要な尺度であり、これが大きいほど外乱に対して頑健であることを意味する。ソフトプラス関数を用いた近似である式(10)においても正の領域において傾きが存在するため、標準シグモイド関数が有する上記のような効果が期待できる。
 関数近似について、全体を右にずらすことで任意の大きさのマージンを得るように、また、全体を左にずらすことである程度の異常検知ミスを許容するように設計できることが知られているため、いずれの近似関数についても引数に定数の和をとってもよい。
 図1は、ヘヴィサイド階段関数とその近似関数(標準シグモイド関数、ランプ関数、ソフトプラス関数)の様子を示すものである。図1は、0を境として、正領域が正常データと異常データのペアに対して異常検知に成功した場合、負領域が失敗した場合とみることができる。
 ヘヴィサイド階段関数の近似関数を用いると、式(10)のような、これらの近似関数を用いたAUC値(近似AUC値)を最適化するように勾配法等でパラメータψを最適化することができる。
 この近似AUC値最適化基準は、部分的に従来の教師なし学習による変分オートエンコーダの周辺尤度最大化基準を含んでいるため、安定して動作することが期待できる。具体的に説明する。ランプ関数またはソフトプラス関数を用いた近似では、異常度逆転の程度が大きい場合、つまり負の極限において、ヘヴィサイド階段関数H(x)が、x+1と近似されるため、近似AUC値は、次式のようになる。
Figure JPOXMLDOC01-appb-M000013
 ここで、式(11)の項RP(Zj -;θ)-IKL(xj -;φ)は、正常データを用いた教師なし学習による変分オートエンコーダの周辺尤度と一致する。また、異常データについては、通常の周辺尤度からKLダイバージェンス項の符号を逆転したものとなっている。つまり、異常検知性能の低い学習初期のように、異常度逆転の程度が大きい場合には、正常データについては従来法と同様の学習をする。一方、異常データについては再構成を行いつつも、潜在変数zの事前分布p(z)から事後分布q(z│ x;φ)を引き離す方向に学習する。また、学習が十分に進み、異常判定に成功したと強くみなせる場合には、ヘヴィサイド階段関数H(x)の近似関数は1(恒等関数)となり、異常データについての事後分布q(z│ x;φ)を引き離す方向の勾配が弱まり、異常度であるIKL(x;φ)が無限に増大することが自発的に防止される。
<第一実施形態>
(モデル学習装置100)
 以下、図2~図3を参照してモデル学習装置100を説明する。図2は、モデル学習装置100の構成を示すブロック図である。図3は、モデル学習装置100の動作を示すフローチャートである。図2に示すようにモデル学習装置100は、前処理部110と、モデル学習部120と、記録部190を含む。記録部190は、モデル学習装置100の処理に必要な情報を適宜記録する構成部である。
 以下、図3に従いモデル学習装置100の動作について説明する。
 S110において、前処理部110は、観測データから学習データを生成する。異常音検知を対象とする場合、観測データは、機械の正常動作音や異常動作音の音波形のような正常時に観測される音や異常時に観測される音である。このように、どのような分野を異常検知の対象としても、観測データは正常時に観測されるデータと異常時に観測されるデータの両方を含む。
 また、観測データから生成される学習データは、一般にベクトルとして表現される。異常音検知を対象とする場合、観測データ、つまり正常時に観測される音や異常時に観測される音を適当なサンプリング周波数でAD(アナログデジタル)変換し、量子化した波形データを生成する。このように量子化した波形データをそのまま1次元の値が時系列に並んだデータを学習データとしてもよいし、複数サンプルの連結、離散フーリエ変換、フィルタバンク処理等を用いて多次元に拡張する特徴抽出処理をしたものを学習データとしてもよいし、データの平均、分散を計算して値の取り幅を正規化する等の処理をしたものを学習データとしてもよい。異常音検知以外の分野を対象とする場合、例えば温湿度や電流値のように連続量に対しては、同様の処理を行えばよいし、例えば頻度やテキスト(文字、単語列等)のような離散量に対しては、数値や1-of-K表現を用いて特徴ベクトルを構成し同様の処理を行えばよい。
 なお、正常時の観測データから生成される学習データを正常データ、異常時の観測データから生成される学習データを異常データという。異常データ集合をX+={xi +| i∈[1, …, N+]}、正常データ集合をX-={xj -| j∈[1, …, N-]}とする。また、<技術的背景>で説明したように、異常データ集合X+と正常データ集合X-の直積集合X={(xi +, xj -)| i∈[1, …, N+], j∈[1, …, N-]}を学習データ集合という。学習データ集合は正常データと異常データを用いて定義される集合である。
 S120において、モデル学習部120は、S110で生成した正常データと異常データを用いて定義される学習データ集合を用いて、所定のAUC値を用いた基準に基づいて、パラメータφを持つ、観測変数xから潜在変数zを構成するためのエンコーダq(z│x; φ)とパラメータθを持つ、潜在変数zから観測変数xを再構成するためのデコーダp(x| z; θ)とからなる変分オートエンコーダのモデルのパラメータθ^, φ^を学習する。
 ここで、AUC値とは、エンコーダq(z│ x; φ)と潜在変数zに関する事前分布p(z)の差異を測る尺度(以下、異常度という)とデコーダp(x| z; θ)を所定の関数に代入した値の平均として定義される再構成確率を用いて定義される値である。エンコーダq(z│ x; φ)と事前分布p(z)の差異を測る尺度は、例えば、式(3)のような、エンコーダq(z│ x; φ)の事前分布p(z)に対するカルバック・ライブラー情報量として定義される。また、再構成確率は、例えば、デコーダp(x| z; θ)を代入する関数として対数関数を用いると、式(4)のように定義される。そして、AUC値は、例えば、式(5)や式(6)のように計算される。つまり、AUC値は、異常度から算出される値と再構成確率から算出される値の和を用いて定義される値となる。
 モデル学習部120がAUC値を用いてパラメータθ^, φ^を学習する際、最適化基準を用いて学習する。ここで、パラメータθ, φの最適値であるパラメータθ^, φ^を求めるために、任意の最適化手法を用いることができる。例えば、確率的勾配法を用いる場合、異常データと正常データの直積を要素とする学習データ集合を、任意の単位のミニバッチ集合に分解し、ミニバッチ勾配法を用いてもよい。また、通常の教師なし変分オートエンコーダに対して、周辺尤度最大化基準で学習したモデルのパラメータθ, φを初期値として、上記学習を開始するようにしてもよい。
(異常検知装置200)
 以下、図4~図5を参照して異常検知装置200を説明する。図4は、異常検知装置200の構成を示すブロック図である。図5は、異常検知装置200の動作を示すフローチャートである。図4に示すように異常検知装置200は、前処理部110と、異常度算出部220と、異常判定部230と、記録部190を含む。記録部190は、異常検知装置200の処理に必要な情報を適宜記録する構成部である。例えば、モデル学習装置100が生成したパラメータθ^, φ^を記録しておく。
 以下、図5に従い異常検知装置200の動作について説明する。
 S110において、前処理部110は、異常検知対象となる観測データから異常検知対象データを生成する。具体的には、モデル学習装置100の前処理部110が学習データを生成するのと同一の方法により、異常検知対象データxを生成する。
 S220において、異常度算出部220は、記録部190に記録してあるパラメータを用いて、S110で生成した異常検知対象データxから異常度を算出する。例えば、異常度I(x)は、式(3)により、I(x)=IKL(x;φ^)と定義することができる。また、IKL(x;φ^)と、再構成確率や再構成誤差を用いて計算される量を加算などにより組み合わせた量を異常度としてもよい。さらに、式(2)のような変分下界値を異常度としてもよい。つまり、異常検知装置200で用いる異常度は、モデル学習装置100で用いる異常度と同一のものでなくてもよい。
 S230において、異常判定部230は、S220で算出した異常度から、入力である、異常検知対象となる観測データが異常であるか否かを示す判定結果を生成する。例えば、あらかじめ決められた閾値を用いて、異常度が当該閾値以上である(または当該閾値より大きい)場合に異常を示す判定結果を生成する。
 異常検知装置200で利用することが可能なモデル(パラメータ)が2以上ある場合は、ユーザがどのモデルを用いるかを決定、選択すればよいが、選択手法として、以下のような定量的手法や定性的手法がある。
〈定量的手法〉
 異常検知対象と同様な傾向を持つ評価セット(学習データ集合に相当するもの)を用意し、モデルごとに算出した本来の経験AUC値や近似AUC値の大きさにより、各モデルの性能を判断する。
〈定性的手法〉
 潜在変数zの次元を2としてモデル学習する、または潜在変数zの次元を3以上としてモデル学習した場合は、次元削減アルゴリズムにより次元を2とするなどにより、潜在変数zの次元を2とする。このとき、例えば2次元の潜在変数空間をグリッドに分け、潜在変数についてデコーダによりサンプルを再構成し、可視化する。この方法は、正常データ・異常データの区別なく、再構成が可能であるため、学習に成功している(モデルの精度がいい)場合は、正常データは原点付近に分布し、異常データは原点から離れて分布することになり、この分布を目視で確認することにより、各モデルの学習の成否の程度が分かる。
 また、エンコーダのみを用いて、単に入力されるサンプルが2次元座標中のどの位置に移動するか確認することによっても判断することは可能である。
 あるいは、上記同様、評価セットを用意し、モデルごとにエンコーダの出力する潜在変数空間への射影を生成する。当該射影、既知の正常・異常のサンプルの射影、これらの射影からデコーダにより再構成したデータを可視化した結果を画面に表示し、比較する。これにより、ユーザの異常検知対象ドメインに対する知識に基づいて、モデルの妥当性を判断し、いずれのモデルを異常検知に用いるか選択する。
(変形例1)
 AUC最適化基準によるモデル学習は、正常データに対する異常度と異常データに対する異常度の差を最適化するようにモデル学習するものである。したがって、AUC最適化に類似するpAUC最適化(参考非特許文献4)やその他異常度の差を用いて定義される(AUC値に相当する)値を最適化する方法に対しても、<技術的背景>で説明した同様の置き換えを行うことで、モデル学習をすることができる。
(参考非特許文献4:Harikrishna Narasimhan and Shivani Agarwal, “A structural SVM based approach for optimizing partial AUC”, Proceeding of the 30th International Conference on Machine Learning, pp.516-524, 2013.)
(変形例2)
 第一実施形態では、<技術的背景>で説明した潜在変数zに関する事前分布p(z)のみを仮定したモデル学習について説明した。ここでは、正常データ、異常データそれぞれに対して異なる事前分布を仮定し、モデル学習を行う形態について説明する。
 正常データに対する潜在変数zに関する事前分布をp(z)、異常データに対する潜在変数zに関する事前分布をp-(z)とし、事前分布p(z)は、潜在変数空間内の原点に集まるような分布、つまり、原点およびその周辺において密となる分布であるという制約、事前分布p-(z)は、原点およびその周辺において疎となる分布であるという制約を設ける。潜在変数zの次元が1である場合、事前分布p(z)として、例えば、平均が0、分散が1であるガウス分布を、事前分布p-(z)として、例えば、次式の分布を用いることができる。
Figure JPOXMLDOC01-appb-M000014
 ただし、N(z;0,s2)は、平均が0、分散がs2であるガウス分布、N(z;0,1)は、平均が0、分散が1であるガウス分布であり、Yは所定の定数である。また、sは、その値が通常、実験的に決定されるハイパーパラメータである。
 なお、潜在変数zの次元が2以上である場合は、次元ごとにガウス分布や式(12)の分布を仮定すればよい。
 以下、図2~図3を参照してモデル学習装置101を説明する。図2は、モデル学習装置101の構成を示すブロック図である。図3は、モデル学習装置101の動作を示すフローチャートである。図2に示すようにモデル学習装置101は、前処理部110と、モデル学習部121と、記録部190を含む。記録部190は、モデル学習装置101の処理に必要な情報を適宜記録する構成部である。
 以下、図3に従いモデル学習装置101の動作について説明する。ここでは、モデル学習部121について説明する。
 S121において、モデル学習部121は、S110で生成した正常データと異常データを用いて定義される学習データ集合を用いて、所定のAUC値を用いた基準に基づいて、パラメータφを持つ、観測変数xから潜在変数zを構成するためのエンコーダq(z│x; φ)とパラメータθを持つ、潜在変数zから観測変数xを再構成するためのデコーダp(x| z; θ)とからなる変分オートエンコーダのモデルのパラメータθ^, φ^を学習する。
 ここで、AUC値とは、エンコーダq(z│ x; φ)と事前分布p(z)または事前分布p-(z)の差異を測る尺度(以下、異常度という)とデコーダp(x| z; θ) を所定の関数に代入した値の平均として定義される再構成確率を用いて定義される値である。エンコーダq(z│ x; φ)と事前分布p(z) の差異を測る尺度、エンコーダq(z│ x; φ)と事前分布p-(z)の差異を測る尺度はそれぞれ次式により与えられる。
Figure JPOXMLDOC01-appb-M000015
 また、再構成確率は、例えば、デコーダp(x| z; θ)を代入する関数として対数関数を用いると、式(4)により定義される。そして、AUC値は、例えば、式(5)や式(6)のように計算される。つまり、AUC値は、異常度から算出される値と再構成確率から算出される値の和を用いて定義される値である。
 モデル学習部121がAUC値を用いてパラメータθ^, φ^を学習する際、モデル学習部120と同様の方法により、最適化基準を用いて学習する。
 本実施形態の発明によれば、サンプルの次元数にかかわらず、AUC最適化基準を用いた変分オートエンコーダのモデル学習が可能となる。変分オートエンコーダの潜在変数zを用いたAUC最適化基準によりモデル学習することにより、回帰誤差等を用いる従来方法の持つ次元の呪いを回避することができる。その際、再構成確率を加算によりAUC値の中に取り込むことにより、異常データに対する異常度の発散現象を抑制することが可能となる。
 また、近似AUC値による最適化基準に基づきモデル学習をすることにより、部分的に従来の周辺尤度最大化基準を用いたモデル学習を取り込むことになり、異常度が逆転するような正常データと異常データのペアが多いような場合であっても安定した学習が実現できる。
<補記>
 本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
 ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
 ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
 本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
 既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1.  正常時に観測される音から生成される正常データと異常時に観測される音から生成される異常データを用いて定義される学習データ集合を用いて、所定のAUC値を用いた基準に基づいて、パラメータφを持つ、観測変数xから潜在変数zを構成するためのエンコーダq(z│x; φ)とパラメータθを持つ、潜在変数zから観測変数xを再構成するためのデコーダp(x| z; θ)とからなる変分オートエンコーダのモデルのパラメータθ^, φ^を学習するモデル学習部と
     を含むモデル学習装置であって、
     前記AUC値は、エンコーダq(z│ x; φ)と潜在変数zに関する事前分布p(z)の差異を測る尺度(以下、異常度という)と再構成確率を用いて定義されるものである
     モデル学習装置。
  2.  請求項1に記載のモデル学習装置であって、
     前記AUC値は、異常度から算出される値と再構成確率から算出される値の和を用いて定義されるものである
     ことを特徴とするモデル学習装置。
  3.  請求項1に記載のモデル学習装置であって、
     X+={xi +| i∈[1, …, N+]}を異常データの集合、X-={xj -| j∈[1, …, N-]}を正常データの集合、X={(xi +, xj -)| i∈[1, …, N+], j∈[1, …, N-]}を学習データ集合、N=N+×N-とし、
     IKL(x;φ)=KL[q(z│x;φ)|| p(z)]を異常度、RP(Z;θ)を再構成確率とし、
     前記AUC値は、次式により定義される
    Figure JPOXMLDOC01-appb-M000001

     ことを特徴とするモデル学習装置。
  4.  請求項1に記載のモデル学習装置であって、
     X+={xi +| i∈[1, …, N+]}を異常データの集合、X-={xj -| j∈[1, …, N-]}を正常データの集合、X={(xi +, xj -)| i∈[1, …, N+], j∈[1, …, N-]}を学習データ集合、N=N+×N-とし、
     IKL(x;φ)=KL[q(z│x;φ)|| p(z)]を異常度、RP(Z;θ)を再構成確率とし、
     前記AUC値は、次式により定義される
    Figure JPOXMLDOC01-appb-M000002

     ことを特徴とするモデル学習装置。
  5.  正常時に観測される音から生成される正常データと異常時に観測される音から生成される異常データを用いて定義される学習データ集合を用いて、所定のAUC値を用いた基準に基づいて、パラメータφを持つ、観測変数xから潜在変数zを構成するためのエンコーダq(z│x; φ)とパラメータθを持つ、潜在変数zから観測変数xを再構成するためのデコーダp(x| z; θ)とからなる変分オートエンコーダのモデルのパラメータθ^, φ^を学習するモデル学習部と
     を含むモデル学習装置であって、
     前記AUC値は、エンコーダq(z│ x; φ)と、正常データに対する潜在変数zに関する事前分布p(z)または異常データに対する潜在変数zに関する事前分布p-(z)の差異を測る尺度(以下、異常度という)と再構成確率を用いて定義されるものであり、
     前記事前分布p(z)は、原点およびその周辺において密となる分布であり、前記事前分布p-(z)は、原点およびその周辺において疎となる分布である
     モデル学習装置。
  6.  正常時に観測されるデータから生成される正常データと異常時に観測されるデータから生成される異常データを用いて定義される学習データ集合を用いて、所定のAUC値を用いた基準に基づいて、パラメータφを持つ、観測変数xから潜在変数zを構成するためのエンコーダq(z│x; φ)とパラメータθを持つ、潜在変数zから観測変数xを再構成するためのデコーダp(x| z; θ)とからなる変分オートエンコーダのモデルのパラメータθ^, φ^を学習するモデル学習部と
     を含むモデル学習装置であって、
     前記AUC値は、エンコーダq(z│ x; φ)と潜在変数zに関する事前分布p(z)の差異を測る尺度(以下、異常度という)と再構成確率を用いて定義されるものである
     モデル学習装置。
  7.  モデル学習装置が、正常時に観測される音から生成される正常データと異常時に観測される音から生成される異常データを用いて定義される学習データ集合を用いて、所定のAUC値を用いた基準に基づいて、パラメータφを持つ、観測変数xから潜在変数zを構成するためのエンコーダq(z│x; φ)とパラメータθを持つ、潜在変数zから観測変数xを再構成するためのデコーダp(x| z; θ)とからなる変分オートエンコーダのモデルのパラメータθ^, φ^を学習するモデル学習ステップと
     を含むモデル学習方法であって、
     前記AUC値は、エンコーダq(z│ x; φ)と潜在変数zに関する事前分布p(z)の差異を測る尺度(以下、異常度という)と再構成確率を用いて定義されるものである
     モデル学習方法。
  8.  請求項1ないし6のいずれか1項に記載のモデル学習装置としてコンピュータを機能させるためのプログラム。
PCT/JP2019/005230 2018-02-16 2019-02-14 モデル学習装置、モデル学習方法、プログラム WO2019160003A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/970,330 US20210081805A1 (en) 2018-02-16 2019-02-14 Model learning apparatus, model learning method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-025607 2018-02-16
JP2018025607A JP6821614B2 (ja) 2018-02-16 2018-02-16 モデル学習装置、モデル学習方法、プログラム

Publications (1)

Publication Number Publication Date
WO2019160003A1 true WO2019160003A1 (ja) 2019-08-22

Family

ID=67619322

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/005230 WO2019160003A1 (ja) 2018-02-16 2019-02-14 モデル学習装置、モデル学習方法、プログラム

Country Status (3)

Country Link
US (1) US20210081805A1 (ja)
JP (1) JP6821614B2 (ja)
WO (1) WO2019160003A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111412978A (zh) * 2020-04-22 2020-07-14 北京化工大学 一种基于无故障振动信号的往复机械异常检测方法
CN113298415A (zh) * 2021-06-10 2021-08-24 国家电网有限公司 一种用于能量枢纽的协同运行质量分析评估方法
CN113590392A (zh) * 2021-06-30 2021-11-02 中国南方电网有限责任公司超高压输电公司昆明局 换流站设备异常检测方法、装置、计算机设备和存储介质
US20220060235A1 (en) * 2020-08-18 2022-02-24 Qualcomm Incorporated Federated learning for client-specific neural network parameter generation for wireless communication
CN114308358A (zh) * 2022-03-17 2022-04-12 山东金有粮脱皮制粉设备有限公司 一种玉米芯磨粉设备的安全运行监测系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113222972B (zh) * 2021-05-31 2024-03-19 辽宁工程技术大学 基于变分自编码器算法的图像异常检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017126158A (ja) * 2016-01-13 2017-07-20 日本電信電話株式会社 2値分類学習装置、2値分類装置、方法、及びプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130024448A1 (en) * 2011-07-21 2013-01-24 Microsoft Corporation Ranking search results using feature score distributions
US10977574B2 (en) * 2017-02-14 2021-04-13 Cisco Technology, Inc. Prediction of network device control plane instabilities
US10489908B2 (en) * 2017-02-22 2019-11-26 Siemens Healthcare Gmbh Deep convolutional encoder-decoder for prostate cancer detection and classification
US11277420B2 (en) * 2017-02-24 2022-03-15 Ciena Corporation Systems and methods to detect abnormal behavior in networks
JP2018156451A (ja) * 2017-03-17 2018-10-04 株式会社東芝 ネットワーク学習装置、ネットワーク学習システム、ネットワーク学習方法およびプログラム
US10593033B2 (en) * 2017-06-27 2020-03-17 Nec Corporation Reconstructor and contrastor for medical anomaly detection
KR101888683B1 (ko) * 2017-07-28 2018-08-14 펜타시큐리티시스템 주식회사 비정상 트래픽을 탐지하는 방법 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017126158A (ja) * 2016-01-13 2017-07-20 日本電信電話株式会社 2値分類学習装置、2値分類装置、方法、及びプログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
AN, JINWON ET AL.: "Variational Autoencoder based Anomaly Detection using Reconstruction Probability", 2015-2 SPECIAL LECTURE ON IE, 2015, XP055582196, Retrieved from the Internet <URL:http://dm.snu.ac.kr/static/docs/TR/SNUDM-TR-2015-02.pdf> [retrieved on 20190319] *
FUJINO, AKINORI ET AL.: "A Semi-supervised Learning Method for Imbalanced Binary Classification", IEICE TECHNICAL REPORT, vol. 116, no. 121, 2016, pages 195 - 200, ISSN: 0913-5685 *
KAWACHI, YUTA ET AL.: "Review on abnormal sound detection using LP norm regression", 2017 AUTUMN RESEARCH CONFERENCE OF THE ACOUSTICAL SOCIETY OF JAPAN, vol. 1, 2017, pages 533 - 534, ISSN: 1880-7658 *
KOIZUMI, YUMA ET AL.: "Automatic design of acoustic feature quantity for detecting the abnormal sound of equipment operation noise", 2016 AUTUMN RESEARCH CONFERENCE OF THE ACOUSTICAL SOCIETY OF JAPAN, 2016, pages 365 - 368, ISSN: 1880-7658 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111412978A (zh) * 2020-04-22 2020-07-14 北京化工大学 一种基于无故障振动信号的往复机械异常检测方法
US20220060235A1 (en) * 2020-08-18 2022-02-24 Qualcomm Incorporated Federated learning for client-specific neural network parameter generation for wireless communication
US11909482B2 (en) * 2020-08-18 2024-02-20 Qualcomm Incorporated Federated learning for client-specific neural network parameter generation for wireless communication
CN113298415A (zh) * 2021-06-10 2021-08-24 国家电网有限公司 一种用于能量枢纽的协同运行质量分析评估方法
CN113298415B (zh) * 2021-06-10 2023-09-19 国家电网有限公司 一种用于能量枢纽的协同运行质量分析评估方法
CN113590392A (zh) * 2021-06-30 2021-11-02 中国南方电网有限责任公司超高压输电公司昆明局 换流站设备异常检测方法、装置、计算机设备和存储介质
CN113590392B (zh) * 2021-06-30 2024-04-02 中国南方电网有限责任公司超高压输电公司昆明局 换流站设备异常检测方法、装置、计算机设备和存储介质
CN114308358A (zh) * 2022-03-17 2022-04-12 山东金有粮脱皮制粉设备有限公司 一种玉米芯磨粉设备的安全运行监测系统

Also Published As

Publication number Publication date
JP2019144623A (ja) 2019-08-29
JP6821614B2 (ja) 2021-01-27
US20210081805A1 (en) 2021-03-18

Similar Documents

Publication Publication Date Title
WO2019160003A1 (ja) モデル学習装置、モデル学習方法、プログラム
JP7167084B2 (ja) 異常検出システム、異常検出方法、異常検出プログラム及び学習済モデル生成方法
JP7223839B2 (ja) 異常検出および/または予知保全のためのコンピュータ実装方法、コンピュータプログラム製品およびシステム
Cherkassky et al. Learning from data: concepts, theory, and methods
US9129228B1 (en) Robust and fast model fitting by adaptive sampling
JP6881207B2 (ja) 学習装置、プログラム
Giurgiu et al. Additive explanations for anomalies detected from multivariate temporal data
US11514369B2 (en) Systems and methods for machine learning model interpretation
CN114297036A (zh) 数据处理方法、装置、电子设备及可读存储介质
CN112602155A (zh) 生成针对经训练的模型的元数据
WO2019159915A1 (ja) モデル学習装置、モデル学習方法、プログラム
Daly et al. Comparing two sequential Monte Carlo samplers for exact and approximate Bayesian inference on biological models
JPWO2016084326A1 (ja) 情報処理システム、情報処理方法、及び、プログラム
JP2019105871A (ja) 異常候補抽出プログラム、異常候補抽出方法および異常候補抽出装置
KR102653349B1 (ko) 오토 인코더 기반 이상 데이터 감지 시스템 및 방법
Suleman et al. Google play store app ranking prediction using machine learning algorithm
US20210397973A1 (en) Storage medium, optimum solution acquisition method, and optimum solution acquisition apparatus
CN110716761A (zh) 信息处理平台上软件应用的执行参数的自动和自优化确定
Zhang Low-dimensional approximation searching strategy for transfer entropy from non-uniform embedding
Scholten et al. Classifying single-qubit noise using machine learning
JP7392366B2 (ja) 最適解獲得プログラム、最適解獲得方法および情報処理装置
Dhanalaxmi et al. Practical Guidelines to Improve Defect Prediction Model–A Review
CN115878391A (zh) 磁盘异常的检测方法及装置
KR20220075119A (ko) 의료 영상 기반의 뇌백질 병변 탐지 방법
TW202008223A (zh) 資訊處理裝置、電腦可讀取記錄媒體、程式產品及資訊處理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19754022

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19754022

Country of ref document: EP

Kind code of ref document: A1