WO2023223510A1 - 学習装置、学習方法及び学習プログラム - Google Patents
学習装置、学習方法及び学習プログラム Download PDFInfo
- Publication number
- WO2023223510A1 WO2023223510A1 PCT/JP2022/020860 JP2022020860W WO2023223510A1 WO 2023223510 A1 WO2023223510 A1 WO 2023223510A1 JP 2022020860 W JP2022020860 W JP 2022020860W WO 2023223510 A1 WO2023223510 A1 WO 2023223510A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- learning
- data
- detection
- anomaly
- unlabeled
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 40
- 238000001514 detection method Methods 0.000 claims abstract description 148
- 230000005856 abnormality Effects 0.000 claims abstract description 14
- 238000011156 evaluation Methods 0.000 claims abstract description 12
- 238000012360 testing method Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 abstract description 7
- 230000002159 abnormal effect Effects 0.000 description 35
- 238000012545 processing Methods 0.000 description 23
- 230000008569 process Effects 0.000 description 19
- 230000006870 function Effects 0.000 description 17
- 239000013598 vector Substances 0.000 description 17
- 238000000605 extraction Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013450 outlier detection Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Definitions
- the present invention relates to a learning device, a learning method, and a learning program.
- Anomaly detection is a technology that learns normal patterns from a data set and identifies whether given unknown data is abnormal or not. Anomaly detection is used in a variety of practical applications such as intrusion detection, medical image diagnosis, and industrial system monitoring.
- Anomaly detection is generally performed using unsupervised learning.
- unsupervised learning an anomaly detector is trained from a given unlabeled dataset.
- we make assumptions such as ⁇ the majority of unlabeled data is normal data'' or ⁇ abnormal data in unlabeled data can be ignored.'' is set.
- Patent Document 1 there is a technology that can learn an appropriate anomaly detector from an unknown normal data set by training a neural network that outputs an anomaly detector when a normal data set is input using a related data set.
- Non-Patent Document 2 discloses a technology that makes it possible to learn.
- Non-Patent Documents 1 and 2 require labeled data as the target data set. Therefore, it cannot be applied when the target data set contains only unlabeled data.
- the present invention has been made in view of the above, and aims to provide a learning device, a learning method, and a learning program that can learn a high-performance anomaly detector from unlabeled data.
- a learning device collects unlabeled data and labeled data of an object that is different from a detection target and that is related to the detection target.
- the performance of the acquisition unit that is acquired as a related data set and the first anomaly detector trained with the unlabeled data of the related data set is evaluated using the labeled data of the related data set, so that the evaluation result is improved.
- a learning unit that learns an anomaly detection learning model for learning the first anomaly detector.
- a high-performance anomaly detector can be learned from unlabeled data.
- FIG. 1 is a diagram illustrating processing of a detection device according to an embodiment.
- FIG. 2 is a diagram schematically showing an example of the configuration of the detection device according to the embodiment.
- FIG. 3 is a flowchart showing the processing procedure of the learning process.
- FIG. 4 is a flowchart showing the processing procedure of the detection process.
- FIG. 5 is a diagram for explaining the processing of the learning section.
- FIG. 6 is a diagram illustrating an example of a computer that implements a detection device by executing a program.
- the detection device eliminates the influence of anomalies from the unlabeled data of the target task by utilizing related data sets consisting of unlabeled data and normal/abnormal data, and provides a highly accurate anomaly detector. obtain.
- FIG. 1 is a diagram illustrating processing of a detection device according to an embodiment.
- the learning phase in addition to the target dataset (unlabeled data), information from multiple related datasets (normal/abnormal samples and unlabeled samples) is utilized to Learning a high-performance anomaly detector.
- a model is trained to directly maximize the expected anomaly detection performance of an anomaly detector (first anomaly detector) learned from unlabeled data using only data from related datasets.
- the expected anomaly detection performance is one of the detection performances for unlearned data, and can be calculated from labeled data (abnormal/normal data).
- the anomaly detector is trained ((2) in Figure 1).
- the expected anomaly detection performance of the anomaly detector trained on the unlabeled data of the related dataset t is calculated.
- the calculated expected anomaly detection performance is evaluated using the labeled data (abnormal/normal data) of the related dataset t, and the anomaly detection learning model is trained to increase the evaluation value ((3) in Figure 1). ).
- learning phase by combining a mechanism that reduces the influence of abnormal data in unlabeled data, it becomes possible to learn the anomaly detector without being affected by the abnormal data.
- learning may be performed in combination with an outlier detection mechanism that reduces the influence of samples with different properties from other samples on learning in unlabeled data.
- the unlabeled data of the target task is input to the learned anomaly detection learning model to learn an anomaly detector (second anomaly detector) suitable for the data of the target task.
- the anomaly detector obtained through learning is used to detect each test data of the target task.
- FIG. 2 is a diagram schematically showing an example of the configuration of the detection device according to the embodiment.
- a predetermined program is loaded into a computer, etc., including, for example, ROM (Read Only Memory), RAM (Random Access Memory), CPU (Central Processing Unit), etc., and the CPU executes a predetermined process. This is achieved by running the program.
- the detection device 1 has a communication interface that transmits and receives various information to and from other devices connected via a network or the like.
- the detection device 1 (learning device) is realized by a general-purpose computer such as a workstation or a personal computer. As shown in FIG. 2, the detection device 1 includes a learning section 10 that performs learning processing and a detection section 20 that performs detection processing.
- the learning unit 10 uses a plurality of related data sets (normal/abnormal samples and unlabeled samples) to train the anomaly detection learning model 141 so as to directly maximize the expected anomaly detection performance of the anomaly detector trained with unlabeled data. learn.
- the related data set is a data set consisting of unlabeled data and a small amount of abnormal/normal data.
- Related data sets include, for example, abnormal/normal samples and unlabeled samples of users who are not detection targets but have been operating for a long time.
- Normal/abnormal samples are samples labeled as normal or abnormal.
- the detection unit 20 When the detection unit 20 is given unlabeled data of the target task, it uses the anomaly detection learning model 141 to learn an anomaly detector suitable for the target task.
- the detection unit 20 detects test data using the obtained abnormality detector.
- the detection unit 20 may be implemented in the same hardware as the learning unit 10, or may be implemented in different hardware. Note that the unlabeled data of the target task is, for example, unlabeled data of a new user to be detected.
- the learning unit 10 includes a learning data input unit 11 (acquisition unit), a feature extraction unit 12, an anomaly detection learning model learning unit 13 (learning unit), and a storage unit 14.
- the learning data input unit 11 is realized using an input device such as a keyboard or a mouse, and inputs various instruction information to the control unit in response to input operations by an operator.
- the learning data input unit 11 functions as an acquisition unit and receives a plurality of related data sets (normal/abnormal samples and unlabeled samples) as input.
- the related data set may be input to the learning unit 10 from an external server device or the like via a communication control unit (not shown) implemented by a NIC (Network Interface Card) or the like.
- a communication control unit not shown
- NIC Network Interface Card
- the feature extraction unit 12 converts each sample of the input related data set into a feature vector.
- the feature vector is a representation of the features of necessary data as an n-dimensional numerical vector.
- a method commonly used in machine learning is used. For example, when the data is text, methods using morphological analysis, n-grams, delimiters, etc. can be applied.
- the anomaly detection learning model learning unit 13 uses the sample data after feature extraction to create an anomaly detection learning model 141 for learning an anomaly detector (first anomaly detector) suitable for the data from unlabeled data. learn.
- the anomaly detection learning model 141 is a model that, when unlabeled data is input, outputs an anomaly detector corresponding to the input unlabeled data.
- the anomaly detection learning model learning unit 13 evaluates the performance of the anomaly detector (first anomaly detector) trained using the unlabeled data of the related data set using the labeled data of the related data set, so as to improve the evaluation result. First, an anomaly detection learning model is trained.
- the base anomaly detector methods used in anomaly detection such as autoencoder and one-class SVM can be applied.
- the anomaly detection learning model learning unit 13 may perform learning in combination with an outlier detection mechanism that reduces the influence of samples with different properties from other samples on learning in unlabeled data. .
- the storage unit 14 is realized by a semiconductor memory device such as a RAM or a flash memory, or a storage device such as a hard disk or an optical disk.
- the learned anomaly detection learning model 141 is stored in the storage unit 14 .
- the detection unit 20 includes a data input unit 21 , a feature extraction unit 22 , a learning/detection unit 23 , and a detection result output unit 24 .
- the data input unit 21 is realized using input devices such as a keyboard and a mouse, and inputs various instruction information to the control unit in response to input operations by the operator, and inputs unlabeled data of the target task and test data. accept data.
- the data input unit 21 outputs the input unlabeled data of the target task and test data to the feature extraction unit 22.
- the unlabeled data and test data of the target task may be input to the detection unit 20 from an external server device or the like via a communication control unit (not shown) implemented by a NIC or the like.
- the data input section 21 may be the same hardware as the learning data input section 11. Furthermore, once the detection unit 20 receives unlabeled data and learns the anomaly detector, it can perform detection by inputting only the test data of the task to the anomaly detector.
- the feature extraction unit 22 converts each sample of the acquired unlabeled data of the target task and test data into a feature vector in preparation for processing in the learning/detection unit 23. .
- the learning/detection unit 23 uses the anomaly detection learning model 141 to output an anomaly detector (second anomaly detector) from the unlabeled data.
- the obtained anomaly detector is saved, and the learning/detection unit 23 performs detection using the obtained anomaly detector when test data for the task is inputted from now on.
- the detection result output unit 24 is realized by a display device such as a liquid crystal display, a printing device such as a printer, an information communication device, etc., and outputs the result of the detection process to the operator. For example, the detection result output unit 24 outputs the presence or absence of an abnormality detected from the input test data.
- the detection processing of the detection device 1 includes learning processing by the learning section 10 and detection processing by the detection section 20.
- FIG. 3 is a flowchart showing the processing procedure of the learning process.
- the flowchart in FIG. 3 is started, for example, at the timing when the user inputs an operation instructing to start the learning process.
- the learning data input unit 11 receives a plurality of related data sets (normal/abnormal samples and unlabeled samples) as input (step S1).
- the feature extraction unit 12 converts each sample of the input related data set into a feature vector (step S2).
- the anomaly detection learning model learning unit 13 uses the sample data after feature extraction to learn an anomaly detection learning model 141 for learning an anomaly detector suitable for the data from the unlabeled data (step S3).
- the anomaly detection learning model learning unit 13 inputs unlabeled data from the related data set t after feature extraction into the anomaly detection learning model, and performs learning of the anomaly detector. Then, the anomaly detection learning model learning unit 13 evaluates the performance of the anomaly detector trained using the unlabeled data of the related data set t using the labeled data (abnormal/normal data) of the related data set t, and determines the evaluation value.
- Anomaly detection learning model is trained to improve the performance.
- the anomaly detection learning model learning unit 13 stores the learned anomaly detection learning model 141 in the storage unit 14.
- FIG. 4 is a flowchart showing the processing procedure of the detection process.
- the flowchart in FIG. 4 is started, for example, at the timing when the user inputs an operation instructing the start of the detection process.
- the data input unit 21 receives input of the unlabeled data of the target task to be processed and the test data (step S11), and the feature extraction unit 22 converts each sample of the received unlabeled data of the target task and test data into a feature vector. (Step S12).
- the learning/detection unit 23 uses the anomaly detection learning model 141 to learn an anomaly detector from the unlabeled data, and uses the learned anomaly detector to detect each test sample (step S13). By learning the anomaly detector from the unlabeled data of the target task, the detection unit 20 can output the detection results by inputting only the test samples of this task. Then, the detection result output unit 24 outputs the detection result by the abnormality detector (step S14).
- a high-performance anomaly detector is learned from unlabeled data by utilizing information from a plurality of related datasets in addition to the target dataset (unlabeled data).
- the detection device 1 acquires unlabeled data and labeled data of an object different from the detection target and related to the detection target as a related data set.
- the detection device 1 evaluates the performance of the first anomaly detector trained using the unlabeled data of the related data set using the labeled data of the related data set, and adjusts the performance of the first anomaly detector to improve the evaluation result. Learn an anomaly detection learning model for learning.
- the detection device 1 learns the anomaly detection learning model using multiple related datasets (normal/abnormal samples and unlabeled samples) instead of the target dataset (unlabeled data), thereby detecting unlabeled data.
- a high-performance anomaly detector can be learned from the target data set.
- the detection device 1 learns an anomaly detection learning model to directly maximize the expected anomaly detection performance of the anomaly detector trained with the unlabeled data of the related data set, based on the normal and abnormal samples of the related data set.
- the detection device 1 uses the learned anomaly detection learning model to learn an anomaly detector corresponding to the target task.
- the detection device 1 detects test data using the abnormality detector obtained thereby.
- the detection device 1 can improve the anomaly detection performance even when the target task consists of only unlabeled data.
- the detection device 1 performs learning of the anomaly detector by reducing the degree of influence on learning of samples whose properties are different from other samples among the unlabeled data of the related data set. In this way, by introducing a mechanism that reduces the influence of abnormal data in unlabeled data, the detection device 1 can learn the abnormality detector without being adversely affected by the abnormal data.
- x t , x t A , and x t N represent unlabeled data, abnormal data, and normal data of the t-th task, respectively. It is assumed that the dimension D of the feature vectors is the same in all datasets. The purpose here is to learn an anomaly detector suitable for a target dataset S that is not included in the related datasets when it is given in the test phase.
- the vector representation z of the target data set S is extracted using equation (3).
- f and g are arbitrary neural networks. Since the "sum" of f does not depend on the order of the samples in S, equation (3) defines one vector z for the set S. Note that any neural network other than this type may be used as long as it is permutation invariant (for example, "maximum value” or set transformer).
- An anomaly detector s (a function that outputs an anomaly score for a sample x) using the obtained vector z is defined by the reconstruction error of equation (4).
- a reconstruction error-based anomaly detector is trained using normal data so that the reconstruction error is small. This is expected to reduce the reconstruction error for unknown normal data, but it is expected that the reconstruction error for abnormal data will increase because it has not been learned. Due to this mechanism, reconstruction error-based anomaly detectors are widely used.
- the target data set S may include not only normal data but also abnormal data. Therefore, if learning is performed to reduce the reconstruction error of all samples in the target data set S, the resulting anomaly detector may be adversely affected by the anomalous data and have low performance.
- the embodiment considers minimizing the objective function shown in equation (7).
- Equation (8) is a matrix representing outlier components.
- a n is a vector for removing outlier components that are abnormal data. As shown in Equation (7), by introducing a n into the objective function, the degree of influence of outlier components on learning is reduced.
- Equation (4) the objective function of Equation (7) matches the objective function (Equation (4)) of a normal reconstruction error-based anomaly detector.
- the targets for estimation of the objective function (Equation (7)) are the matrix A representing the outlier component and the linear weight parameter W.
- the objective function (Equation (4)) of an anomaly detector based on reconstruction error not only the linear weight parameter W but also h is to be learned, but when learning an anomaly detector from S, only W is learned. do. Note that learning of h will be described later.
- the objective function (Equation (7)) becomes a convex function, making it possible to obtain a global optimal solution using a simple updating equation. Specifically, it is obtained by alternately repeating the update equations shown in equation (9) and equation (10).
- the initial values of the matrix A representing outlier components are also modeled using a neural network.
- v is any neural network.
- the model is such that by making v depend on the vector representation z of the target data set S, an initial value suitable for the target data set S can be obtained. Assuming that W obtained by repeating the update in the previous section I times is W * , the anomaly detector learned from the target data set S is expressed as Equation (12).
- the learning parameters of the proposed model are the parameters of the neural networks f, g, h, v and the regularization parameters ⁇ and ⁇ .
- the objective function is equation (13).
- s x represents an anomaly detector (anomaly score function) learned from S by using equations (3) to (12).
- Equation (13) pseudo-small amount training data and pseudo-test data obtained by randomly sampling data set D t are represented by S and Q, respectively.
- S is unlabeled data and Q is labeled data.
- AUC takes a high value when the score of an abnormal sample is higher than that of a normal sample. In other words, a high-performance anomaly detector can be learned by maximizing AUC.
- FIG. 5 is a diagram for explaining the processing of the learning section 10.
- FIG. 5 exemplifies the pseudo code of the processing of the learning unit 10.
- the learning unit 10 takes D as a related data set and obtains unlabeled data (pseudo learning data) S (number of samples N S ) and labeled data (pseudo test data) Q (number of samples N Q ) (Algorithm 1 ).
- the learning unit 10 randomly selects the task t, unlabeled data S, and labeled data Q as samples (lines 2-4 of Algorithm 1).
- the learning unit 10 calculates the vector z from the unlabeled data S using equation (3) (fifth line of Algorithm1).
- the learning unit 10 calculates the initial value A 0 of the matrix A representing the outlier component from the unlabeled data S using Equation (11) (6th line of Aolorithm1).
- the learning unit 10 finds the global optimal solution of the objective function (formula (7)) by alternately repeating the update formulas shown in formulas (9) and (10) (lines 7 to 9 of Aolorithm1).
- the learning unit 10 calculates the AUC in the labeled data Q using equation (13) (line 10 of Aolorithm1).
- the learning unit 10 updates the model parameters so that AUC is maximized (line 11 of Aolorithm1).
- the detection device provides specific improvements over conventional detection methods such as those described in Non-Patent Documents 1 and 2, and improves the technical field related to performance evaluation of abnormality detection. It shows.
- Each component of the detection device 1 is functionally conceptual, and does not necessarily need to be physically configured as illustrated.
- the specific form of distribution and integration of the functions of the detection device 1 is not limited to what is shown in the diagram, and all or part of it can be functionally or physically distributed in arbitrary units depending on various loads and usage conditions. It can be configured to be distributed or integrated.
- each process performed in the detection device 1 may be realized by a CPU, a GPU (Graphics Processing Unit), or a program that is analyzed and executed by the CPU and GPU. Moreover, each process performed in the detection device 1 may be realized as hardware using wired logic.
- FIG. 6 is a diagram showing an example of a computer on which the detection device 1 is implemented by executing a program.
- Computer 1000 includes, for example, memory 1010 and CPU 1020.
- the computer 1000 also includes a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. These parts are connected by a bus 1080.
- the memory 1010 includes a ROM 1011 and a RAM 1012.
- the ROM 1011 stores, for example, a boot program such as BIOS (Basic Input Output System).
- Hard disk drive interface 1030 is connected to hard disk drive 1090.
- Disk drive interface 1040 is connected to disk drive 1100.
- Serial port interface 1050 is connected to, for example, mouse 1110 and keyboard 1120.
- Video adapter 1060 is connected to display 1130, for example.
- the hard disk drive 1090 stores, for example, an OS (Operating System) 1091, an application program 1092, a program module 1093, and program data 1094. That is, a program that defines each process of the detection device 1 is implemented as a program module 1093 in which code executable by the computer 1000 is written.
- Program module 1093 is stored in hard disk drive 1090, for example.
- a program module 1093 for executing processing similar to the functional configuration of the detection device 1 is stored in the hard disk drive 1090.
- the hard disk drive 1090 may be replaced by an SSD (Solid State Drive).
- the setting data used in the processing of the embodiment described above is stored as program data 1094 in, for example, the memory 1010 or the hard disk drive 1090. Then, the CPU 1020 reads out the program module 1093 and program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 and executes them as necessary.
- program module 1093 and program data 1094 are not limited to being stored in the hard disk drive 1090, but may be stored in a removable storage medium, for example, and read by the CPU 1020 via the disk drive 1100 or the like.
- the program module 1093 and the program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.).
- the program module 1093 and program data 1094 may then be read by the CPU 1020 from another computer via the network interface 1070.
- the processor includes: Obtaining unlabeled data and labeled data of a target different from the detection target and related to the detection target as a related data set, The performance of the first anomaly detector trained using the unlabeled data of the related data set is evaluated using the labeled data of the related data set, and the first anomaly detector is trained so that the evaluation result improves.
- a learning device that learns an anomaly detection learning model for.
- the learning device When unlabeled data of a detection target that is a target task is given, the anomaly detection learning model learned by the learning unit is used to learn a second anomaly detector corresponding to the target task. A learning device that detects an anomaly in the test data to be detected using a second anomaly detector.
- the learning device Said to learn: A learning device that performs learning of the first anomaly detector by reducing the degree of influence in learning of samples having different properties from other samples among the unlabeled data of the related data set.
- a non-transitory storage medium storing a program executable by a computer to perform a learning process,
- the learning process is Obtaining unlabeled data and labeled data of a target different from the detection target and related to the detection target as a related data set,
- the performance of the first anomaly detector trained using the unlabeled data of the related data set is evaluated using the labeled data of the related data set, and the first anomaly detector is trained so that the evaluation result improves.
- Learning anomaly detection learning model for non-temporary storage medium.
- Detection device 10 Learning section 11 Learning data input section 12, 22 Feature extraction section 13 Anomaly detection learning model learning section 14 Storage section 20 Detection section 21 Data input section 23 Learning/detection section 24 Detection result output section 141 Anomaly detection learning model
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
検知装置(1)は、検知対象とは異なる対象であって、検知対象と関連する対象のラベルなしデータとラベルありデータとを、関連データセットとして取得する学習データ入力部(11)と、関連データセットのラベルなしデータで学習した第1の異常検知器の性能を、関連データセットのラベルありデータで評価し、評価結果が上がるように、第1の異常検知器を学習するための異常検知学習モデルを学習する異常検知学習モデル学習部(13)と、を有する。
Description
本発明は、学習装置、学習方法及び学習プログラムに関する。
異常検知は、データセットから正常パターンを学習し、与えられた未知のデータが異常か否かを識別する技術である。異常検知は、侵入検知、医療画像診断、産業システム監視など様々な実応用で利用されている。
異常検知は、一般に、教師なし学習を用いて学習を行うことが多い。教師なし学習では、与えられたラベルなしデータセットから異常検知器を学習する。ここで、ラベルなしデータから正常パターンを学習するために、「ラベルなしデータのうち大多数は正常データである」、或いは、「ラベルなしデータの中の異常データは無視可能である」、といった仮定が設定される。
しかしながら、実問題においては、上記の仮定が成り立たない場合も多い。例えば、侵入検知システムでは、一定期間各ユーザのデータを収集し、得られたデータの多くは正常データという仮定の基で、ユーザの正常パターンを学習することで異常を検知する方法がある。ここで、ユーザがマルウエアに感染していた場合、収集されたデータには多くの異常データが混入してしまい、上記の仮定が成り立たない。また、異常データが少量であっても、それに大きく影響を受け、異常検知器の学習性能が低下することもある。
この問題は、正常または異常のラベルがついたサンプル(正常・異常サンプル)を学習に用いることで対処可能である。しかしながら、ラベル付けは一般に専門家の精査が必要であるため、全ての目標タスクに関して、ラベル付きデータを収集することは困難となる可能性が高い。上述の例の場合、新しいユーザが続々と現れる場合には、適用が特に困難になる。
一方、関連するデータセットであれば、正常・異常サンプルが手に入るケースはある。上述の例の場合、新規ユーザのラベルありデータの収集は困難であっても、長期間稼働しているユーザであれば、稼働時間が長い分、正常・異常サンプルが一部得られている可能性はある。
そこで、目標タスクにおける正常データセットに加え、正常・異常データからなる関連データセットを活用することで異常検知性能の向上を図る技術が提案されている。
例えば、正常データセットを入力すると異常検知器を出力するニューラルネットを、関連データセットを用いて学習することで、未知の正常データセットから適切な異常検知器を学習可能とする技術がある(非特許文献1)。
また、関連データセットを用いて、少量の正常・異常データセットから学習した異常検知器の期待異常検知性能を最大化するよう学習することで、未知の正常・異常データセットから適切な異常検知器を学習可能とする技術がある(非特許文献2)。
A. Kumagai, T. Iwata, and Y. Fujiwara, "Transfer Anomaly Detection by Inferring Latent Domain Representations", In NeurIPS, 2019.
T. Iwata, and A. Kumagai, "META-LEARNING ONE-CLASS CLASSIFIERS WITH EIGENVALUE SOLVERS FOR SUPERVISED ANOMALY DETECTION", arXiv preprint arXiv:2103.00684, 2021.
非特許文献1,2に記載の技術では、目標データセットとして、ラベルありデータが必要である。したがって、目標データセットにラベルなしデータしか含まれない場合には適用することができない。
本発明は、上記に鑑みてなされたものであって、ラベルなしデータから高性能の異常検知器を学習することができる学習装置、学習方法及び学習プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明に係る学習装置は、検知対象とは異なる対象であって、前記検知対象と関連する対象のラベルなしデータとラベルありデータとを、関連データセットとして取得する取得部と、前記関連データセットのラベルなしデータで学習した第1の異常検知器の性能を、前記関連データセットのラベルありデータで評価し、評価結果が上がるように、前記第1の異常検知器を学習するための異常検知学習モデルを学習する学習部と、を有することを特徴とする。
本発明によれば、ラベルなしデータから高性能の異常検知器を学習することができる。
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[実施の形態]
本実施の形態に係る検知装置は、ラベルなしデータと正常・異常データからなる関連データセットを活用することで、目標タスクのラベルなしデータから異常の影響を排除し、高精度な異常検知器を得る。
本実施の形態に係る検知装置は、ラベルなしデータと正常・異常データからなる関連データセットを活用することで、目標タスクのラベルなしデータから異常の影響を排除し、高精度な異常検知器を得る。
[検知装置の概要]
図1は、実施の形態に係る検知装置の処理を説明する図である。図1に示すように、学習フェーズでは、目標データセット(ラベルなしデータ)に加えて、複数の関連データセット(正常・異常サンプルとラベルなしサンプル)の情報も活用することで、ラベルなしデータから高性能の異常検知器を学習する。
図1は、実施の形態に係る検知装置の処理を説明する図である。図1に示すように、学習フェーズでは、目標データセット(ラベルなしデータ)に加えて、複数の関連データセット(正常・異常サンプルとラベルなしサンプル)の情報も活用することで、ラベルなしデータから高性能の異常検知器を学習する。
まず、学習フェーズでは、関連データセットのデータのみを用いて、ラベルなしデータから学習した異常検知器(第1の異常検知器)の期待異常検知性能を直接最大化するようモデルを学習する。ここで、期待異常検知性能は、未学習のデータに対する検知性能の一つであり、ラベルありデータ(異常・正常データ)から計算できる。
具体的には、学習フェーズでは、関連データセットt(t=1,…,T)のうち、ラベルなしデータをランダムに抽出し(図1の(1))、異常検知学習モデルに入力し、異常検知器の学習を行う(図1の(2))。
そして、学習フェーズでは、関連データセットtのラベルなしデータで学習した異常検知器の期待異常検知性能を計算する。学習フェーズでは、計算した期待異常検知性能を、関連データセットtのラベルありデータ(異常・正常データ)で評価し、評価値が上がるように異常検知学習モデルを学習する(図1の(3))。
この際、学習フェーズでは、ラベルなしデータ中の異常データの影響を低減するような機構を組み合わせることで異常データの影響を受けずに異常検知器を学習可能となる。例えば、学習フェーズでは、ラベルなしデータの中で、他のサンプルとは性質が異なるサンプルの学習における影響度を小さくする外れ値検出の機構を組み合わせて、学習を行ってもよい。
検知フェーズでは、学習した異常検知学習モデルに、目標タスクのラベルなしデータを入力することで目標タスクのデータに適した異常検知器を(第2の異常検知器)学習する。検知フェーズでは、学習によって得られた異常検知器を用いて、目標タスクの各テストデータの検知を実行する。
[検知装置]
図2は、実施の形態に係る検知装置の構成の一例を模式的に示す図である。実施の形態に係る検知装置1は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。また、検知装置1は、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースを有する。検知装置1(学習装置)は、ワークステーションやパソコン等の汎用コンピュータで実現される。検知装置1は、図2に示すように、学習処理を行う学習部10と、検知処理を行う検知部20とを有する。
図2は、実施の形態に係る検知装置の構成の一例を模式的に示す図である。実施の形態に係る検知装置1は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。また、検知装置1は、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースを有する。検知装置1(学習装置)は、ワークステーションやパソコン等の汎用コンピュータで実現される。検知装置1は、図2に示すように、学習処理を行う学習部10と、検知処理を行う検知部20とを有する。
学習部10は、複数の関連データセット(正常・異常サンプルとラベルなしサンプル)を用いて、ラベルなしデータで学習した異常検知器の期待異常検知性能を直接最大化するよう異常検知学習モデル141を学習する。
なお、関連データセットは、ラベルなしデータと少量の異常・正常データからなるデータセットである。関連データセットは、例えば、検知対象ではないが、長期間稼働しているユーザの異常・正常サンプルとラベルなしサンプルである。正常・異常サンプルは、正常または異常のラベルがついたサンプルである。
検知部20は、目標タスクのラベルなしデータが与えられた際に、異常検知学習モデル141を用いて、目標タスクに適した異常検知器を学習する。検知部20は、得られた異常検知器を用いてテストデータの検知を行う。検知部20は、学習部10と同一のハードウェアに実装されてもよいし、異なるハードウェアに実装されてもよい。なお、目標タスクのラベルなしデータは、例えば、検知対象となる新規ユーザのラベルなしデータである。
[学習部]
学習部10は、学習データ入力部11(取得部)、特徴抽出部12、異常検知学習モデル学習部13(学習部)、および格納部14を有する。
学習部10は、学習データ入力部11(取得部)、特徴抽出部12、異常検知学習モデル学習部13(学習部)、および格納部14を有する。
学習データ入力部11は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部に対して各種指示情報を入力する。学習データ入力部11は、取得部として機能し、複数の関連データセット(正常・異常サンプルとラベルなしサンプル)を入力として受け取る。
関連データセットは、NIC(Network Interface Card)等で実現される図示しない通信制御部を介して、外部のサーバ装置等から学習部10に入力されてもよい。
特徴抽出部12は、入力を受け付けた関連データセットの各サンプルを特徴ベクトルに変換する。ここで、特徴ベクトルとは、必要なデータの特徴をn次元の数ベクトルで表記したものである。特徴ベクトルへの変換については、機械学習で一般的に用いられている手法を利用する。例えば、データがテキストの場合には、形態素解析によるもの、n-gramによるもの、区切り文字による手法等を適用可能である。
異常検知学習モデル学習部13は、特徴抽出後のサンプルデータを用いて、ラベルなしデータから、データに適した異常検知器(第1の異常検知器)を学習するための異常検知学習モデル141を学習する。異常検知学習モデル141は、ラベルなしデータが入力されると、この入力されたラベルなしデータに対応する異常検知器を出力するモデルである。
異常検知学習モデル学習部13は、関連データセットのラベルなしデータで学習した異常検知器(第1の異常検知器)の性能を、関連データセットのラベルありデータで評価し、評価結果が上がるように、異常検知学習モデルを学習する。
ベースとなる異常検知器としては、オートエンコーダ、One-class SVMなどの異常検知で用いられる手法を適用することができる。なお、異常検知学習モデル学習部13は、ラベルなしデータの中で、他のサンプルとは性質が異なるサンプルの学習における影響度を小さくする外れ値検出の機構を組み合わせて、学習を行ってもよい。
格納部14は、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。格納部14には、学習された異常検知学習モデル141が格納される。
[検知部]
検知部20は、データ入力部21、特徴抽出部22、学習・検知部23、及び、検知結果出力部24を有する。
検知部20は、データ入力部21、特徴抽出部22、学習・検知部23、及び、検知結果出力部24を有する。
データ入力部21は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部に対して各種指示情報を入力したり、目標タスクのラベルなしデータとテストデータを受け付けたりする。データ入力部21は、入力された目標タスクのラベルなしデータとテストデータを、特徴抽出部22に出力する。
なお、目標タスクのラベルなしデータとテストデータは、NIC等で実現される図示しない通信制御部を介して、外部のサーバ装置等から検知部20に入力されてもよい。また、データ入力部21は、学習データ入力部11と同一のハードウェアでもよい。また、検知部20は、1度、ラベルなしデータを受け取り、異常検知器を学習した後は、当該タスクのテストデータさえ異常検知器に入力すれば、検知を実行可能である。
特徴抽出部22は、学習部10の特徴抽出部12と同様に、学習・検知部23における処理の準備として、取得された目標タスクのラベルなしデータとテストデータの各サンプルを特徴ベクトルに変換する。
学習・検知部23は、異常検知学習モデル141を用いて、ラベルなしデータから異常検知器(第2の異常検知器)を出力する。得られた異常検知器は保存され、学習・検知部23は、以降、当該タスクのテストデータが入力された場合は、得られた異常検知器を用いて検知を行う。
検知結果出力部24は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置、情報通信装置等によって実現され、検知処理の結果を操作者に対して出力する。例えば、検知結果出力部24は、入力されたテストデータから検知された異常の有無を出力する。
[検知処理の処理手順]
次に、図3および図4を参照して、検知装置1による検知処理の処理手順について説明する。検知装置1の検知処理は、学習部10による学習処理と、検知部20による検知処理とを含む。
次に、図3および図4を参照して、検知装置1による検知処理の処理手順について説明する。検知装置1の検知処理は、学習部10による学習処理と、検知部20による検知処理とを含む。
[学習処理]
図3は、学習処理の処理手順を示すフローチャートである。図3のフローチャートは、例えば、ユーザによる学習処理の開始を指示する操作入力があったタイミングで開始される。
図3は、学習処理の処理手順を示すフローチャートである。図3のフローチャートは、例えば、ユーザによる学習処理の開始を指示する操作入力があったタイミングで開始される。
図3に示すように、学習データ入力部11は、複数の関連データセット(正常・異常サンプルとラベルなしサンプル)を入力として受け取る(ステップS1)。特徴抽出部12は、入力を受け付けた関連データセットの各サンプルを特徴ベクトルに変換する(ステップS2)。
異常検知学習モデル学習部13は、特徴抽出後のサンプルデータを用いて、ラベルなしデータから、データに適した異常検知器を学習するための異常検知学習モデル141を学習する(ステップS3)。異常検知学習モデル学習部13は、特徴抽出後の関連データセットtのうち、ラベルなしデータを異常検知学習モデルに入力し、異常検知器の学習を行う。そして、異常検知学習モデル学習部13は、関連データセットtのラベルなしデータで学習した異常検知器の性能を、関連データセットtのラベルありデータ(異常・正常データ)で評価し、評価値が上がるように異常検知学習モデルを学習する。
異常検知学習モデル学習部13は、学習した異常検知学習モデル141を格納部14に格納する。
[検知処理]
図4は、検知処理の処理手順を示すフローチャートである。図4のフローチャートは、例えば、ユーザによる検知処理の開始を指示する操作入力があったタイミングで開始される。
図4は、検知処理の処理手順を示すフローチャートである。図4のフローチャートは、例えば、ユーザによる検知処理の開始を指示する操作入力があったタイミングで開始される。
データ入力部21が、処理対象の目標タスクのラベルなしデータとテストデータの入力を受け付け(ステップS11)、特徴抽出部22が、受け付けた目標タスクのラベルなしデータとテストデータの各サンプルを特徴ベクトルに変換する(ステップS12)。
学習・検知部23は、異常検知学習モデル141を用いて、ラベルなしデータから異常検知器を学習し、学習した異常検知器を用いて、各テストサンプルの検知を実行する(ステップS13)。検知部20では、目標タスクのラベルなしデータから異常検知器を学習することで、以降は、このタスクのテストサンプルのみ入力すれば、それらの検知結果を出力可能となる。そして、検知結果出力部24が、異常検知器による検知結果を出力する(ステップS14)。
[実施の形態の効果]
このように、実施の形態によれば、目標データセット(ラベルなしデータ)に加えて、複数の関連データセットの情報も活用することで、ラベルなしデータから高性能の異常検知器を学習する。
このように、実施の形態によれば、目標データセット(ラベルなしデータ)に加えて、複数の関連データセットの情報も活用することで、ラベルなしデータから高性能の異常検知器を学習する。
具体的には、実施の形態に係る検知装置1は、検知対象とは異なる対象であって、検知対象と関連する対象のラベルなしデータとラベルありデータとを、関連データセットとして取得する。検知装置1は、関連データセットのラベルなしデータで学習した第1の異常検知器の性能を、関連データセットのラベルありデータで評価し、評価結果が上がるように、第1の異常検知器を学習するための異常検知学習モデルを学習する。
このように、検知装置1は、目標データセット(ラベルなしデータ)ではなく、複数の関連データセットを(正常・異常サンプルとラベルなしサンプル)用いて異常検知学習モデルを学習することにより、ラベルなしデータである目標データセットから高性能の異常検知器を学習することができる。
検知装置1は、関連データセットのラベルなしデータで学習した異常検知器の期待異常検知性能を、関連データセットの正常・異常サンプルを基に、直接最大化するよう異常検知学習モデルを学習する。検知装置1は、目標タスクのラベルなしデータが与えられた際に、学習した異常検知学習モデルを用いて、目標タスクに対応する異常検知器を学習する。検知装置1は、これによって得られた異常検知器を用いてテストデータの検知を行う。
したがって、検知装置1は、目標タスクがラベルなしデータのみからなる場合でも異常検知性能を向上させることができる。
そして、検知装置1は、モデル学習過程において、関連データセットのラベルなしデータの中で、他のサンプルとは性質が異なるサンプルの学習における影響度を小さくして、異常検知器の学習を行う。このように、検知装置1は、ラベルなしデータ中の異常データの影響を低減するような機構を導入することで、異常データの悪影響を受けずに異常検知器を学習することが可能となる。
[適用例]
本実施の形態の適用例について具体的に説明する。まず、S(式(1))を目標データセット(ラベルなしデータ)とする。ここで、xnは、n番目のサンプルのD次元特徴ベクトルを表す。
本実施の形態の適用例について具体的に説明する。まず、S(式(1))を目標データセット(ラベルなしデータ)とする。ここで、xnは、n番目のサンプルのD次元特徴ベクトルを表す。
今、T個の関連データセットD(式(2))が学習フェーズに与えられたとする。
ここで、xt、xt
A、xt
Nは、t番目のタスクのラベルなしデータ、異常データ、正常データをそれぞれ表す。全てのデータセットにおいて、特徴ベクトルの次元Dは同じと仮定する。ここでの目的は、関連データセットには含まれない目標データセットSがテストフェーズに与えられたとき、そのデータセットに適した異常検知器を学習することである。
まず、Sから異常検知器を学習するための異常検知器学習モデルを説明する(テストフェーズ)。その後、異常検知器学習モデルの学習方法を説明する(学習フェーズ)。
検知フェーズでは、まず、目標データセットSのベクトル表現zを、式(3)で抽出する。
fとgは、任意のニューラルネットワークである。fの「和」は、S内のサンプルの順番によらないため、式(3)は集合Sに対して一つのベクトルzを定める。なお、この形のニューラルネットワーク以外であっても、置換不変なニューラルネットワークであれば任意のもの(例えば、「最大値」やset transformer)を用いてよい。
得られたベクトルzを用いて異常検知器s(サンプルxに対するアノマリスコアを出力する関数)は、式(4)の再構成誤差で定義される。
ここで、|| ||2は、l2ノルムを表す。[,]は二つのベクトルの結合を表す。H(式(5))は、ニューラルネットワークを表す。W(式(6))は、線形ウェイトパラメータを表す。
通常、再構成誤差ベースの異常検知器は、正常データを用いて再構成誤差が小さくなるよう学習される。これにより、未知の正常データの再構成誤差は小さくなることが期待される一方で、異常データは学習していないため、再構成誤差が大きくなることが期待される。この機構により、再構成誤差ベースの異常検知器は広く利用される。
しかしながら、目標データセットSには正常データだけでなく異常データも含まれる可能性がある。このため、目標データセットS内のすべてのサンプルの再構成誤差を小さくなるよう学習してしまうと、得られる異常検知器は、異常データの悪影響を受けて、低性能になる恐れがある。
この問題に対処するため、実施の形態では式(7)に示す目的関数を最小化することを考える。
ここで、|| ||Fは、フロベニウスノルムを表す。|| ||1は、l1ノルムを表す。λとμは、正の実数を表す。A(式(8))は、外れ値成分を表す行列である。anは、異常データである外れ値成分を取り除くためのベクトルである。式(7)に示すように、目的関数に、anを導入することで、外れ値成分の学習における影響度を小さくする。
λ=∞の場合、A=0となり、式(7)の目的関数は通常の再構成誤差ベースの異常検知器の目的関数(式(4))と一致する。一般に、目標データセットS内の多数派が正常データである場合、異常データはそれらに比べ性質が異なるため、再構成が難しくなると予想される。外れ値成分を表す行列Aを導入しない場合(A=0の場合)は、そのようなサンプルも無理やり再構成するよう学習される。
一方、式(7)、式(8)に示すように、外れ値成分を表す行列Aを導入した場合、再構成が難しいサンプルxmは、amが非ゼロのベクトルとして推定されることで、無理な再構成を回避して学習することができる。適切なanを推定し、目的関数(式(7))を最小化することで、目標データセットS内の異常データの悪影響を低減した形で異常検知器の学習ができると期待される。
anのl1ノルム正則化は、推定された異常成分の大きさを制御するために導入する。なお、このl1正則化がない場合(λ=0の場合)には、目的関数(式(7))の最適解は、自明かつ無意味なもの(A=-XS,W=0)となってしまうことに注意されたい。
また、目的関数(式(7))の推定対象は、外れ値成分を表す行列Aと線形ウェイトパラメータWである点にも注意が必要である。再構成誤差ベースの異常検知器の目的関数(式(4))においては、線形ウェイトパラメータWだけでなくhも学習対象であるが、Sから異常検知器を学習する際にはWのみを学習する。なお、hの学習については、後述する。これにより、目的関数(式(7))は凸関数となるため、大域的最適解が簡単な更新式により求めることが可能となる。具体的には、式(9)、式(10)に示す更新式を交互に繰り返すことで求められる。
式(9)、式(10)に示す交互更新を十分多くの回数繰り返すことで、目的関数の大域的最適解が得られる。しかしながら、このような多数回の更新は、計算コストの増大やニューラルネットワークの計算グラフが増大することによる、学習困難性(勾配消失)の増大を招くという問題を引き起こす。
これに対処するために、実施の形態では、外れ値成分を表す行列Aの初期値もニューラルネットワークを用いてモデル化する。
具体的には、S内のサンプルxnの初期値a0nは、式(11)の形で与えられる。
vは、任意のニューラルネットワークである。vは、目標データセットSのベクトル表現zに依存させることで、目標データセットSに適した初期値が得られるようなモデルになっている。前項の更新をI回繰り返して得られるWをW*とすると、目標データセットSから学習される異常検知器は、式(12)となる。
ここでは、関連データセットを用いたモデルの学習方法を述べる。ここでは、関連データセットから選択されたラベルなしデータを記号Sで表すこととする。提案するモデルの学習パラメータは、ニューラルネットf,g,h,vのパラメータと正則化パラメータλ、μである。目的関数は式(13)である。
ここで、sxは、式(3)~式(12)を使用することでSから学習された異常検知器(アノマリスコア関数)を表す。式(13)において、データセットDtからランダムにサンプルして得られる疑似少量学習データと疑似テストデータとを、それぞれS,Qで表している。Sは、ラベルなしデータ、Qは、ラベルありデータである。AUCは、異常サンプルのスコアを正常サンプルのものよりも高くしたときに高い値をとる。つまり、AUCを最大化することで高性能の異常検知器を学習できる。
ここで、図5は、学習部10の処理を説明するための図である。図5には、学習部10の処理の疑似コードが例示されている。
まず、学習部10は、Dを関連データセットとし、ラベルなしデータ(疑似学習データ)S(サンプル数NS)、ラベルありデータ(疑似テストデータ)Q(サンプル数NQ)取得する(Algorithm 1)。
学習部10は、学習フェーズにおいて、ランダムにサンプルとなるタスクt、ラベルなしデータS、ラベルありデータQを選ぶ(Algorithm1の2-4行目)。
学習部10は、式(3)を用いて、ラベルなしデータSからベクトルzを計算する(Algorithm1の5行目)。
学習部10は、式(11)を用いて、ラベルなしデータSから、外れ値成分を表す行列Aの初期値A0を計算する(Aolorithm1の6行目)。
学習部10は、式(9)、式(10)に示す更新式を交互に繰り返すことで、目的関数(式(7))の大域的最適解を求める(Aolorithm1の7~9行目)。
学習部10は、式(13)を用いて、ラベルありデータQにおけるAUCを計算する(Aolorithm1の10行目)。
学習部10は、計算結果に基づき、AUCが最大化するように、モデルのパラメータを更新する(Aolorithm1の11行目)。
本実施の形態に係る検知装置は、非特許文献1,2に記載のような従来の検知方法に対して特定の改善を提供するものであり、異常検知の性能評価に係る技術分野の向上を示すものである。
[実施の形態のシステム構成について]
検知装置1の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、検知装置1の機能の分散及び統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。
検知装置1の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、検知装置1の機能の分散及び統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。
また、検知装置1においておこなわれる各処理は、全部または任意の一部が、CPU、GPU(Graphics Processing Unit)、及び、CPU、GPUにより解析実行されるプログラムにて実現されてもよい。また、検知装置1においておこなわれる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。
また、実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。
[プログラム]
図6は、プログラムが実行されることにより、検知装置1が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
図6は、プログラムが実行されることにより、検知装置1が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS(Operating System)1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、検知装置1の各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、検知装置1における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
以上の実施形態に関し、更に以下の付記を開示する。
(付記項1)
メモリと、
前記メモリに接続された少なくとも1つのプロセッサと、
を含み、
前記プロセッサは、
検知対象とは異なる対象であって、前記検知対象と関連する対象のラベルなしデータとラベルありデータとを、関連データセットとして取得し、
前記関連データセットのラベルなしデータで学習した第1の異常検知器の性能を、前記関連データセットのラベルありデータで評価し、評価結果が上がるように、前記第1の異常検知器を学習するための異常検知学習モデルを学習する
学習装置。
メモリと、
前記メモリに接続された少なくとも1つのプロセッサと、
を含み、
前記プロセッサは、
検知対象とは異なる対象であって、前記検知対象と関連する対象のラベルなしデータとラベルありデータとを、関連データセットとして取得し、
前記関連データセットのラベルなしデータで学習した第1の異常検知器の性能を、前記関連データセットのラベルありデータで評価し、評価結果が上がるように、前記第1の異常検知器を学習するための異常検知学習モデルを学習する
学習装置。
(付記項2)
付記項1に記載の学習装置であって、
目標タスクである検知対象のラベルなしデータが与えられた際に、前記学習部によって学習された前記異常検知学習モデルを用いて、前記目標タスクに対応する第2の異常検知器を学習し、学習した第2の異常検知器を用いて前記検知対象のテストデータの異常検知を行う
学習装置。
付記項1に記載の学習装置であって、
目標タスクである検知対象のラベルなしデータが与えられた際に、前記学習部によって学習された前記異常検知学習モデルを用いて、前記目標タスクに対応する第2の異常検知器を学習し、学習した第2の異常検知器を用いて前記検知対象のテストデータの異常検知を行う
学習装置。
(付記項3)
付記項1に記載の学習装置であって、
前記学習することは、
前記関連データセットのラベルなしデータの中で、他のサンプルとは性質が異なるサンプルの学習における影響度を小さくして、前記第1の異常検知器の学習を行う
学習装置。
付記項1に記載の学習装置であって、
前記学習することは、
前記関連データセットのラベルなしデータの中で、他のサンプルとは性質が異なるサンプルの学習における影響度を小さくして、前記第1の異常検知器の学習を行う
学習装置。
(付記項4)
学習処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
前記学習処理は、
検知対象とは異なる対象であって、前記検知対象と関連する対象のラベルなしデータとラベルありデータとを、関連データセットとして取得し、
前記関連データセットのラベルなしデータで学習した第1の異常検知器の性能を、前記関連データセットのラベルありデータで評価し、評価結果が上がるように、前記第1の異常検知器を学習するための異常検知学習モデルを学習する
非一時的記憶媒体。
学習処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
前記学習処理は、
検知対象とは異なる対象であって、前記検知対象と関連する対象のラベルなしデータとラベルありデータとを、関連データセットとして取得し、
前記関連データセットのラベルなしデータで学習した第1の異常検知器の性能を、前記関連データセットのラベルありデータで評価し、評価結果が上がるように、前記第1の異常検知器を学習するための異常検知学習モデルを学習する
非一時的記憶媒体。
以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例及び運用技術等は全て本発明の範疇に含まれる。
1 検知装置
10 学習部
11 学習データ入力部
12,22 特徴抽出部
13 異常検知学習モデル学習部
14 格納部
20 検知部
21 データ入力部
23 学習・検知部
24 検知結果出力部
141 異常検知学習モデル
10 学習部
11 学習データ入力部
12,22 特徴抽出部
13 異常検知学習モデル学習部
14 格納部
20 検知部
21 データ入力部
23 学習・検知部
24 検知結果出力部
141 異常検知学習モデル
Claims (5)
- 検知対象とは異なる対象であって、前記検知対象と関連する対象のラベルなしデータとラベルありデータとを、関連データセットとして取得する取得部と、
前記関連データセットのラベルなしデータで学習した第1の異常検知器の性能を、前記関連データセットのラベルありデータで評価し、評価結果が上がるように、前記第1の異常検知器を学習するための異常検知学習モデルを学習する学習部と、
を有することを特徴とする学習装置。 - 目標タスクである検知対象のラベルなしデータが与えられた際に、前記学習部によって学習された前記異常検知学習モデルを用いて、前記目標タスクに対応する第2の異常検知器を学習し、学習した第2の異常検知器を用いて前記検知対象のテストデータの異常検知を行う検知部
をさらに有することを特徴とする請求項1に記載の学習装置。 - 前記学習部は、前記関連データセットのラベルなしデータの中で、他のサンプルとは性質が異なるサンプルの学習における影響度を小さくして、前記第1の異常検知器の学習を行うことを特徴とする請求項1に記載の学習装置。
- 学習装置が実行する学習方法であって、
検知対象とは異なる対象であって、前記検知対象と関連する対象のラベルなしデータとラベルありデータとを、関連データセットとして取得する工程と、
前記関連データセットのラベルなしデータで学習した第1の異常検知器の性能を、前記関連データセットのラベルありデータで評価し、評価結果が上がるように、前記第1の異常検知器を学習するための異常検知学習モデルを学習する工程と、
を含んだことを特徴とする学習方法。 - 検知対象とは異なる対象であって、前記検知対象と関連する対象のラベルなしデータとラベルありデータとを、関連データセットとして取得するステップと、
前記関連データセットのラベルなしデータで学習した第1の異常検知器の性能を、前記関連データセットのラベルありデータで評価し、評価結果が上がるように、前記第1の異常検知器を学習するための異常検知学習モデルを学習するステップと、
をコンピュータに実行させるための学習プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2022/020860 WO2023223510A1 (ja) | 2022-05-19 | 2022-05-19 | 学習装置、学習方法及び学習プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2022/020860 WO2023223510A1 (ja) | 2022-05-19 | 2022-05-19 | 学習装置、学習方法及び学習プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023223510A1 true WO2023223510A1 (ja) | 2023-11-23 |
Family
ID=88835026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2022/020860 WO2023223510A1 (ja) | 2022-05-19 | 2022-05-19 | 学習装置、学習方法及び学習プログラム |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2023223510A1 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021075009A1 (ja) * | 2019-10-16 | 2021-04-22 | 日本電信電話株式会社 | 学習装置、推定装置、学習方法及び学習プログラム |
-
2022
- 2022-05-19 WO PCT/JP2022/020860 patent/WO2023223510A1/ja unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021075009A1 (ja) * | 2019-10-16 | 2021-04-22 | 日本電信電話株式会社 | 学習装置、推定装置、学習方法及び学習プログラム |
Non-Patent Citations (1)
Title |
---|
TOMOHARU IWATA; ATSUTOSHI KUMAGAI: "Meta-learning One-class Classifiers with Eigenvalue Solvers for Supervised Anomaly Detection", ARXIV.ORG, 1 March 2021 (2021-03-01), XP081903483 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lu | Embedded feature selection accounting for unknown data heterogeneity | |
JP5142135B2 (ja) | データを分類する技術 | |
Sharma et al. | [Retracted] Lung Disease Classification in CXR Images Using Hybrid Inception‐ResNet‐v2 Model and Edge Computing | |
EP3916597B1 (en) | Detecting malware with deep generative models | |
Du et al. | FairDisCo: Fairer AI in dermatology via disentanglement contrastive learning | |
Li et al. | Semi-supervised process fault classification based on convolutional ladder network with local and global feature fusion | |
Peng et al. | l2, 1-norm minimization based negative label relaxation linear regression for feature selection | |
Prabhu et al. | Prototypical clustering networks for dermatological disease diagnosis | |
US11164658B2 (en) | Identifying salient features for instances of data | |
Varghese et al. | Performance analysis of automated detection of diabetic retinopathy using machine learning and deep learning techniques | |
Suresha et al. | Probabilistic principal component analysis and long short-term memory classifier for automatic detection of Alzheimer’s disease using MRI brain images | |
Liu et al. | A dual-branch balance saliency model based on discriminative feature for fabric defect detection | |
WO2023223510A1 (ja) | 学習装置、学習方法及び学習プログラム | |
JP7287505B2 (ja) | 学習支援プログラム、学習支援方法及び学習支援装置 | |
Cheplygina et al. | Exploring the similarity of medical imaging classification problems | |
Ouanan et al. | A novel face recognition system based on Gabor and Zernike features | |
Cohen et al. | Deepbrain: Functional representation of neural in-situ hybridization images for gene ontology classification using deep convolutional autoencoders | |
Chaudhary et al. | Swin transformer for COVID-19 infection percentage estimation from CT-Scans | |
Karađuzović-Hadžiabdić et al. | Artificial intelligence in clinical decision-making for diagnosis of cardiovascular disease using epigenetics mechanisms | |
BalaKrishna et al. | Autism spectrum disorder detection using machine learning | |
Narwane et al. | Is handling unbalanced datasets for machine learning uplifts system performance?: A case of diabetic prediction | |
Asha et al. | Heart Block Recognition Using Image Processing and Back Propagation Neural Networks | |
Kartheeban | Beyond the Norm: A Modified VGG-16 Model for COVID-19 Detection. | |
Rout | A Novel Grid Ann for Prediction of Heart Disease | |
Liyanage et al. | Covid-19 Chest CT Scan Image Classification Using LCKSVD and Frozen Sparse Coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22942714 Country of ref document: EP Kind code of ref document: A1 |