WO2021240661A1 - 学習装置、学習方法、推定装置、推定方法及びプログラム - Google Patents

学習装置、学習方法、推定装置、推定方法及びプログラム Download PDF

Info

Publication number
WO2021240661A1
WO2021240661A1 PCT/JP2020/020810 JP2020020810W WO2021240661A1 WO 2021240661 A1 WO2021240661 A1 WO 2021240661A1 JP 2020020810 W JP2020020810 W JP 2020020810W WO 2021240661 A1 WO2021240661 A1 WO 2021240661A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning
attribute information
input
unit
latent
Prior art date
Application number
PCT/JP2020/020810
Other languages
English (en)
French (fr)
Inventor
充敏 熊谷
具治 岩田
靖宏 藤原
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2022527333A priority Critical patent/JP7420244B2/ja
Priority to PCT/JP2020/020810 priority patent/WO2021240661A1/ja
Publication of WO2021240661A1 publication Critical patent/WO2021240661A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present invention relates to a learning device, a learning method, an estimation device, an estimation method and a program.
  • Anomaly detection refers to a technique for detecting a sample that behaves differently from the majority of samples (usually called a normal sample) as an abnormality. Anomaly detection is used in various practical applications such as intrusion detection, medical image diagnosis, and industrial system monitoring.
  • each sample is often treated as an independent and generated from a joint distribution (i.i.d. data).
  • dependencies may be explicitly given to the sample.
  • each host is connected to another host in a communication relationship.
  • users are connected by a friendship.
  • the graph formed in this way is called a graph with attribute information.
  • Non-Patent Document 1 As anomaly detection using a graph with attribute information, there is known a method of learning a latent expression of a node that can restore teacher information for a node to which teacher information is given by using a graph neural network (. For example, see Non-Patent Document 1).
  • Non-Patent Document 2 a technique is known in which a latent expression of each node is learned by using a random walk, and an abnormal node on a graph is detected by using the latent expression and teacher information (for example, Non-Patent Document 2). See).
  • the conventional anomaly detection method has a problem that if the number of anomaly samples in the teacher data included in the graph with attribute information is smaller than that of the normal sample, it may not be possible to accurately detect the anomaly.
  • the abnormality detection described in Non-Patent Document 1 does not take into account class imbalance (the property that the abnormal sample in the teacher data is smaller than that of the normal sample). Further, since the abnormality detection described in Non-Patent Document 2 is a random walk-based method, it is necessary to manually set a huge number of parameters in order to perform highly accurate abnormality detection.
  • the learning device has an input unit that receives at least a graph data with attribute information with teacher information including a normal sample as an input, and a normal graph data with attribute information. It is characterized by having a learning unit for learning latent expressions representing the characteristics of the sample.
  • the estimation device uses an input unit that receives graph data with attribute information as input and a model that has learned a latent expression that represents the characteristics of a normal sample included in the graph data with attribute information, and has attribute information input to the input unit. It is characterized by having an estimation unit for estimating the degree of separation between the latent expression of an unknown node of graph data and the latent expression of the normal sample.
  • the present invention even when the number of abnormal samples in the teacher data included in the graph with attribute information is smaller than that of the normal sample, it is possible to accurately detect the abnormalities.
  • FIG. 1 is a diagram showing a configuration example of a detection device according to the first embodiment.
  • FIG. 2 is a diagram illustrating a latent expression.
  • FIG. 3 is a flowchart showing a processing flow of the detection device according to the first embodiment.
  • FIG. 4 is a diagram showing a configuration example of the detection system according to the second embodiment.
  • FIG. 5 is a flowchart showing the flow of the learning process according to the second embodiment.
  • FIG. 6 is a flowchart showing the flow of the estimation process according to the second embodiment.
  • FIG. 7 is a diagram showing an example of a computer that executes a learning program.
  • the detection device learns a model using the input data.
  • the data to be input is a graph with attribute information with teacher information.
  • teacher information is a label indicating whether each sample of data is abnormal or normal.
  • each sample of data corresponds to a node of the graph, and the presence / absence of an edge between the nodes, the weight, and the like are defined.
  • the detection device uses the trained model to detect an abnormality in a sample whose abnormality or normality is unknown, and outputs the detection result. That is, in the first embodiment, the detection device has the functions of both a learning device and an estimation device.
  • FIG. 1 is a diagram showing a configuration example of a detection device according to the first embodiment.
  • the detection device 10 includes an input unit 11, an output unit 12, a storage unit 13, and a control unit 14.
  • the input unit 11 is an interface for receiving data input via an input device.
  • the output unit 12 is an interface for outputting data to the output device.
  • the storage unit 13 is a storage device for an HDD (Hard Disk Drive), SSD (Solid State Drive), optical disk, or the like.
  • the storage unit 13 may be a semiconductor memory in which data such as RAM (Random Access Memory), flash memory, and NVSRAM (Non Volatile Static Random Access Memory) can be rewritten.
  • the storage unit 13 stores an OS (Operating System) and various programs executed by the detection device 10.
  • the storage unit 13 stores the model information 131.
  • Model information 131 is information such as parameters for constructing a model.
  • the model information 131 includes weights, biases, and the like of each layer of the neural network.
  • the control unit 14 controls the entire detection device 10.
  • the control unit 14 is, for example, an electronic circuit such as a CPU (Central Processing Unit) or MPU (Micro Processing Unit), or an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or FPGA (Field Programmable Gate Array).
  • the control unit 14 has an internal memory for storing programs and control data that specify various processing procedures, and executes each process using the internal memory.
  • the control unit 14 functions as various processing units by operating various programs.
  • the control unit 14 has a learning unit 141 and an estimation unit 142.
  • the learning unit 141 learns a latent expression representing the characteristics of a normal sample included in the graph data with attribute information. Further, when the learning unit 141 performs learning, the input unit 11 shall receive as input graph data with attribute information with teacher information including at least a normal sample. The learning unit 141 receives a normal sample included in the graph data with attribute information as an input, and outputs information about the trained model. Information about the model output by the learning unit 141 is stored in the storage unit 13 as model information 131.
  • the estimation unit 142 uses a model that has learned a latent expression representing the characteristics of a normal sample included in the graph data with attribute information with teacher information, and the characteristics of an unknown node of the graph data with attribute information input to the input unit 11. And estimate the degree of deviation from the characteristics of the normal sample.
  • the input unit 11 normally receives the graph data with attribute information used as an input in the learning unit 141 as an input. At this time, the input unit 11 can also receive only the unlabeled sample (attribute information) as input.
  • FIG. 2 is a diagram illustrating a latent expression.
  • the graph with attribute information input to the detection device 10 includes, in addition to the attribute information of each sample, information about the edge between the nodes when each sample is regarded as a node of the graph.
  • the communication relationship between the hosts corresponds to the information about the edge.
  • communication-related matters include the presence / absence of a connection, the bandwidth that can be used for communication, and the actual amount of communication.
  • the friendship between the users corresponds to the information about the edge.
  • a friendship is whether or not a friend is registered, the number of messages exchanged, and the like.
  • the teacher information is a label indicating whether the sample is abnormal or normal.
  • the attribute information is information representing the characteristics of each sample, and in the above example of the SNS user, age, gender, income, number of friends, etc. can be attribute information.
  • the node (Labeled Normal Instance) corresponding to the normal sample to which the label indicating normality is given indicates that it is abnormal.
  • a node corresponding to an abnormal sample with a label (Labeled Anomalous Instance) and a node corresponding to an unknown sample without a label (Unlabeled Instance) may be included.
  • the input data includes at least the node corresponding to the normal sample. Further, in the estimation process, it is sufficient that the input data includes at least the node corresponding to the unknown sample.
  • the detection device 10 may learn the latent expression of the node such that the normal sample is embedded in the hypersphere (normal region) of the latent space (Embedding Space).
  • a hypersphere is a region within a certain distance from a center point c preset in a latent space.
  • the detection device 10 can arrange each sample in the latent space by GCN (Graph Convolutional Network).
  • the detection device 10 may further learn the latent expression of the node such that the abnormal sample is arranged outside the hypersphere (abnormal region, Anomalous Region).
  • the detection device 10 performs learning in consideration of the attribute information and the graph structure of each sample. Therefore, according to the learned latent expression, unknown samples with similar characteristics to normal samples are likely to be placed inside the hypersphere, and unknown samples with similar characteristics to abnormal samples are placed outside the hypersphere. It becomes easy to be done.
  • Features include attribute information and graph structure.
  • the detection device 10 can calculate the anomaly score based on the distance from the center point c of the position where the unknown sample is placed, and output the detection result based on the anomaly score.
  • the detection result may be the anomaly score itself, or may be information for identifying a sample in which the anomaly score exceeds the threshold value, that is, a sample that may be abnormal.
  • the anomaly score is an example of the degree of difference between the characteristics of each node of the graph data with attribute information input to the input unit 11 and the characteristics of the normal sample.
  • G (V, X, A) be the data input to the detection device 10.
  • N is the total number of nodes
  • V (v 1 ,..., v N ) is the node set
  • A is the adjacency matrix with each node in rows and columns
  • X (v 1 ,..., v N ) T ⁇ R N ⁇
  • D is a matrix of attribute information for each node. Note that D is the number of dimensions of the feature vector representing the attribute information.
  • the graph may be a directed graph.
  • the direction of the edge may be expressed by the sign of the value of each element of the adjacency matrix A.
  • the set of indexes of the nodes representing the abnormal and normal samples given as teacher information are expressed as I A and I N , respectively.
  • the teacher information is given to a part of the nodes included in the graph. That is, assume
  • the detection device 10 calculates the anomaly score as in Eq. (1).
  • h n is a K-dimensional vector representing the latent representation of the node n
  • c is a K-dimensional vector preset by the user. This c represents the center point of the hypersphere in K-dimensional space.
  • the K-dimensional space is an example of a latent space.
  • the detection device 10 calculates the latent representation of each node using GCN.
  • the latent expression h n of each node is obtained by the update formula shown in Eq. (2).
  • the learning unit 141 of the detection device 10 has functions as a conversion unit and an update unit. First, the learning unit 141 converts the characteristics of the normal sample into a latent expression in the latent space by using the model. Then, the learning unit 141 updates the parameters of the model so that the latent representation of the converted normal sample is close to a predetermined point (center point c) in the preset latent space.
  • the GCN corresponds to the model, and the learning unit 141 updates the parameters of the GCN so that the objective function described later is optimized.
  • W in Eq. (2) is a parameter updated in the learning of GCN.
  • is an arbitrary nonlinear function
  • a nm is the (n, m) component of A. If there is an edge between node n and node m, a nm is a real number greater than 0 (eg 1). On the other hand, if there is no edge between node n and node m, a nm is 0.
  • d n represents the degree of node n.
  • the output (latent representation) of node n is linearly transformed by W with the latent representation of the node connected to node n itself in addition to the latent representation of node n itself, and then nonlinearly transformed by ⁇ . Obtained by doing.
  • the latent representation of each node is output not only for each node itself but also for the adjacent graph structure.
  • the detection device 10 uses the output obtained through L conversions as the final latent representation of the node.
  • the initial state h n (0) of the node n may be the attribute vector x n.
  • the detection device 10 is optimized for the objective function L ( ⁇ ) shown in Eq. (5), which includes L nor ( ⁇ ) shown in Eq. (3) and R AUC ( ⁇ ) shown in Eq. (4) as terms. Update the GCN parameters so that.
  • Equation (4) is equal to a continuous approximation of AUC.
  • the detection device 10 When minimizing only the first term of the equation (4), the detection device 10 performs learning so that the following (condition 1) to (condition 3) are satisfied, so that a trivial solution (of an arbitrary node) is satisfied.
  • the latent expression h matches c) can be avoided.
  • (Condition 3) Use an unbounded activation function (ReLU, etc.).
  • FIG. 3 is a flowchart showing a processing flow of the detection device according to the first embodiment.
  • the input unit 11 receives a graph with attribute information with teacher information as an input (step S101).
  • the learning unit 141 learns the latent expression of each node of the graph (step S102). Specifically, the learning unit 141 updates the parameters of the model so that the conversion of each node into the latent representation by the model is optimized.
  • the estimation unit 142 estimates the anomaly score of the unlabeled sample based on the learned latent expression (step S103).
  • the output unit 12 outputs a detection result based on the anomaly score (step S104).
  • the input unit 11 receives the graph data with attribute information with teacher information including at least a normal sample as input.
  • the learning unit 141 learns a latent expression representing the characteristics of a normal sample included in the graph data with attribute information.
  • the detection device 10 can learn the latent expression for abnormality detection based on the graph data with attribute information including the normal sample. Therefore, according to the present embodiment, even when the number of abnormal samples in the teacher data including the graph with attribute information is smaller than that of the normal sample, the abnormality can be detected with high accuracy.
  • Non-Patent Document 1 in the case of data having class imbalance, the information of the abnormality sample is easily ignored at the time of learning by the normal supervised machine learning method (eg SVM, DNN), and the information is accurate. There is a problem of not being able to learn. In the present embodiment, even data having class imbalance can be learned with high accuracy.
  • the normal supervised machine learning method eg SVM, DNN
  • the input unit 11 receives graph data with attribute information as input.
  • the estimation unit 142 uses a model learned of a latent expression representing the characteristics of a normal sample included in the graph data with attribute information with teacher information, and the characteristics of each node of the graph data with attribute information input to the input unit 11. And estimate the degree of deviation from the characteristics of the normal sample. Therefore, according to the present embodiment, even when the number of abnormal samples in the teacher data including the graph with attribute information is smaller than that of the normal sample, learning and estimation for abnormality detection can be performed.
  • the learning unit 141 converts the characteristics of the normal sample into a latent expression in the latent space by using the model.
  • the learning unit 141 updates the parameters of the model so that the latent representation of the transformed normal sample is close to a predetermined point in the preset latent space. As a result, the detection device 10 can optimize the model based on the normal sample.
  • the input unit 11 receives attribute information for each sample and graph data with attribute information including at least an adjacent graph showing the presence or absence of edges between nodes corresponding to each sample as input.
  • the learning unit 141 learns so that the latent expression obtained based on both the attribute information and the adjacent graph is optimized. As a result, the detection device 10 can perform abnormality detection in consideration of not only the attribute information of each sample but also the relationship between the samples.
  • the detection device has the functions of both the learning device and the estimation device has been described.
  • the learning device and the estimation device are realized as separate devices.
  • FIG. 4 is a diagram showing a configuration example of the detection system according to the second embodiment.
  • the detection system 2 has a learning device 20 and an estimation device 30.
  • the learning device 20 has an input unit 21, an output unit 22, a storage unit 23, and a control unit 24.
  • the estimation device 30 has an input unit 31, an output unit 32, a storage unit 33, and a control unit 34.
  • the input unit 21 and the input unit 31 are interfaces for receiving data input via the input device. Further, the output unit 22 and the output unit 32 are interfaces for outputting data to the output device.
  • the storage unit 23 and the storage unit 33 are storage devices for storing data, like the storage unit 13.
  • the control unit 24 and the control unit 34 control each device in the same manner as the control unit 14.
  • the learning device 20 receives a graph with attribute information with teacher information as an input.
  • the control unit 34 has a learning unit 241 and a storage unit 242.
  • the learning unit 241 has the same function as the learning unit 141.
  • the storage unit 242 stores information about the model obtained by the learning process by the learning unit 241 in the storage unit 23 as model information 231.
  • the estimation device 30 receives an unlabeled sample (unknown sample) as an input. Further, the estimation device 30 acquires model information 231 from the learning device 20.
  • the control unit 34 has an estimation unit 341.
  • the estimation unit 341 estimates the anomaly score of the input unlabeled sample using the model constructed based on the model information 231.
  • the input unit 21 receives graph data with attribute information as input.
  • the estimation unit 341 uses a model that has learned a latent expression that represents the characteristics of a normal sample included in the graph data with attribute information, and uses a latent expression of an unknown node of each node of the graph data with attribute information input to the input unit 21. And estimate the degree of deviation from the latent expression of the normal sample.
  • GraphSAGE Reference 1: Hamilton, Will, Zhitao Ying, and Jure Leskovec. "Inductive representation learning on large graphs.” Advances in neural information processing systems. An inductive model such as 2017.) may be adopted.
  • the learning device 20 learns the parameters of the inductive model using the graph with attribute information, and the estimation device 30 uses the trained model for the unlabeled sample given at the time of estimation. Anomaly scores can be detected.
  • FIG. 5 is a flowchart showing the flow of the learning process according to the second embodiment.
  • the input unit 21 receives a graph with attribute information with teacher information as an input (step S201).
  • the learning unit 241 learns a model for obtaining the latent representation of the nodes of the graph (step S202).
  • the storage unit 242 stores the learned model (step S203).
  • FIG. 6 is a flowchart showing the flow of the estimation process according to the second embodiment.
  • the input unit 31 receives the unlabeled sample as an input (step S301).
  • the estimation unit 341 refers to the trained model and estimates the anomaly score of the unlabeled sample (step S302).
  • the output unit 32 outputs the detection result based on the anomaly score (step S303).
  • each component of each of the illustrated devices is a functional concept, and does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution and integration of each device is not limited to the one shown in the figure, and all or part of them may be functionally or physically dispersed or physically distributed in arbitrary units according to various loads and usage conditions. Can be integrated and configured. Further, each processing function performed by each device may be realized by a CPU and a program analyzed and executed by the CPU, or may be realized as hardware by wired logic.
  • the detection device 10, the learning device 20, and the estimation device 30 can be implemented by installing a program for executing the above learning process or estimation process as package software or online software on a desired computer.
  • the information processing device can function as the detection device 10, the learning device 20, or the estimation device 30.
  • the information processing device referred to here includes a desktop type or notebook type personal computer.
  • information processing devices include smartphones, mobile communication terminals such as mobile phones and PHS (Personal Handyphone System), and slate terminals such as PDAs (Personal Digital Assistants).
  • the detection device 10, the learning device 20, and the estimation device 30 can be implemented as a server device in which the terminal device used by the user is a client and the service related to the learning process or the estimation process is provided to the client.
  • the server device is implemented as a server device that provides a service that inputs training data and outputs training model information.
  • the server device may be implemented as a Web server, or may be implemented as a cloud that provides services related to the above processing by outsourcing.
  • FIG. 7 is a diagram showing an example of a computer that executes a learning program.
  • the estimation program may also be executed by a similar computer.
  • the computer 1000 has, for example, a memory 1010 and a processor 1020.
  • the computer 1000 also has a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. Each of these parts is connected by a bus 1080.
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012.
  • the ROM 1011 stores, for example, a boot program such as a BIOS (BASIC Input Output System).
  • the processor 1020 includes a CPU 1021 and a GPU (Graphics Processing Unit) 1022.
  • the hard disk drive interface 1030 is connected to the hard disk drive 1090.
  • the disk drive interface 1040 is connected to the disk drive 1100. For example, a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1100.
  • the serial port interface 1050 is connected to, for example, a mouse 1110 and a keyboard 1120.
  • the video adapter 1060 is connected to, for example, the display 1130.
  • the hard disk drive 1090 stores, for example, the OS 1091, the application program 1092, the program module 1093, and the program data 1094. That is, the program that defines each process of the learning device 20 is implemented as a program module 1093 in which a code that can be executed by a computer is described.
  • the program module 1093 is stored in, for example, the hard disk drive 1090.
  • the program module 1093 for executing the same processing as the functional configuration in the learning device 20 is stored in the hard disk drive 1090.
  • the hard disk drive 1090 may be replaced by an SSD.
  • the setting data used in the processing of the above-described embodiment is stored as program data 1094 in, for example, a memory 1010 or a hard disk drive 1090. Then, the CPU 1020 reads the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1090 into the RAM 1012 as needed, and executes the process of the above-described embodiment.
  • the program module 1093 and the program data 1094 are not limited to those stored in the hard disk drive 1090, but may be stored in, for example, a removable storage medium and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program module 1093 and the program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). Then, the program module 1093 and the program data 1094 may be read from another computer by the CPU 1020 via the network interface 1070.
  • LAN Local Area Network
  • WAN Wide Area Network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

入力部は、正常サンプルを少なくとも含む教師情報付きの属性情報付きグラフデータを入力として受け取る。学習部は、属性情報付きグラフデータに含まれる正常サンプルの特徴を表す潜在表現を学習する。推定部は、教師情報付きの属性情報付きグラフデータに含まれる正常サンプルの特徴を表す潜在表現を学習したモデルを用いて、入力されたサンプルの特徴と、正常サンプルの特徴とのかい離の度合いを推定する。

Description

学習装置、学習方法、推定装置、推定方法及びプログラム
 本発明は、学習装置、学習方法、推定装置、推定方法及びプログラムに関する。
 従来、属性情報付きグラフを使った異常検知が知られている。異常検知とは、大多数のサンプル(通常、正常サンプルと呼ばれる)とは振る舞いが異なるサンプルを異常として検知する技術を指す。異常検知は侵入検知、医療画像診断、産業システム監視等様々な実応用で利用されている。
 ここで、通常の異常検知では各々のサンプルは独立かつ同時分布から生成(i.i.d. データ)として扱われることが多い。一方で、いくつかの実応用では、サンプルに対し依存関係(つながり、グラフ構造)が陽に与えられることがある。例えば、セキュリティにおけるボットネット検知では、各ホスト(サンプル)は他のホストと通信関係で結ばれる。SNS上の異常ユーザ検知では、ユーザ(サンプル)は友人関係で結ばれている。このようにして形成されるグラフを属性情報付きグラフと呼ぶ。
 例えば、属性情報付きグラフを使った異常検知として、グラフニューラルネットワークを用いることで教師情報が与えられたノードについて、教師情報を復元できるようなノードの潜在表現を学習する方法が知られている(例えば、非特許文献1を参照)。
 また、例えば、ランダムウォークを用いることで各ノードの潜在表現を学習し、その潜在表現と教師情報を用いることでグラフ上の異常ノードを検知する技術が知られている(例えば、非特許文献2を参照)。
Thomas N. Kipf, Max Weling, "SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS", https://arxiv.org/pdf/1609.02907.pdf Jun Wu, Jingrui He, Yongming Liu, "ImVerde: Vertex-Diminished Random Walk for Learning Imbalanced Network Representation", https://arxiv.org/pdf/1804.09222.pdf
 しかしながら、従来の異常検知手法には、属性情報付きグラフが含む教師データにおける異常サンプルが正常サンプルに比べて少ない場合、精度良く異常検知を行うことができないことがあるという問題がある。
 例えば、非特許文献1に記載の異常検知は、クラスインバランス性(教師データにおける異常サンプルが正常サンプルに比べて少ない性質)が加味されていない。また、非特許文献2に記載の異常検知は、ランダムウォークベースの手法であるため、高精度な異常検知を行うためには膨大なパラメータを人手で設定する必要がある。
 上述した課題を解決し、目的を達成するために、学習装置は、正常サンプルを少なくとも含む教師情報付きの属性情報付きグラフデータを入力として受け取る入力部と、前記属性情報付きグラフデータに含まれる正常サンプルの特徴を表す潜在表現を学習する学習部と、を有することを特徴とする。
 推定装置は、属性情報付きグラフデータを入力として受け取る入力部と属性情報付きグラフデータに含まれる正常サンプルの特徴を表す潜在表現を学習したモデルを用いて、前記入力部に入力された属性情報付きグラフデータの未知ノードの潜在表現と、前記正常サンプルの潜在表現とのかい離の度合いを推定する推定部と、を有することを特徴とする。
 本発明によれば、属性情報付きグラフが含む教師データにおける異常サンプルが正常サンプルに比べて少ない場合であっても、精度良く異常検知を行うことができる。
図1は、第1の実施形態に係る検知装置の構成例を示す図である。 図2は、潜在表現を説明する図である。 図3は、第1の実施形態に係る検知装置の処理の流れを示すフローチャートである。 図4は、第2の実施形態に係る検知システムの構成例を示す図である。 図5は、第2の実施形態に係る学習処理の流れを示すフローチャートである。 図6は、第2の実施形態に係る推定処理の流れを示すフローチャートである。 図7は、学習プログラムを実行するコンピュータの一例を示す図である。
 以下に、本願に係る学習装置、学習方法、推定装置、推定方法及びプログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。
[第1の実施形態]
 第1の実施形態に係る検知装置は、入力されたデータを用いてモデルの学習を行う。例えば、入力されるデータは、教師情報付きの属性情報付きグラフである。例えば、教師情報は、データの各サンプルが異常であるか正常であるかを示すラベルである。また、データの各サンプルは、グラフのノードに相当し、ノード間のエッジの有無及び重み等が定義されているものとする。また、検知装置は、学習済みのモデルを用いて、異常であるか正常であるかが未知のサンプルの異常検知を行い、検知結果を出力する。つまり、第1の実施形態において、検知装置は学習装置と推定装置の両方の機能を有する。
[第1の実施形態の構成]
 図1は、第1の実施形態に係る検知装置の構成例を示す図である。図1に示すように、検知装置10は、入力部11、出力部12、記憶部13及び制御部14を有する。入力部11は、入力装置を介してデータの入力を受け付けるためのインタフェースである。また、出力部12は、出力装置に対してデータを出力するためのインタフェースである。
 記憶部13は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、光ディスク等の記憶装置である。なお、記憶部13は、RAM(Random Access Memory)、フラッシュメモリ、NVSRAM(Non Volatile Static Random Access Memory)等のデータを書き換え可能な半導体メモリであってもよい。記憶部13は、検知装置10で実行されるOS(Operating System)や各種プログラムを記憶する。記憶部13は、モデル情報131を記憶する。
 モデル情報131は、モデルを構築するためのパラメータ等の情報である。例えば、モデルがニューラルネットワークであれば、モデル情報131はニューラルネットワークの各層の重みやバイアス等を含む。
 制御部14は、検知装置10全体を制御する。制御部14は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等の電子回路や、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等の集積回路である。また、制御部14は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部14は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、制御部14は、学習部141及び推定部142を有する。
 学習部141は、属性情報付きグラフデータに含まれる正常サンプルの特徴を表す潜在表現を学習する。また、学習部141が学習を行う場合、入力部11は、正常サンプルを少なくとも含む教師情報付きの属性情報付きグラフデータを入力として受け取るものとする。学習部141は、属性情報付きグラフデータに含まれる正常サンプルを入力として受け取り、学習済みのモデルに関する情報を出力する。なお、学習部141によって出力されるモデルに関する情報は、モデル情報131として記憶部13に格納される。
 推定部142は、教師情報付きの属性情報付きグラフデータに含まれる正常サンプルの特徴を表す潜在表現を学習したモデルを用いて、入力部11に入力された属性情報付きグラフデータの未知ノードの特徴と、正常サンプルの特徴とのかい離の度合いを推定する。推定部142が推定を行う場合、入力部11は、通常は学習部141で入力として用いた属性情報付きグラフデータを入力として受け取る。このとき、入力部11は、ラベルなしサンプル(属性情報)のみを入力として受け取ることもできる。
 図2を用いて、潜在表現による学習処理及び推定処理を説明する。図2は、潜在表現を説明する図である。まず、検知装置10に入力される属性情報付きグラフは、各サンプルの属性情報に加え、各サンプルをグラフのノードと見なしたときの、ノード間のエッジに関する情報を含むものとする。
 例えば、サンプルがネットワーク上のホストである場合、ホスト間の通信関係がエッジに関する情報に相当する。例えば、通信関係は、接続の有無、通信に使用可能な帯域、通信量の実績等である。
 また、例えば、サンプルSNSのユーザである場合、ユーザ間の友人関係がエッジに関する情報に相当する。例えば、友人関係は、友人として登録されているか否か、やり取りしたメッセージの件数等である。
 また、本実施形態では、教師情報はサンプルが異常であるか正常であるかを示すラベルであるものとする。また、属性情報は、各サンプルの特徴を表す情報であり、上記のSNSのユーザの例では、年齢、性別、収入、友人の数等が属性情報になり得る。
 図2に示すように、検知装置10に入力される属性情報付グラフには、正常であることを示すラベルが付与された正常サンプルに対応するノード(Labeled Normal Instance)、異常であることを示すラベルが付与された異常サンプルに対応するノード(Labeled Anomalous Instance)、ラベルが付与されていない未知サンプルに対応するノード(Unlabeled Instance)が含まれ得る。
 学習処理においては、入力されるデータの中に、少なくとも正常サンプルに対応するノードが含まれていればよい。また、推定処理においては、入力されるデータの中に、少なくとも未知サンプルに対応するノードが含まれていればよい。
 学習処理において、検知装置10は、正常サンプルが潜在空間(Embedding Space)の超球内(正常領域、Normal Region)に埋め込まれるようなノードの潜在表現を学習してもよい。例えば、超球は、潜在空間にあらかじめ設定された中心点cから一定の距離以内の領域である。検知装置10は、GCN(Graph Convolutional Network)によって各サンプルの潜在空間への配置を行うことができる。
 なお、異常サンプルに対応するノードが存在する場合、検知装置10は、異常サンプルが超球の外側(異常領域、Anomalous Region)に配置されるようなノードの潜在表現をさらに学習してもよい。
 検知装置10は、各サンプルの属性情報及びグラフ構造を加味して学習を行う。このため、学習済みの潜在表現によれば、正常サンプルと特徴が似ている未知サンプルは超球の中に配置されやすくなり、異常サンプルと特徴が似ている未知サンプルは超球の外側に配置されやすくなる。特徴には、属性情報及びグラフの構造が含まれる。
 また、検知装置10は、未知サンプルが配置された位置の中心点cからの距離に基づき、アノマリスコアを計算し、アノマリスコアに基づく検知結果を出力することができる。検知結果は、アノマリスコアそのものであってもよいし、アノマリスコアが閾値を超えたサンプル、すなわち異常である恐れがあるサンプルを特定するための情報であってもよい。アノマリスコアは、入力部11に入力された属性情報付きグラフデータの各ノードの特徴と、正常サンプルの特徴とのかい離の度合いの一例である。
 ここで、検知装置10による処理を詳細に説明する。まず、検知装置10に入力されるデータをG=(V, X, A)とする。Gは無向グラフであるものとする。Nをノードの総数、V=(v1, …, vN)をノード集合、Aを各ノードを行及び列に持つ隣接行列、X=(v1, …, vN)T∈RN×Dを各ノードの属性情報の行列とする。なお、Dは属性情報を表す特徴ベクトルの次元数である。
 なお、グラフのノードとサンプルは1対1で対応しているものとする。また、グラフは有向グラフであってもよい。その場合、例えば、隣接行列Aの各要素の値の符号によってエッジの向きが表現されてもよい。
 さらに、教師情報として与えられる異常及び正常サンプルを表すノードのindexの集合をそれぞれIA、INと表す。本実施形態では、教師情報はグラフに含まれるノードのうちの一部に与えられているものとする。すなわち、|IA|+|IN|<<Nを仮定する。また、異常サンプルの数は正常サンプルに比べて少ないとも仮定する。異常サンプルの数は0であってもよい。
 検知装置10は、アノマリスコアを(1)式のように計算する。
Figure JPOXMLDOC01-appb-M000001
 ここで、hnはノードnの潜在表現を表すK次元ベクトル、cはユーザが事前に設定するK次元ベクトルである。このcはK次元空間上の超球の中心点を表す。K次元空間は、潜在空間の一例である。また、(1)式では、hnがcから遠ざかれば遠ざかるほどノードnのアノマリスコアa(vn)は高くなる。したがって、各ノードの潜在表現としては、異常サンプルはcから遠く、正常サンプルはcに近いほうが望ましい。
 検知装置10は、各ノードの潜在表現をGCNを利用して計算する。GCNでは、各ノードの潜在表現hnは(2)式に示す更新式により求められる。
Figure JPOXMLDOC01-appb-M000002
 ここで、検知装置10の学習部141は、変換部及び更新部としての機能を持つ。まず、学習部141は、モデルを用いて、正常サンプルの特徴を潜在空間における潜在表現に変換する。そして、学習部141は、変換される正常サンプルの潜在表現が、あらかじめ設定された潜在空間における所定の点(中心点c)に近くなるように、モデルのパラメータを更新する。この場合、GCNがモデルに相当し、学習部141は、後述する目的関数が最適化されるように、GCNのパラメータを更新していく。
 (2)式のWは、GCNの学習において更新されるパラメータである。σは任意の非線形関数、anmはAの(n,m)成分である。ノードnとノードmとの間にエッジがあれば、anmは0より大きい実数(例えば1)となる。一方、ノードnとノードmとの間にエッジがなければ、anmは0となる。
 dnはノードnの次数を表す。(2)式に示すように、ノードnの出力(潜在表現)は、ノードn自身の潜在表現に加え、ノードn自身と接続するノードの潜在表現をWで線形変換したのち、σで非線形変換することで得られる。このように、各ノードの潜在表現は各ノード自身だけでなく、隣接グラフ構造も加味して出力される。ここで、検知装置10は、L回の変換を通して得られる出力を、ノードの最終的な潜在表現とする。なお、ノードnの初期状態hn (0)は、属性ベクトルxnであってよい。
 検知装置10は、(3)式に示すLnor(θ)、及び(4)式に示すRAUC(θ)を項として含む、(5)式に示す目的関数L(θ)が最適化されるように、GCNのパラメータを更新する。
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000004
Figure JPOXMLDOC01-appb-M000005
 ここで、(4)式のfはシグモイド関数を表す。(4)式はAUCの連続近似と等しい。異常サンプルのアノマリスコアが正常サンプルのものよりも高くなるほど、(4)式のRAUC(θ)は大きくなる。
 検知装置10は、(5)式を最小化するようなGCNのパラメータθ=(W(0), …, W(L-1))を求める。また、検知装置10は、gradient-basedな任意の最適化法を用いることでパラメータθを推定できる。
 なお、(4)式のλは正の実数又は0であり、第1項(Lnor(θ))と第2項(RAUC(θ))の影響を調整する人手で設定すべきパラメータである。異常サンプルがない、あるいはλ=0の場合であっても、検知装置10は、第1項のみを最小化することでモデルの学習を行うことができる。
 (4)式の第1項のみを最小化する場合、検知装置10は、以下の(条件1)~(条件3)が満たされるように学習を行うことで、trivialな解(任意のノードの潜在表現hがcと一致)を避けることができる。
(条件1)cがゼロベクトルではない。
(条件2)GCNのbias termは使わない。
(条件3)unboundedなactivation function (ReLU等)を用いる。
 図3は、第1の実施形態に係る検知装置の処理の流れを示すフローチャートである。図3に示すように、まず、入力部11は、教師情報付きの属性情報付きグラフを入力として受け取る(ステップS101)。次に、学習部141は、グラフの各ノードの潜在表現を学習する(ステップS102)。具体的には、学習部141は、モデルによる各ノードの潜在表現への変換が最適化されるように、モデルのパラメータを更新する。
 そして、推定部142は、学習した潜在表現を基に、ラベルなしサンプルのアノマリスコアを推定する(ステップS103)。出力部12は、アノマリアスコアに基づく検知結果を出力する(ステップS104)。
[第1の実施形態の効果]
 これまで説明してきたように、入力部11は、正常サンプルを少なくとも含む教師情報付きの属性情報付きグラフデータを入力として受け取る。学習部141は、属性情報付きグラフデータに含まれる正常サンプルの特徴を表す潜在表現を学習する。このように、検知装置10は、正常サンプルが含まれる属性情報付きグラフデータを基に、異常検知のための潜在表現を学習することができる。このため、本実施形態によれば、属性情報付きグラフを含む教師データにおける異常サンプルが正常サンプルに比べて少ない場合であっても、精度良く異常検知を行うことができる。
 また、非特許文献1に記載の異常検知では、クラスインバランス性があるデータの場合、通常の教師あり機械学習法(e.g. SVM, DNN)では学習時に異常サンプルの情報が無視されやすく、精度良く学習ができないという問題がある。本実施形態では、クラスインバランス性のあるデータであっても精度良く学習することができる。
 また、入力部11は、属性情報付きグラフデータを入力として受け取る。推定部142は、教師情報付きの属性情報付きグラフデータに含まれる正常サンプルの特徴を表す潜在表現を学習したモデルを用いて、入力部11に入力された属性情報付きグラフデータの各ノードの特徴と、正常サンプルの特徴とのかい離の度合いを推定する。このため、本実施形態によれば、属性情報付きグラフを含む教師データにおける異常サンプルが正常サンプルに比べて少ない場合であっても、異常検知のための学習及び推定を行うことができる。
 学習部141は、モデルを用いて、正常サンプルの特徴を潜在空間における潜在表現に変換する。学習部141は、変換される正常サンプルの潜在表現が、あらかじめ設定された潜在空間における所定の点に近くなるように、モデルのパラメータを更新する。これにより、検知装置10は、正常サンプルを基にモデルの最適化を行うことができる。
 入力部11は、サンプルごとの属性情報、及び各サンプルに対応するノード間のエッジの有無を表す隣接グラフを少なくとも含む属性情報付きグラフデータを入力として受け取る。学習部141は、属性情報と隣接グラフの両方を基に得られる潜在表現が最適化されるように学習する。これにより、検知装置10は、各サンプルの属性情報だけでなく、サンプル間の関係性を考慮した異常検知を行うことができる。
[第2の実施形態]
 第1の実施形態では、検知装置が学習装置と推定装置の両方の機能を有する場合の例を説明した。一方、第2の実施形態では、学習装置と推定装置は別々の装置として実現される。
[第2の実施形態の構成]
 図4は、第2の実施形態に係る検知システムの構成例を示す図である。図4に示すように、検知システム2は、学習装置20及び推定装置30を有する。学習装置20は、入力部21、出力部22、記憶部23及び制御部24を有する。また、推定装置30は、入力部31、出力部32、記憶部33及び制御部34を有する。
 入力部21及び入力部31は、入力装置を介してデータの入力を受け付けるためのインタフェースである。また、出力部22及び出力部32は、出力装置に対してデータを出力するためのインタフェースである。記憶部23及び記憶部33は、記憶部13と同様、データを記憶するための記憶装置である。制御部24及び制御部34は、制御部14と同様に、各装置を制御する。
 図2に示すように、学習装置20は、教師情報付きの属性情報付きグラフを入力として受け取る。制御部34は、学習部241及び格納部242を有する。学習部241は、学習部141と同様の機能を有する。格納部242は、学習部241による学習処理によって得られたモデルに関する情報を、モデル情報231として記憶部23に格納する。
 推定装置30は、ラベルなしサンプル(未知サンプル)を入力として受け取る。また、推定装置30は、学習装置20からモデル情報231を取得する。制御部34は推定部341を有する。推定部341は、モデル情報231を基に構築されるモデルを用いて、入力されたラベルなしサンプルのアノマリスコアを推定する。
 例えば、入力部21は、属性情報付きグラフデータを入力として受け取る。推定部341は、属性情報付きグラフデータに含まれる正常サンプルの特徴を表す潜在表現を学習したモデルを用いて、入力部21に入力された属性情報付きグラフデータの各ノードの未知ノードの潜在表現と、正常サンプルの潜在表現とのかい離の度合いを推定する。
 第2の実施形態では、GCNの代わりに、グラフニューラルネットワークとして、GraphSAGE(参考文献1:Hamilton, Will, Zhitao Ying, and Jure Leskovec. "Inductive representation learning on large graphs." Advances in neural information processing systems. 2017.)のようなinductiveなモデルが採用されてもよい。このように、学習装置20が、inductiveなモデルのパラメータを属性情報付グラフを用いて学習しておくことで、推定装置30は、推定時に与えられるラベルなしサンプルについては、学習済みモデルを用いてアノマリスコアを検知することができる。
 図5は、第2の実施形態に係る学習処理の流れを示すフローチャートである。図5に示すように、まず、入力部21は、教師情報付きの属性情報付きグラフを入力として受け取る(ステップS201)。学習部241は、グラフのノードの潜在表現を得るためのモデルを学習する(ステップS202)。格納部242は、学習したモデルを格納する(ステップS203)。
 図6は、第2の実施形態に係る推定処理の流れを示すフローチャートである。図6に示すように、まず、入力部31は、ラベルなしサンプルを入力として受け取る(ステップS301)。推定部341は、学習したモデルを参照し、ラベルなしサンプルのアノマリスコアを推定する(ステップS302)。出力部32は、アノマリスコアに基づく検知結果を出力する(ステップS303)。
[システム構成等]
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
 また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
 一実施形態として、検知装置10、学習装置20及び推定装置30は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理又は推定処理を実行するプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を検知装置10、学習装置20又は推定装置30として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
 また、検知装置10、学習装置20及び推定装置30は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の学習処理又は推定処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、サーバ装置は、学習用のデータを入力とし、学習済みのモデルの情報を出力とするサービスを提供するサーバ装置として実装される。この場合、サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。
 図7は、学習プログラムを実行するコンピュータの一例を示す図である。なお、推定プログラムについても同様のコンピュータによって実行されてもよい。コンピュータ1000は、例えば、メモリ1010、プロセッサ1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(BASIC Input Output System)等のブートプログラムを記憶する。プロセッサ1020は、CPU1021及びGPU(Graphics Processing Unit)1022を含む。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
 ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、学習装置20の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、学習装置20における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。
 また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020は、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した実施形態の処理を実行する。
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 2 検知システム
 10 検知装置
 11、21、31 入力部
 12、22、32 出力部
 13、23、33 記憶部
 14、24、34 制御部
 20 学習装置
 30 推定装置
 131 モデル情報
 141、241 学習部
 142、341 推定部
 242 格納部

Claims (7)

  1.  正常サンプルを少なくとも含む教師情報付きの属性情報付きグラフデータを入力として受け取る入力部と、
     前記属性情報付きグラフデータに含まれる正常サンプルの特徴を表す潜在表現を学習する学習部と、
     を有することを特徴とする学習装置。
  2.  前記学習部は、
     モデルを用いて、前記正常サンプルの特徴を潜在空間における潜在表現に変換する変換部と、
     前記変換部によって変換される前記正常サンプルの潜在表現が、あらかじめ設定された前記潜在空間における所定の点に近くなるように、前記モデルのパラメータを更新する更新部と、
     を有することを特徴とする請求項1に記載の学習装置。
  3.  前記入力部は、サンプルごとの属性情報、及び各サンプルに対応するノード間のエッジの有無を表す隣接グラフを少なくとも含む属性情報付きグラフデータを入力として受け取り、
     前記学習部は、前記属性情報と前記隣接グラフの両方を基に得られる潜在表現が最適化されるように学習することを特徴とする請求項1又は2に記載の学習装置。
  4.  学習装置が実行する学習方法であって、
     正常サンプルを少なくとも含む教師情報付きの属性情報付きグラフデータを入力として受け取る入力工程と、
     前記属性情報付きグラフデータに含まれる正常サンプルの特徴を表す潜在表現を学習する学習工程と、
     を含むことを特徴とする学習方法。
  5.  属性情報付きグラフデータを入力として受け取る入力部と、
     属性情報付きグラフデータに含まれる正常サンプルの特徴を表す潜在表現を学習したモデルを用いて、前記入力部に入力された属性情報付きグラフデータの未知ノードの潜在表現と、前記正常サンプルの潜在表現とのかい離の度合いを推定する推定部と、
     を有することを特徴とする推定装置。
  6.  推定装置が実行する推定方法であって、
     属性情報付きグラフデータを入力として受け取る入力工程と、
     属性情報付きグラフデータに含まれる正常サンプルの特徴を表す潜在表現を学習したモデルを用いて、前記入力工程において入力された属性情報付きグラフデータの未知ノードの潜在表現と、前記正常サンプルの潜在表現とのかい離の度合いを推定する推定工程と、
     を含むことを特徴とする推定方法。
  7.  コンピュータを、請求項1に記載の学習装置、又は請求項5に記載の推定装置として機能させるためのプログラム。
PCT/JP2020/020810 2020-05-26 2020-05-26 学習装置、学習方法、推定装置、推定方法及びプログラム WO2021240661A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022527333A JP7420244B2 (ja) 2020-05-26 2020-05-26 学習装置、学習方法、推定装置、推定方法及びプログラム
PCT/JP2020/020810 WO2021240661A1 (ja) 2020-05-26 2020-05-26 学習装置、学習方法、推定装置、推定方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/020810 WO2021240661A1 (ja) 2020-05-26 2020-05-26 学習装置、学習方法、推定装置、推定方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2021240661A1 true WO2021240661A1 (ja) 2021-12-02

Family

ID=78723053

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/020810 WO2021240661A1 (ja) 2020-05-26 2020-05-26 学習装置、学習方法、推定装置、推定方法及びプログラム

Country Status (2)

Country Link
JP (1) JP7420244B2 (ja)
WO (1) WO2021240661A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023157280A1 (ja) * 2022-02-21 2023-08-24 日本電信電話株式会社 探索装置、探索方法、及び、探索プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KIPF, THOMAS N. ET AL., SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS, January 2017 (2017-01-01), pages 1 - 14, XP055457092, Retrieved from the Internet <URL:https://arxiv.org/abs/1609.02907> [retrieved on 20200930] *
WU JUN ET AL., IMVERDE: VERTEX-DIMINISHED RANDOM WALK FOR LEARNING NETWORK REPRESENTATION FROM IMBALANCED DATA, December 2018 (2018-12-01), XP033508569, Retrieved from the Internet <URL:https://arxiv.org/abs/1804.09222> [retrieved on 20200930] *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023157280A1 (ja) * 2022-02-21 2023-08-24 日本電信電話株式会社 探索装置、探索方法、及び、探索プログラム

Also Published As

Publication number Publication date
JPWO2021240661A1 (ja) 2021-12-02
JP7420244B2 (ja) 2024-01-23

Similar Documents

Publication Publication Date Title
Solus et al. Consistency guarantees for greedy permutation-based causal inference algorithms
CORNUET et al. Adaptive multiple importance sampling
US7996342B2 (en) Systems, methods and computer program products for supervised dimensionality reduction with mixed-type features and labels
Delgado-Panadero et al. Implementing local-explainability in gradient boosting trees: feature contribution
US11146580B2 (en) Script and command line exploitation detection
US11373760B2 (en) False detection rate control with null-hypothesis
EP3916597A1 (en) Detecting malware with deep generative models
US20220180240A1 (en) Transaction composition graph node embedding
JP6767312B2 (ja) 検知システム、検知方法及び検知プログラム
US11748638B2 (en) Machine learning model monitoring
WO2017130835A1 (ja) 作成装置、作成方法、および作成プログラム
Liu et al. An Adaptive Moment estimation method for online AUC maximization
WO2021240661A1 (ja) 学習装置、学習方法、推定装置、推定方法及びプログラム
JP2013037471A (ja) 確率モデル更新システム、確率モデル更新装置、確率モデル更新方法およびプログラム
CN114139593A (zh) 一种去偏差图神经网络的训练方法、装置和电子设备
Awad et al. An improved long short term memory network for intrusion detection
Culp spa: Semi-supervised semi-parametric graph-based estimation in R
CN111461862A (zh) 为业务数据确定目标特征的方法及装置
JP6835704B2 (ja) 検知システム、学習方法及び学習プログラム
JP7331938B2 (ja) 学習装置、推定装置、学習方法及び学習プログラム
Vidovic et al. ML2Motif—Reliable extraction of discriminative sequence motifs from learning machines
US20210374612A1 (en) Interpretable imitation learning via prototypical option discovery
US9524468B2 (en) Method and system for identifying dependent components
Rügamer et al. Mixture of experts distributional regression: implementation using robust estimation with adaptive first-order methods
WO2021176734A1 (ja) 学習装置、学習方法、学習プログラム、推定装置、推定方法及び推定プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20937700

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022527333

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20937700

Country of ref document: EP

Kind code of ref document: A1