WO2021161538A1 - 学習装置、学習方法及び学習プログラム - Google Patents

学習装置、学習方法及び学習プログラム Download PDF

Info

Publication number
WO2021161538A1
WO2021161538A1 PCT/JP2020/005908 JP2020005908W WO2021161538A1 WO 2021161538 A1 WO2021161538 A1 WO 2021161538A1 JP 2020005908 W JP2020005908 W JP 2020005908W WO 2021161538 A1 WO2021161538 A1 WO 2021161538A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning
unit
communication data
data
feature amount
Prior art date
Application number
PCT/JP2020/005908
Other languages
English (en)
French (fr)
Inventor
友貴 山中
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to EP20919013.1A priority Critical patent/EP4092581A4/en
Priority to PCT/JP2020/005908 priority patent/WO2021161538A1/ja
Priority to AU2020428327A priority patent/AU2020428327B2/en
Priority to US17/798,566 priority patent/US20220374780A1/en
Priority to CN202080096228.9A priority patent/CN115087993A/zh
Priority to JP2022500201A priority patent/JP7405231B2/ja
Publication of WO2021161538A1 publication Critical patent/WO2021161538A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications

Definitions

  • the present invention relates to a learning device, a learning method, and a learning program.
  • IoT Internet of Things
  • IoT devices various devices (IoT devices) are connected to the Internet and are used in various ways.
  • traffic session anomaly detection systems and intrusion detection systems IoT devices are being actively researched.
  • IDS Intrusion Detection System
  • anomaly detection systems for example, there is one that uses a probability density estimator by unsupervised learning such as VAE (Variational Auto Encoder).
  • VAE Variational Auto Encoder
  • traffic features high-dimensional data for learning called traffic features is generated from actual communication, and normal traffic features are learned using these features to generate normal communication patterns. You will be able to estimate the probability. After that, the occurrence probability of each communication is calculated using the trained model, and the communication with a small occurrence probability is detected as an abnormality. Therefore, it is possible to detect anomalies without knowing all malignant conditions, and it is also possible to deal with unknown cyber attacks.
  • IoT devices communicate using various protocols for each type, and even if one focuses on HTTP protocol communication, there is communication that continues for a long time such as WebSocket, and page loading.
  • the traffic features which are the learning data generated from these communications, are also diverse, and the tendency of the learning traffic features can be grasped by mere statistical processing such as calculation of the average value and the median value. Have difficulty. If the tendency of the learning traffic feature amount cannot be grasped, it is not possible to grasp what kind of characteristic communication the anomaly detection system considers to be normal, so even if the anomaly detection system detects it, the reason for detection cannot be grasped. It is considered to interfere with the operation.
  • the present invention has been made in view of the above, and an object of the present invention is to provide a learning device, a learning method, and a learning program capable of providing data for grasping a tendency of traffic features for learning. do.
  • the learning device of the present invention has an acquisition unit that acquires a plurality of communication data for learning and a feature amount extraction unit that extracts the feature amounts of the plurality of communication data.
  • a learning unit that trains the feature amount of communication data in the generation model, a first representative point extraction unit that extracts representative points of feature amounts of a plurality of communication data using kernel herding, and a first representative point. It is characterized by having an output unit that outputs a representative point extracted by the extraction unit.
  • the learning method of the present invention is a learning method executed by a learning device, and is a step of acquiring a plurality of communication data for learning, a step of extracting feature quantities of a plurality of communication data, and a step of communicating data. It is characterized by including a step of training a feature amount in a generation model, a step of extracting representative points of feature amounts of a plurality of communication data using kernel herding, and a step of outputting representative points.
  • the learning program of the present invention includes a step of acquiring a plurality of communication data for learning, a step of extracting the feature amount of each of the plurality of communication data, and a step of training the feature amount of the communication data in the generation model. Using kernel herding, let the computer execute the step of extracting the representative points of the feature amounts of multiple communication data and the step of outputting the representative points.
  • FIG. 1 is a diagram showing the results of a comparative experiment of normal random sampling and sampling by kernel herding in a mixed Gaussian distribution.
  • FIG. 2 is a block diagram showing an example of the configuration of the communication system according to the embodiment.
  • FIG. 3 is a diagram illustrating a processing flow of the detection system according to the embodiment.
  • FIG. 4 is a diagram showing an example of the configuration of the learning device.
  • FIG. 5 is a diagram showing an example of the configuration of the detection device.
  • FIG. 6 is a diagram showing an example of the configuration of the evaluation device.
  • FIG. 7 is a flowchart showing a processing procedure of the learning process according to the embodiment.
  • FIG. 8 is a flowchart showing a processing procedure of the evaluation process executed by the evaluation device.
  • FIG. 9 is a diagram illustrating an application example of the detection system according to the embodiment.
  • FIG. 10 is a diagram showing an example of a computer in which a detection system is realized by executing a program.
  • information for grasping the tendency of the traffic feature amount for learning is provided by extracting the representative points of the traffic feature amount for learning by using the kernel method called kernel herding.
  • kernel herding the kernel method
  • data is generated from the generative model, and the representative points of the generated data are extracted by using kernel herding. It provides information to understand what kind of communication the generative model actually considers normal.
  • kernel herding has been proposed as an algorithm for finding a sample sequence as efficiently approximate the kernel average m x kernel sample mean (1 / T) ⁇ t ⁇ (x t) ( see Non-Patent Document 1) .
  • kernel herding (1), ( 2) sequentially obtaining the sample sequence ⁇ x t ⁇ according to the update equation in the expression.
  • mx is the kernel average of the data set X shown in Eq. (3).
  • ⁇ ( ⁇ ) is a characteristic map.
  • ⁇ , ⁇ > Represents the inner product on the reproducing kernel Hilbert space associated with the positive-definite kernel.
  • Non-Patent Document 1 It is experimentally known that an efficient sample can be obtained by kernel herding even if this replacement is performed.
  • kernel herding is used as a technique for extracting representative points from a data set.
  • Kernel Mean m x approximated by kernel Herding, when positive definite kernels used for the calculation is characteristic of, and has complete information about the distribution of the data set X ((3) refer to formula).
  • FIG. 1 (cited from Non-Patent Document 1) is a diagram showing the results of a comparative experiment of sampling by ordinary random sampling and kernel herding in a mixed Gaussian distribution. As shown in FIG. 1, it can be seen that sampling by kernel herding can qualitatively extract "representative data points" as compared with random sampling.
  • FIG. 2 is a block diagram showing an example of the configuration of the communication system according to the embodiment.
  • the communication system 1 according to the embodiment has a configuration in which a plurality of NW devices 2 and a detection system 100 are connected via a network N.
  • the detection system 100 communicates with the user terminal 3 used by the NW administrator or the like.
  • the NW device 2 samples packets in the traffic that is the target of abnormality detection.
  • the NW device 2 transfers the sampled packet to the detection system 100 via the network N.
  • the detection system 100 detects the presence or absence of a communication abnormality by using a generative model in which traffic features are learned by unsupervised learning based on packets received from the NW device 2, and the system administrator determines the detection result. It is transmitted to the user terminal 3 to be used.
  • the detection system 100 includes a learning device 10, a detection device 20, and an evaluation device 30.
  • the generative model is a probability density estimator such as VAE.
  • VAE learns the traffic feature amount and outputs the anomaly score (abnormality degree) when the traffic feature amount is input. Further, when noise is input to the intermediate layer, VAE outputs an output distribution corresponding to the input noise.
  • the learning device 10 causes the generation model to learn the traffic feature amount by unsupervised learning based on the packet received from the NW device 2. Then, the learning device 10 uses kernel herding to extract representative points of the traffic feature amount to be learned, and outputs the extracted representative points to the user terminal 3 as data for evaluating the progress of the generation model.
  • the detection device 20 detects the presence or absence of a communication abnormality in the traffic subject to abnormality detection by using a generative model whose model parameters are optimized by the learning device 10.
  • the evaluation device 30 generates a plurality of data from the generated model trained by the learning device 10, extracts representative points of these plurality of data using kernel herding, and uses the extracted representative points as the degree of progress of the generated model. Is output to the user terminal 3 as evaluation data. Specifically, the evaluation device 30 inputs noise to the intermediate layer of the VAE, samples from the output distribution corresponding to the noise, and acquires it as data generated from the generative model.
  • the data generated from this generative model corresponds to the data that can be regarded as normal when the generative model is used as a probability density estimator.
  • FIG. 3 is a diagram illustrating a processing flow of the detection system 100 according to the embodiment.
  • the learning device 10 extracts the traffic feature amount for learning based on the packets collected via the NW device to be learned (see (1) of FIG. 3), and the extracted traffic feature.
  • the quantity is trained by a generative model such as VAE (see (2) in FIG. 3).
  • the learning device 10 extracts a representative point of the traffic feature amount for learning by kernel herding (see (3) in FIG. 3).
  • the traffic feature data set for learning basically contains only normal communication.
  • the learning device 10 uses a probability density estimator (generative model) such as VAE to learn the traffic features considered to be normal based on this data set. Therefore, the representative point of the traffic feature amount for learning corresponds to the traffic feature amount that the detection system 100 considers to be normal.
  • VAE probability density estimator
  • typical communication features can be automatically extracted, and the NW administrator can grasp the network tendency based on these features.
  • the evaluation device 30 generates a large amount of data from the trained generative model to create a data set.
  • the evaluation device 30 extracts representative points from data sampled from VAE or the like (see (4) in FIG. 3) using kernel herding (see (5) in FIG. 3).
  • the evaluation device 30 can extract typical communications learned by VAE.
  • the data generated from the generative model corresponds to the data considered normal when the generative model is used as a probability density estimator.
  • the evaluation device 30 can more directly grasp the traffic feature amount that the detection system 100 considers to be normal.
  • the NW administrator grasps the tendency of the learning traffic feature amount based on the representative points extracted by the learning device 10.
  • the kernel herding application method in the learning device 10 is useful when it is desired to grasp the network tendency through the representative points of the traffic features.
  • the NW administrator grasps what kind of characteristic communication is actually regarded as normal by the generative model based on the representative points extracted by the evaluation device 30. In other words, the NW administrator knows whether the generative model can generate normal data.
  • the kernel herding application method in the evaluation device 30 is useful when it is desired to grasp the traffic feature amount considered to be normal for the detection system 100 as a whole including the probability density estimator.
  • the NW administrator evaluates the progress of the generative model using the difference between the representative points extracted by the learning device 10 and the representative points extracted by the evaluation device 30. For example, if the representative points extracted by the learning device 10 and the representative points extracted by the evaluation device 30 are less than a predetermined value, it is considered that the learning of the generative model is proceeding appropriately, and the difference is greater than the predetermined value. If it is also large, it is considered that the training of the generative model is not progressing properly. As a result, the NW manager can grasp whether or not the generative model has been properly trained at the feature level.
  • FIG. 4 is a diagram showing an example of the configuration of the learning device 10.
  • the learning device 10 includes a communication unit 11, a storage unit 12, and a control unit 13.
  • the communication unit 11 is a communication interface for transmitting and receiving various information to and from other devices connected via a network or the like.
  • the communication unit 11 is realized by a NIC (Network Interface Card) or the like, and is a control unit 13 with other devices (for example, a detection device 20 and an evaluation device 30) via a telecommunication line such as a LAN (Local Area Network) or the Internet. Communicate with (described later).
  • the communication unit 11 connects to an external device via a network or the like, and receives an input of a packet of traffic to be learned.
  • the storage unit 12 is realized by a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory (Flash Memory), or a storage device such as a hard disk or an optical disk, and is a processing program for operating the learning device 10 or a processing program. Data used during execution is stored.
  • the storage unit 12 has a VAE model 1211.
  • the VAE model 121 is a generative model for learning the features of communication data.
  • the VAE model 121 learns the traffic features for learning.
  • the VAE model 121 is a probability density estimator and learns the characteristics of the probability density of communication data for learning.
  • the VAE model 121 receives the input of a certain data point x i , it outputs the anomaly score corresponding to the data. Assuming that the estimated value of the probability density is p (x i ), the anomaly score is an approximation of -logp (x i). Therefore, the higher the value of the anomaly score output by VAE, the higher the degree of abnormality of this communication data.
  • the control unit 13 has an internal memory for storing a program that defines various processing procedures and required data, and executes various processing by these.
  • the control unit 13 is an electronic circuit such as a CPU (Central Processing Unit) or an MPU (Micro Processing Unit).
  • the control unit 13 includes an acquisition unit 131, a feature amount extraction unit 132, and a model learning unit 133.
  • the acquisition unit 131 acquires a plurality of communication data for learning. Specifically, the acquisition unit 131 acquires a large number of learning packets via the NW device 2 to be learned.
  • the feature amount extraction unit 132 extracts the feature amount of the plurality of communication data acquired by the acquisition unit 131, respectively.
  • the feature amount extraction unit 132 performs statistical processing on a large number of packets for learning to generate a traffic feature amount which is high-dimensional data.
  • the model learning unit 133 learns the VAE model 121 using the traffic feature amount extracted by the feature amount extraction unit 132. At the same time, the model learning unit 133 uses kernel herding to extract representative points of feature quantities of a plurality of communication data to be learned.
  • the model learning unit 133 includes a learning unit 1331, a representative point extraction unit 1332, and a presentation unit 1344.
  • the learning unit 1331 causes the VAE model 121 to learn the feature amount of the communication data extracted by the feature amount extraction unit 132.
  • the learning unit 1331 causes the VAE model 121 to learn the characteristics of the probability density of the communication data.
  • the learning unit 1331 optimizes the parameters of the VAE model 121 using the traffic features generated by the feature extraction unit 132.
  • the learning unit 1331 outputs the learned VAE model 121 to the detection device 20 and the evaluation device 30 via the communication unit 11.
  • the representative point extraction unit 1332 uses kernel herding to extract representative points of feature quantities of a plurality of communication data for learning.
  • the representative point extraction unit 1332 extracts representative points using kernel herding from the data set of the traffic feature amount to be learned generated by the feature amount extraction unit 132.
  • the presentation unit 1333 outputs the representative points extracted by the representative point extraction unit 1332 to the user terminal 3 via the communication unit 11, so that the NW administrator can represent the feature amounts of the plurality of communication data for learning. Present the points.
  • FIG. 5 is a diagram showing an example of the configuration of the detection device 20.
  • the detection device 20 includes a communication unit 21, a storage unit 22, and a control unit 23.
  • the communication unit 21 has the same function as the communication unit 11 shown in FIG. 4, and performs input / output of information and communication with another device (for example, the learning device 10).
  • the storage unit 22 has the same function as the storage unit 12 shown in FIG.
  • the storage unit 22 has a VAE model 121.
  • the VAE model 121 is a model that has been trained by the learning device 10.
  • the control unit 23 has the same function as the control unit 13 shown in FIG. 4, and controls the entire detection device 20.
  • the control unit 23 functions as various processing units by operating various programs.
  • the control unit 23 includes an acquisition unit 231, a feature amount extraction unit 232, and a detection unit 233.
  • the acquisition unit 231 acquires the communication data to be detected. Specifically, the acquisition unit 131 acquires the packet to be detected via the NW device 2 that captures the packet of the traffic to be detected.
  • the feature amount extraction unit 232 has the same function as the feature amount extraction unit 132, and generates a traffic feature amount from the detection target packet acquired by the acquisition unit 231.
  • the detection unit 233 uses the VAE model 121 to detect the presence or absence of an abnormality in the traffic to be detected.
  • the detection unit 233 inputs the traffic feature amount generated by the feature amount extraction unit 232 into the VAE model 121, and acquires the output anomaly score.
  • the detection unit 233 detects that the communication data to be detected is abnormal. Further, the detection unit 233 detects that the communication data to be detected is normal when the anomaly score is equal to or less than a predetermined value.
  • FIG. 6 is a diagram showing an example of the configuration of the evaluation device 30.
  • the evaluation device 30 includes a communication unit 31, a storage unit 32, and a control unit 33.
  • the communication unit 31 has the same function as the communication unit 11 shown in FIG. 4, and performs input / output of information and communication with another device (for example, the learning device 10).
  • the storage unit 32 has the same function as the storage unit 12 shown in FIG.
  • the storage unit 32 has a VAE model 121.
  • the VAE model 121 is a model that has been trained by the learning device 10.
  • the control unit 33 has the same function as the control unit 13 shown in FIG. 4, and controls the entire evaluation device 30.
  • the control unit 33 functions as various processing units by operating various programs.
  • the control unit 33 has a model evaluation unit 331.
  • the model evaluation unit 331 presents the data for evaluating what kind of characteristic communication the generated model actually considers to be normal to the NW administrator.
  • the model evaluation unit 331 has a data generation unit 3311, a representative point extraction unit 3312, and a presentation unit 3313.
  • the data generation unit 3311 generates a plurality of data from the VAE model 121 which is a generation model.
  • the data generation unit 3311 inputs noise to the intermediate layer of the VAE model 121, and acquires an output distribution according to the noise from the output of the VAE model 121.
  • the representative point extraction unit 3312 uses kernel herding to extract representative points of a plurality of data generated by the data generation unit 3311.
  • the presentation unit 3313 outputs the representative points extracted by the representative point extraction unit 3312 to the user terminal 3 via the communication unit 31, so that the NW administrator can represent the feature amount of the data generated by the VAE model 121. Present the points.
  • FIG. 7 is a flowchart showing a processing procedure of the learning process according to the embodiment.
  • the learning device 10 acquires a plurality of packets for learning (step S1), and extracts the traffic features of the acquired plurality of packets, respectively (step S2).
  • the learning device 10 performs a learning process for causing the VAE model 121 to learn the traffic feature amount (step S3), and outputs the learned VAE model 121 to the detection device 20 and the evaluation device 30 (step S4).
  • the learning device 10 uses kernel herding to extract representative points from the data set of the traffic feature amount to be learned (step S5), and outputs the extracted representative points to the user terminal 3 to obtain the learning target.
  • the representative points of the traffic features are presented to the NW administrator (step S6).
  • FIG. 8 is a flowchart showing a processing procedure of the evaluation process executed by the evaluation device 30.
  • the evaluation device 30 generates a plurality of data from the VAE model 121 which is a generation model (step S11).
  • the evaluation device 30 uses kernel herding to extract representative points of a plurality of data generated in step S11 (step S12).
  • the evaluation device 30 outputs the representative points extracted in step S12 to the user terminal 3 to present to the NW administrator the representative points of the feature amount of the data generated by the VAE model 121 (step S13).
  • the detection system 100 in the present embodiment can be applied to the abnormality detection of the IoT device.
  • FIG. 9 is a diagram illustrating an application example of the detection system 100 according to the embodiment. As shown in FIG. 9, the detection system 100 is provided on the network 5 to which a plurality of IoT devices 4 are connected. In this case, the detection system 100 collects the traffic session information sent and received by the IoT device 4, learns the probability density of the normal traffic session, and detects the abnormal traffic session.
  • the model learning unit 133 receives a plurality of packets to be learned, and outputs a learned VAE model that has learned the traffic features of the received plurality of packets to the detection device 20 and the evaluation device 30.
  • the first line of Table 1 shows the results of extracting representative points of communication by MQTT. Checking the actual data set, about 90% is communication with uplink bytes of 444 bytes or 445 bytes, the number of packets is 7, and the average packet size is 0.04 x 1500 bytes, which matches well with the representative points extracted manually. Was there.
  • the second line of Table 1 shows the results of extracting the representative points of communication by RTMP.
  • the variation was quite large, but the average session duration was about 6500 seconds, and the average upstream packet size was about 0.119 x 1500 bytes, which were in good agreement with the representative points extracted manually.
  • the learning device 10 extracts the feature amounts of the plurality of communication data, and causes the generation model to learn the feature amounts of the communication data.
  • the learning device 10 uses kernel herding to extract representative points of the feature amounts of a plurality of communication data, and outputs the extracted representative points to the user terminal 3, so that the tendency of the traffic feature amount for learning is obtained. Provide data to the NW administrator to understand.
  • the NW administrator can grasp the feature amount that the VAE model 121 considers to be normal based on the representative point of the feature amount of the communication data, and further, the feature amount of the network via the representative point of the feature amount of the communication data. It is also possible to grasp trends.
  • the traffic feature amount automatically extracted by using the kernel herding and the traffic feature amount extracted manually according to the present embodiment were in good agreement with each other. Therefore, according to the present embodiment, the representative points of the traffic feature amount for learning can be appropriately extracted by using the kernel herding without using human hands, so that the burden on the system administrator can be reduced. Further, according to the present embodiment, since the representative points of the traffic features for learning are appropriately extracted and output as data, the network features are analyzed based on these features using this data. Teen can do this, and the operation of skilled workers can be reduced.
  • the evaluation device 30 generates a plurality of data from the VAE model 121, extracts representative points of the generated plurality of data using kernel herding, and uses the extracted representative points as the user terminal 3. Output to.
  • the NW administrator can grasp what kind of characteristic communication the VAE model 121 actually considers to be normal. In other words, the NW administrator can know whether the VAE model 121 can generate normal data.
  • the present embodiment it is possible to qualitatively grasp the traffic feature amount considered to be normal as the whole detection system 100 including the VAE model 121.
  • the NW administrator grasps the evaluation of the progress of the VAE model 121 at the feature amount level by using the difference between the representative points extracted by the learning device 10 and the representative points extracted by the evaluation device 30. can do.
  • each component of each of the illustrated devices is a functional concept and does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution / integration of each device is not limited to the one shown in the figure, and all or part of the device is functionally or physically distributed in arbitrary units according to various loads and usage conditions. Can be integrated and configured. Further, each processing function performed by each device may be realized by a CPU and a program analyzed and executed by the CPU, or may be realized as hardware by wired logic.
  • FIG. 10 is a diagram showing an example of a computer in which the detection system 100 is realized by executing a program.
  • the computer 1000 has, for example, a memory 1010 and a CPU 1020.
  • the computer 1000 also has a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. Each of these parts is connected by a bus 1080.
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012.
  • the ROM 1011 stores, for example, a boot program such as a BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • the hard disk drive interface 1030 is connected to the hard disk drive 1090.
  • the disk drive interface 1040 is connected to the disk drive 1100.
  • a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1100.
  • the serial port interface 1050 is connected to, for example, a mouse 1110 and a keyboard 1120.
  • the video adapter 1060 is connected to, for example, the display 1130.
  • the hard disk drive 1090 stores, for example, an OS (Operating System) 1091, an application program 1092, a program module 1093, and program data 1094. That is, the program that defines each process of the detection system 100 is implemented as a program module 1093 in which a code that can be executed by a computer is described.
  • the program module 1093 is stored in, for example, the hard disk drive 1090.
  • a program module 1093 for executing a process similar to the functional configuration in the detection system 100 is stored in the hard disk drive 1090.
  • the hard disk drive 1090 may be replaced by an SSD (Solid State Drive).
  • the setting data used in the processing of the above-described embodiment is stored as program data 1094 in, for example, a memory 1010 or a hard disk drive 1090. Then, the CPU 1020 reads the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1090 into the RAM 1012 as needed, and executes the program.
  • the program module 1093 and the program data 1094 are not limited to those stored in the hard disk drive 1090, but may be stored in, for example, a removable storage medium and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program module 1093 and the program data 1094 may be stored in another computer connected via a network (LAN, WAN (Wide Area Network), etc.). Then, the program module 1093 and the program data 1094 may be read by the CPU 1020 from another computer via the network interface 1070.
  • LAN Local Area Network
  • WAN Wide Area Network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

学習装置(10)は、学習用の複数の通信データを取得する取得部(131)と、複数の通信データの特徴量をそれぞれ抽出する特徴量抽出部(132)と、通信データの特徴量をVAEモデル(121)に学習させる学習部(1331)と、kernel herdingを用いて、複数の通信データの特徴量の代表点を抽出する代表点抽出部(1332)と、代表点抽出部(1332)によって抽出された代表点を出力する出力部と、を有する。

Description

学習装置、学習方法及び学習プログラム
 本発明は、学習装置、学習方法及び学習プログラムに関する。
 IoT(Internet of Things)時代の到来に伴い、多種のデバイス(IoTデバイス)がインターネットに接続され、多様な使われ方をされるようになっている。これらのIoTデバイスのセキュリティ対策のため、IoT機器向けのトラフィックセッション異常検知システムや侵入検知システム(IDS:Intrusion Detection System)が、盛んに研究されている。
 このような異常検知システムの中には、例えば、VAE(Variational Auto Encoder)等の教師なし学習による確率密度推定器を用いるものがある。確率密度推定器による異常検知では、実際の通信からトラフィック特徴量と呼ばれる学習用の高次元データを生成し、この特徴量を用いて正常なトラフィックの特徴を学習することで、正常通信パターンの発生確率を推定できるようになる。その後、学習済みモデルを用いて各通信の発生確率を算出し、発生確率の小さい通信を異常として検知する。このため、すべての悪性状態を知らずとも異常検知が可能であり、さらに、未知のサイバー攻撃への対処も可能であるという利点もある。
Y. Chen, M. Welling and A. Smola, "Super-Samples from Kernel Herding", In Proceedings of the 26th Conference on Uncertainty in Artificial Intelligence (UAI), pp. 109-116, (2010).
 確率密度推定器による異常検知システムを実運用で用いる際には、異常検知システムがどの様な特徴の通信を正常とみなすのか、その傾向を把握する必要がある。しかしながら、異常検知システムが学習対象とするIoT機器の通信は多種多様であり、その傾向の把握は難しい。
 具体的には、IoT機器はその種別ごとに多様なプロトコルを用いて通信を行う上に、1つのHTTPプロトコル通信に着目したとしても、WebSocketのような長時間継続する通信もあれば、ページ読み込みのような一瞬で終わる通信もある、といったように通信の特徴は様々である。したがって、これらの通信から生成される学習用データであるトラフィック特徴量も多種多様となってしまい、平均値や中央値の算出といった単なる統計処理のみでは、学習用トラフィック特徴量の傾向把握も同様に困難である。学習用トラフィック特徴量の傾向把握ができないと、異常検知システムがどの様な特徴の通信を正常とみなすのか分からないため、異常検知システムで検知が行われたとしても検知理由の把握ができず、運用に支障をきたすと考えられる。
 本発明は、上記に鑑みてなされたものであって、学習用のトラフィック特徴量の傾向を把握するためのデータを提供することができる学習装置、学習方法及び学習プログラムを提供することを目的とする。
 上述した課題を解決し、目的を達成するために、本発明の学習装置は、学習用の複数の通信データを取得する取得部と、複数の通信データの特徴量をそれぞれ抽出する特徴量抽出部と、通信データの特徴量を生成モデルに学習させる学習部と、kernel herdingを用いて、複数の通信データの特徴量の代表点を抽出する第1の代表点抽出部と、第1の代表点抽出部によって抽出された代表点を出力する出力部と、を有することを特徴とする。
 また、本発明の学習方法は、学習装置が実行する学習方法であって、学習用の複数の通信データを取得する工程と、複数の通信データの特徴量をそれぞれ抽出する工程と、通信データの特徴量を生成モデルに学習させる工程と、kernel herdingを用いて、複数の通信データの特徴量の代表点を抽出する工程と、代表点を出力する工程と、を含んだことを特徴とする。
 また、本発明の学習プログラムは、学習用の複数の通信データを取得するステップと、複数の通信データの特徴量をそれぞれ抽出するステップと、通信データの特徴量を生成モデルに学習させるステップと、kernel herdingを用いて、複数の通信データの特徴量の代表点を抽出するステップと、代表点を出力するステップと、をコンピュータに実行させる。
 本発明によれば、学習用のトラフィック特徴量の傾向を把握するためのデータを提供することができる。
図1は、混合ガウス分布において、通常のランダムサンプリングとkernel herdingとによるサンプリングの比較実験をした結果を示す図である。 図2は、実施の形態における通信システムの構成の一例を示すブロック図である。 図3は、実施の形態における検知システムの処理の流れについて説明する図である。 図4は、学習装置の構成の一例を示す図である。 図5は、検知装置の構成の一例を示す図である。 図6は、評価装置の構成の一例を示す図である。 図7は、実施の形態に係る学習処理の処理手順を示すフローチャートである。 図8は、評価装置が実行する評価処理の処理手順を示すフローチャートである。 図9は、実施の形態における検知システムの適用例を説明する図である。 図10は、プログラムが実行されることにより、検知システムが実現されるコンピュータの一例を示す図である。
 以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。なお、以下では、ベクトル、行列又はスカラーであるAに対し、“^A”と記載する場合は「“A”の直上に“^”が記された記号」と同等であるとする。
[実施の形態]
 本実施の形態では、kernel herdingと呼ばれるカーネル法を用いて、学習用トラフィック特徴量の代表点を抽出することで、学習用のトラフィック特徴量の傾向を把握するための情報を提供する。さらに、本実施の形態では、確率密度推定器としてVAEのような生成モデルを用いた場合、生成モデルからデータを生成し、kernel herdingを用いて、生成したデータの代表点を抽出することで、生成モデルが実際にどのような通信を正常とみなすのかを把握するための情報を提供する。
[kernel herding]
 まず、kernel herdingについて説明する。kernel herdingは、カーネル平均mをカーネルサンプル平均(1/T)ΣΦ(x)で効率的に近似するようなサンプル列を求めるためのアルゴリズムとして提案された(非特許文献1参照)。kernel herdingでは、(1),(2)式に示す更新式にしたがってサンプル列{x}を逐次的に求める。
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000002
 ここで、mは、(3)式に示すデータセットXの、カーネル平均である。Φ(・)は、は特性写像である。<・,・>は、正定値カーネルに付随する再生核ヒルベルト空間上での内積を表す。
Figure JPOXMLDOC01-appb-M000003
 ただし、一般的に、カーネル平均mは直接求めることができない。そこで、実際にkernel herdingのアルゴリズムを実行する際には、カーネル平均を十分に多いサンプルで近似した標本カーネル平均^m=(1/N)ΣΦ(x)に置き換える((4),(5)式)。
Figure JPOXMLDOC01-appb-M000004
Figure JPOXMLDOC01-appb-M000005
 この置き換えを行っても、kernel herdingで効率的なサンプルを求めることができることが、実験的に知られている(非特許文献1参照)。
 本実施の形態では、kernel herdingを、データセットからの代表点の抽出技術として用いる。kernel herdingで近似するカーネル平均mは、計算に用いた正定値カーネルが特性的な場合、データセットX((3)式参照)の分布に関する完全な情報を持つ。
 このため、kernel herdingによって求められるカーネル平均mを少数のデータ点で近似するサンプル列は、データセットXの代表点の集合とみなすことができる。図1(非特許文献1より引用)は、混合ガウス分布において、通常のランダムサンプリングとkernel herdingとによるサンプリングの比較実験をした結果を示す図である。図1に示すように、kernel herdingによるサンプリングは、ランダムサンプリングと比べて、定性的に「代表的なデータ点」を抽出できていることが分かる。
 本実施の形態では、異常検知システムが学習対象とするトラフィック特徴量の代表点を抽出することで、異常検知システムが正常とみなすトラフィックの傾向を把握する方法を提案する。
[異常検知システムの構成]
 本実施の形態における通信システムについて説明する。図2は、実施の形態における通信システムの構成の一例を示すブロック図である。図2に示すように、実施の形態における通信システム1では、複数のNW装置2と、検知システム100とが、ネットワークNを介して接続する構成を有する。検知システム100は、NW管理者等が使用するユーザ端末3との間で通信を行う。
 NW装置2は、異常検知の対象であるトラフィックにおいてパケットのサンプリングを行う。NW装置2は、サンプリングしたパケットを、ネットワークNを介して、検知システム100に転送する。
 検知システム100は、NW装置2から受信したパケットを基に、教師なし学習によってトラフィック特徴量を学習させた生成モデルを用いて、通信の異常の有無を検知し、検知結果を、システム管理者が使用するユーザ端末3に送信する。検知システム100は、学習装置10、検知装置20及び評価装置30を有する。
 なお、生成モデルは、VAEのような確率密度推定器である。VAEは、トラフィック特徴量を学習することで、トラフィック特徴量が入力されるとアノマリスコア(異常度)を出力する。また、VAEは中間層にノイズが入力されると、入力されたノイズに応じた出力分布を出力する。
 学習装置10は、NW装置2から受信したパケットを基に、教師なし学習によってトラフィック特徴量を生成モデルに学習させる。そして、学習装置10は、kernel herdingを用いて、学習対象のトラフィック特徴量の代表点を抽出し、抽出した代表点を、生成モデルの進行度合いの評価用データとしてユーザ端末3に出力する。
 検知装置20は、学習装置10によってモデルパラメータが最適化された生成モデルを用いて、異常検知対象のトラフィックにおける通信の異常の有無を検知する。
 評価装置30は、学習装置10によって学習済みの生成モデルから複数のデータを生成し、これらの複数のデータの代表点をkernel herdingを用いて抽出し、抽出した代表点を、生成モデルの進行度合いの評価用データとしてユーザ端末3に出力する。具体的には、評価装置30は、VAEの中間層にノイズを入力して、これらのノイズに応じた出力分布からサンプリングを行い、生成モデルから生成されるデータとして取得する。この生成モデルから生成されるデータは、生成モデルを確率密度推定器として用いた際に、正常とるみなせるデータと対応している。
[検知システムの処理の流れ]
 次に、図3を参照して、理の流れについて説明する。図3は、実施の形態における検知システム100の処理の流れについて説明する図である。
 図3に示すように、学習装置10は、学習対象のNW装置を介して収集したパケットを基に、学習用のトラフィック特徴量を抽出し(図3の(1)参照)、抽出したトラフィック特徴量をVAE等の生成モデルに学習させる(図3の(2)参照)。これとともに、学習装置10は、kernel herdingによる、学習用のトラフィック特徴量の代表点を抽出する(図3の(3)参照)。
 学習用のトラフィック特徴量のデータセットは、基本的に正常な通信しか含まないと仮定されている。学習装置10では、VAE等の確率密度推定器(生成モデル)を用いて、このデータセットを基に、正常とみなすトラフィック特徴量を学習する。したがって、学習用のトラフィック特徴量の代表点は、検知システム100が正常とみなすようになるトラフィック特徴量と対応している。学習装置10では、kernel herdingを用いることによって、代表的な通信の特徴量を自動で抽出でき、NW管理者は、これらの特徴量を基に、ネットワークの傾向を把握することができる。
 さらに、検知システム100では、評価装置30が、学習済みの生成モデルからデータを多数生成してデータセットを作成する。評価装置30は、VAE等からサンプリングしたデータから(図3の(4)参照)、kernel herdingを用いて代表点を抽出する(図3の(5)参照)。
 このように、評価装置30は、VAEが学習した代表的な通信の抽出ができる。生成モデルから生成されるデータは、生成モデルを確率密度推定器として用いた際に、正常とみなすデータと対応している。評価装置30は、kernel herdingを用いることで、より直接的に検知システム100が正常とみなすようなトラフィック特徴量を把握することができる。
 NW管理者は、学習装置10によって抽出された代表点を基に、学習用トラフィック特徴量の傾向を把握する。学習装置10におけるkernel herding適用法は、トラフィック特徴量の代表点を介してネットワークの傾向までを把握したい際に有用である。
 また、NW管理者は、評価装置30によって抽出された代表点を基に、生成モデルが、実際にどのような特徴の通信を正常とみなすかを把握する。言い換えると、NW管理者は、生成モデルが正常なデータを生成できるか否かを把握する。評価装置30におけるkernel herding適用法は、確率密度推定器まで含めた検知システム100全体として正常とみなすトラフィック特徴量を把握したい際に有用である。
 そして、NW管理者は、学習装置10によって抽出された代表点と、評価装置30によって抽出された代表点との差分を用いて、生成モデルの進行度合いの評価を行う。例えば、学習装置10によって抽出された代表点と、評価装置30によって抽出された代表点との所定値未満の場合には生成モデルの学習が適切に進行されているとされ、差分が所定値よりも大きい場合には、生成モデルの学習が適切に進行されていないとされる。これによって、NW管理者は、生成モデルが適切に学習を行えたか否かを特徴量レベルで把握することができる。
[学習装置]
 次に、検知システム100の各装置の構成について説明する。まず、学習装置10について説明する。図4は、学習装置10の構成の一例を示す図である。図4に示すように、学習装置10は、通信部11、記憶部12及び制御部13を有する。
 通信部11は、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースである。通信部11は、NIC(Network Interface Card)等で実現され、LAN(Local Area Network)やインターネットなどの電気通信回線を介した他の装置(例えば、検知装置20及び評価装置30)と制御部13(後述)との間の通信を行う。通信部11は、例えば、ネットワーク等を介して外部装置と接続し、学習対象のトラフィックのパケットの入力を受け付ける。
 記憶部12は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置によって実現され、学習装置10を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが記憶される。記憶部12は、VAEモデル1211を有する。
 VAEモデル121は、通信データの特徴量を学習する生成モデルである。VAEモデル121は、学習用のトラフィック特徴量を学習する。VAEモデル121は、確率密度推定器であり、学習用の通信データの確率密度の特徴を学習する。VAEモデル121は、あるデータ点xの入力を受け付けると、そのデータに対応したアノマリスコアを出力する。確率密度の推定値をp(x)とすると、アノマリスコアは、-logp(x)の近似値となる。したがって、VAEが出力するアノマリスコアは、値が高いほど、この通信データの異常度が高いことを示す。
 制御部13は、各種の処理手順などを規定したプログラム及び所要データを格納するための内部メモリを有し、これらによって種々の処理を実行する。例えば、制御部13は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの電子回路である。制御部13は、取得部131、特徴量抽出部132及びモデル学習部133を有する。
 取得部131は、学習用の複数の通信データを取得する。具体的には、取得部131は、学習対象のNW装置2を介して、学習用の多数のパケットを取得する。
 特徴量抽出部132は、取得部131によって取得された複数の通信データの特徴量をそれぞれ抽出する。特徴量抽出部132は、学習用の多数のパケットに対して統計処理を実施し、高次元データであるトラフィック特徴量を生成する。
 モデル学習部133は、特徴量抽出部132によって抽出されたトラフィック特徴量を用いてVAEモデル121の学習を行う。これとともに、モデル学習部133は、kernel herdingを用いて、学習対象である複数の通信データの特徴量の代表点を抽出する。モデル学習部133は、学習部1331、代表点抽出部1332及び提示部1344を有する。
 学習部1331は、特徴量抽出部132によって抽出された通信データの特徴量をVAEモデル121に学習させる。学習部1331は、通信データの確率密度の特徴をVAEモデル121に学習させる。学習部1331は、特徴量抽出部132によって生成されたトラフィック特徴量を用いてVAEモデル121のパラメータを最適化する。学習部1331は、通信部11を介して、学習済みのVAEモデル121を検知装置20及び評価装置30に出力する。
 代表点抽出部1332は、kernel herdingを用いて、学習用の複数の通信データの特徴量の代表点を抽出する。代表点抽出部1332は、特徴量抽出部132によって生成された、学習対象のトラフィック特徴量のデータセットから、kernel herdingを用いて代表点を抽出する。
 提示部1333は、通信部11を介して、代表点抽出部1332によって抽出された代表点をユーザ端末3に出力することによって、NW管理者に、学習用の複数の通信データの特徴量の代表点を提示する。
[検知装置]
 次に、検知装置20について説明する。図5は、検知装置20の構成の一例を示す図である。図5に示すように、検知装置20は、通信部21、記憶部22及び制御部23を有する。
 通信部21は、図4に示す通信部11と同様の機能を有し、情報の入出力や他の装置(例えば、学習装置10)との通信を行う。
 記憶部22は、図4に示す記憶部12と同様の機能を有する。記憶部22は、VAEモデル121を有する。VAEモデル121は、学習装置10により学習済みのモデルである。
 制御部23は、図4に示す制御部13と同様の機能を有し、検知装置20全体を制御する。制御部23は、各種のプログラムが動作することにより各種の処理部として機能する。制御部23は、取得部231、特徴量抽出部232及び検知部233を有する。
 取得部231は、検知対象の通信データを取得する。具体的には、取得部131は、検知対象のトラフィックのパケットをキャプチャするNW装置2を介して、検知対象のパケットを取得する。
 特徴量抽出部232は、特徴量抽出部132と同様の機能を有し、取得部231によって取得された検知対象のパケットから、トラフィック特徴量を生成する。
 検知部233は、VAEモデル121を用いて、検知対象のトラフィックにおける異常の有無を検知する。検知部233は、特徴量抽出部232によって生成されたトラフィック特徴量をVAEモデル121に入力し、出力されたアノマリスコアを取得する。検知部233は、アノマリスコアが所定値よりも高い場合には、検知対象の通信データが異常であることを検知する。また、検知部233は、アノマリスコアが所定値以下である場合に、検知対象の通信データが正常であることを検知する。
[評価装置]
 次に、評価装置30の構成について説明する。図6は、評価装置30の構成の一例を示す図である。図6に示すように、評価装置30は、通信部31、記憶部32及び制御部33を有する。
 通信部31は、図4に示す通信部11と同様の機能を有し、情報の入出力や他の装置(例えば、学習装置10)との通信を行う。
 記憶部32は、図4に示す記憶部12と同様の機能を有する。記憶部32は、VAEモデル121を有する。VAEモデル121は、学習装置10により学習済みのモデルである。
 制御部33は、図4に示す制御部13と同様の機能を有し、評価装置30全体を制御する。制御部33は、各種のプログラムが動作することにより各種の処理部として機能する。制御部33は、モデル評価部331を有する。
 モデル評価部331は、生成モデルが、実際にどのような特徴の通信を正常とみなすかを評価するためのデータを、NW管理者に提示する。モデル評価部331は、データ生成部3311、代表点抽出部3312及び提示部3313を有する。
 データ生成部3311は、生成モデルであるVAEモデル121から複数のデータを生成する。データ生成部3311は、VAEモデル121の中間層にノイズを入力し、VAEモデル121による出力から、ノイズに応じた出力分布を取得する。
 代表点抽出部3312は、kernel herdingを用いて、データ生成部3311によって生成された複数のデータの代表点を抽出する。
 提示部3313は、通信部31を介して、代表点抽出部3312によって抽出された代表点をユーザ端末3に出力することによって、NW管理者に、VAEモデル121が生成したデータの特徴量の代表点を提示する。
[学習処理]
 次に、学習装置10が実行する学習方法について説明する。図7は、実施の形態に係る学習処理の処理手順を示すフローチャートである。
 図7に示すように、学習装置10は、学習用の複数のパケットを取得し(ステップS1)、取得した複数のパケットのトラフィック特徴量をそれぞれ抽出する(ステップS2)。
 学習装置10は、トラフィック特徴量をVAEモデル121に学習させる学習処理を行い(ステップS3)、学習済みのVAEモデル121を検知装置20及び評価装置30に出力する(ステップS4)。
 そして、学習装置10は、kernel herdingを用いて、学習対象のトラフィック特徴量のデータセットから代表点を抽出し(ステップS5)、抽出した代表点をユーザ端末3に出力することで、学習対象のトラフィック特徴量の代表点をNW管理者に提示する(ステップS6)。
[評価処理]
 次に、評価装置30が実行する評価方法について説明する。図8は、評価装置30が実行する評価処理の処理手順を示すフローチャートである。
 評価装置30は、生成モデルであるVAEモデル121から複数のデータを生成する(ステップS11)。評価装置30は、kernel herdingを用いて、ステップS11において生成された複数のデータの代表点を抽出する(ステップS12)。
 評価装置30は、ステップS12において抽出された代表点をユーザ端末3に出力することによって、NW管理者に、VAEモデル121が生成したデータの特徴量の代表点を提示する(ステップS13)。
[実施例]
 例えば、本実施の形態における検知システム100は、IoT機器の異常検知に適用することができる。図9は、実施の形態における検知システム100の適用例を説明する図である。図9に示すように、複数のIoT機器4が接続されたネットワーク5上に、検知システム100を設ける。この場合、検知システム100は、IoT機器4が送受信するトラフィックセッション情報を収集し、正常トラフィックセッションの確率密度の学習、及び、異常トラフィックセッションの検知を行う。
 検知システム100では、モデル学習部133が、学習対象となる複数のパケットを受け取り、受け取った複数のパケットのトラフィック特徴量を学習した学習済みのVAEモデルを検知装置20及び評価装置30に出力する。
[実験]
 実際に、学習用のトラフィック特徴量のデータセットから、kernel herdingを用いて代表点を抽出した。具体的には、2種類の通信(MQTT(Message Queue Telemetry Transport)による温度情報送信(500件)、RTMP(Real-Time Messaging Protocol)による動画配信(300件))を混ぜたデータセットを作成し、kernel herdingによる代表点抽出を行った。その結果を表1に示す。
Figure JPOXMLDOC01-appb-T000006
 表1の1行目は、MQTTによる通信の代表点を抽出した結果を示す。実際のデータセットを確認すると、9割ほどが上りバイト444byteまたは445byteの通信で、パケット数は7個、平均パケットサイズは0.04×1500byteのものであり、人手で抽出された代表点とよく一致していた。
 表1の2行目は、RTMPによる通信の代表点を抽出した結果を示す。実際のデータを目視で確認すると、かなりばらつきが大きいが、平均セッション継続時間は6500秒ほど、平均上りパケットサイズは0.119×1500byteほど等、人手で抽出された代表点とよく一致していた。
 このように、人手(具体的には、システム管理の熟練者)で抽出したトラフィック特徴量と、kernel herdingを用いて自動的に抽出したトラフィック特徴量とはよく一致していることが確認できた。
[実施の形態の効果]
 このように、本実施の形態に係る学習装置10は、複数の通信データの特徴量をそれぞれ抽出し、通信データの特徴量を生成モデルに学習させる。
 これとともに、学習装置10が、kernel herdingを用いて、複数の通信データの特徴量の代表点を抽出し、抽出した代表点をユーザ端末3に出力することによって、学習用のトラフィック特徴量の傾向を把握するためのデータをNW管理者に提供する。
 これによって、NW管理者は、通信データの特徴量の代表点を基に、VAEモデル121が正常とみなすような特徴量を把握でき、さらに、通信データの特徴量の代表点を介してネットワークの傾向までを把握することも可能になる。
 そして、上記の実験結果に示すように、本実施の形態による、kernel herdingを用いて自動的に抽出したトラフィック特徴量と、人手で抽出したトラフィック特徴量とはよく一致していた。このため、本実施の形態によれば、人手を用いずに、kernel herdingを用いて学習用のトラフィック特徴量の代表点を適切に抽出できるため、システム管理者の負担を軽減できる。また、本実施の形態によれば、学習用のトラフィック特徴量の代表点を適切に抽出し、データとして出力するため、このデータを用いて、これらの特徴量を基に、ネットワーク特徴量の分析を、だれでも行えるようになり、熟練者の稼働削減を図ることができる。
 さらに、本実施の形態に係る評価装置30は、VAEモデル121から複数のデータを生成し、kernel herdingを用いて、生成した複数のデータの代表点を抽出し、抽出した代表点をユーザ端末3に出力する。
 この評価装置30によって抽出された代表点を基に、NW管理者は、VAEモデル121が、実際にどのような特徴の通信を正常とみなすかを把握することができる。言い換えると、NW管理者は、VAEモデル121が正常なデータを生成できるか否かを把握できる。
 したがって、本実施の形態によれば、VAEモデル121まで含めた検知システム100全体として正常とみなすトラフィック特徴量を定性的に把握することが可能となる。
 そして、NW管理者は、学習装置10によって抽出された代表点と、評価装置30によって抽出された代表点との差分を用いることによって、VAEモデル121の進行度合いの評価を、特徴量レベルで把握することができる。
[システム構成等]
 図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
 また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
 図10は、プログラムが実行されることにより、検知システム100が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
 ハードディスクドライブ1090は、例えば、OS(Operating System)1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、検知システム100の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、検知システム100における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
 また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。
 1 通信システム
 2 NW装置
 3 ユーザ端末
 4 IoT機器
 5,N ネットワーク
 10 学習装置
 11,21,31 通信部
 12,22,32 記憶部
 13,23,33 制御部
 20 検知装置
 30 評価装置
 100 検知システム
 121 VAEモデル
 131,231 取得部
 132,232 特徴量抽出部
 133 モデル学習部
 233 検知部
 331 モデル評価部
 1331 学習部
 1332,3312 代表点抽出部
 1333,3313 提示部
 3311 データ生成部

Claims (5)

  1.  学習用の複数の通信データを取得する取得部と、
     前記複数の通信データの特徴量をそれぞれ抽出する特徴量抽出部と、
     前記通信データの特徴量を生成モデルに学習させる学習部と、
     kernel herdingを用いて、前記複数の通信データの特徴量の代表点を抽出する第1の代表点抽出部と、
     前記第1の代表点抽出部によって抽出された代表点を出力する出力部と、
     を有することを特徴とする学習装置。
  2.  前記生成モデルから複数のデータを生成する生成部と、
     前記kernel herdingを用いて、前記複数のデータの代表点を抽出する第2の代表点抽出部と、
     を有し、
     前記出力部は、前記第2の代表点抽出部によって抽出された代表点を出力することを特徴とする請求項1に記載の学習装置。
  3.  前記第1の代表点抽出部によって抽出された代表点と、前記第2の代表点抽出部によって抽出された代表点との差分は、前記生成モデルの進行度合いの評価において使用されることを特徴とする請求項2に記載の学習装置。
  4.  学習装置が実行する学習方法であって、
     学習用の複数の通信データを取得する工程と、
     前記複数の通信データの特徴量をそれぞれ抽出する工程と、
     前記通信データの特徴量を生成モデルに学習させる工程と、
     kernel herdingを用いて、前記複数の通信データの特徴量の代表点を抽出する工程と、
     前記代表点を出力する工程と、
     を含んだことを特徴とする学習方法。
  5.  学習用の複数の通信データを取得するステップと、
     前記複数の通信データの特徴量をそれぞれ抽出するステップと、
     前記通信データの特徴量を生成モデルに学習させるステップと、
     kernel herdingを用いて、前記複数の通信データの特徴量の代表点を抽出するステップと、
     前記代表点を出力するステップと、
     をコンピュータに実行させるための学習プログラム。
PCT/JP2020/005908 2020-02-14 2020-02-14 学習装置、学習方法及び学習プログラム WO2021161538A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
EP20919013.1A EP4092581A4 (en) 2020-02-14 2020-02-14 LEARNING DEVICE, LEARNING METHOD AND LEARNING PROGRAM
PCT/JP2020/005908 WO2021161538A1 (ja) 2020-02-14 2020-02-14 学習装置、学習方法及び学習プログラム
AU2020428327A AU2020428327B2 (en) 2020-02-14 2020-02-14 Learning device, learning method, and learning program
US17/798,566 US20220374780A1 (en) 2020-02-14 2020-02-14 Training device, training method, and training program
CN202080096228.9A CN115087993A (zh) 2020-02-14 2020-02-14 学习装置、学习方法以及学习程序
JP2022500201A JP7405231B2 (ja) 2020-02-14 2020-02-14 学習装置、学習方法及び学習プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/005908 WO2021161538A1 (ja) 2020-02-14 2020-02-14 学習装置、学習方法及び学習プログラム

Publications (1)

Publication Number Publication Date
WO2021161538A1 true WO2021161538A1 (ja) 2021-08-19

Family

ID=77293032

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/005908 WO2021161538A1 (ja) 2020-02-14 2020-02-14 学習装置、学習方法及び学習プログラム

Country Status (6)

Country Link
US (1) US20220374780A1 (ja)
EP (1) EP4092581A4 (ja)
JP (1) JP7405231B2 (ja)
CN (1) CN115087993A (ja)
AU (1) AU2020428327B2 (ja)
WO (1) WO2021161538A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019220892A (ja) * 2018-06-21 2019-12-26 日本電信電話株式会社 検知装置及び検知方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6853955B2 (ja) 2017-10-03 2021-04-07 日本電気株式会社 人流パターン推定システム、人流パターン推定方法および人流パターン推定プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019220892A (ja) * 2018-06-21 2019-12-26 日本電信電話株式会社 検知装置及び検知方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
KANAGAWA MOTONOBU, NISHIYAMA YU, GRETTON ARTHUR, FUKUMIZU KENJI: "Filtering with State-Observation Examples via Kernel Monte Carlo Filter", ARXIV:1312.4664V4, 22 October 2015 (2015-10-22), pages 382 - 444, XP055848149, Retrieved from the Internet <URL:https://arxiv.org/abs/1312.4664v4> [retrieved on 20200626] *
LECUYER, MATHIAS ET AL.: "Pyramid: Enhancing Selectivity in Big Data Protection with Count Featurization", PROCEEDINGS OF THE 2017 IEEE SYMPOSIUM ON SECURITY AND PRIVACY, 26 May 2017 (2017-05-26), pages 78 - 95, XP033108088, ISBN: 978-1-5090-5533-3, DOI: 10.1109/SP.2017.60 *
See also references of EP4092581A4
Y. CHENM. WELLINGA. SMOLA: "Super-Samples from Kernel Herding", PROCEEDINGS OF THE 26TH CONFERENCE ON UNCERTAINTY IN ARTIFICIAL INTELLIGENCE (UAI, 2010, pages 109 - 116

Also Published As

Publication number Publication date
EP4092581A4 (en) 2023-09-06
CN115087993A (zh) 2022-09-20
EP4092581A1 (en) 2022-11-23
AU2020428327B2 (en) 2023-11-16
JP7405231B2 (ja) 2023-12-26
US20220374780A1 (en) 2022-11-24
AU2020428327A1 (en) 2022-09-08
JPWO2021161538A1 (ja) 2021-08-19

Similar Documents

Publication Publication Date Title
US8539221B2 (en) Method and system for identifying an application type of encrypted traffic
Wang et al. Botnet detection based on anomaly and community detection
Yun et al. A semantics-aware approach to the automated network protocol identification
EP3608845A1 (en) System and method for using a user-action log to learn to classify encrypted traffic
CN112104570A (zh) 流量分类方法、装置、计算机设备和存储介质
Greensmith et al. The DCA: SOMe comparison: A comparative study between two biologically inspired algorithms
US20240106836A1 (en) Learning of malicious behavior vocabulary and threat detection
CN103780501A (zh) 一种不可分小波支持向量机的对等网络流量识别方法
Xiao et al. Novel dynamic multiple classification system for network traffic
Liu et al. IEEE P2668-compliant multi-layer IoT-DDoS defense system using deep reinforcement learning
Chiu et al. CAPC: packet-based network service classifier with convolutional autoencoder
WO2019043804A1 (ja) ログ分析装置、ログ分析方法及びコンピュータ読み取り可能記録媒体
US11399016B2 (en) System and method for identifying exchanges of encrypted communication traffic
WO2021161538A1 (ja) 学習装置、学習方法及び学習プログラム
Lee et al. ATMSim: An anomaly teletraffic detection measurement analysis simulator
WO2017036042A1 (zh) 信息采集方法和装置
CN114866310A (zh) 一种恶意加密流量检测方法、终端设备及存储介质
Al-Bakhat et al. Intrusion detection on Quic Traffic: A machine learning approach
JP2006311048A (ja) 帯域制御装置
Zhang et al. ER-ERT: a method of ensemble representation learning of encrypted RAT traffic
Ma et al. Grammatch: An automatic protocol feature extraction and identification system
EP3923539A1 (en) System and method for cryptocurrency networks
CN115589362B (zh) 设备类型指纹的生成方法及识别方法、设备及介质
CN114499923B (zh) 一种icmp模拟报文的生成方法及装置
US11601353B2 (en) Device identification apparatus and method based on network behavior

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20919013

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022500201

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2020428327

Country of ref document: AU

ENP Entry into the national phase

Ref document number: 2020919013

Country of ref document: EP

Effective date: 20220817

ENP Entry into the national phase

Ref document number: 2020428327

Country of ref document: AU

Date of ref document: 20200214

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE