WO2023281684A1 - 通信分析装置、通信分析方法、通信分析システムおよび記録媒体 - Google Patents

通信分析装置、通信分析方法、通信分析システムおよび記録媒体 Download PDF

Info

Publication number
WO2023281684A1
WO2023281684A1 PCT/JP2021/025727 JP2021025727W WO2023281684A1 WO 2023281684 A1 WO2023281684 A1 WO 2023281684A1 JP 2021025727 W JP2021025727 W JP 2021025727W WO 2023281684 A1 WO2023281684 A1 WO 2023281684A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
analysis
communication
learning
extracted
Prior art date
Application number
PCT/JP2021/025727
Other languages
English (en)
French (fr)
Inventor
光一 晒谷
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2021/025727 priority Critical patent/WO2023281684A1/ja
Publication of WO2023281684A1 publication Critical patent/WO2023281684A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present invention relates to a communication analysis device and the like.
  • a variety of data is distributed in the networks of telecommunications carriers. Moreover, in recent years, the amount of distributed data is increasing. On the other hand, the methods of cyberattacks are evolving, and the number of damages caused by cyberattacks is increasing. Therefore, ensuring network security is a problem for communication carriers.
  • Patent Literature 1 and Patent Literature 2 describe that a security device performs machine learning using normal communication data, and detects unauthorized communication using a learning model generated by this machine learning.
  • Patent Literature 3 describes that a network intrusion detection system performs supervised learning and uses a learning model to detect whether or not a packet on the network is an abnormal packet.
  • supervised learning is performed.
  • supervised learning requires a set of only normal packets or a set of only abnormal packets as training data.
  • unauthorized communications attack techniques
  • anomalous packets for unknown attack techniques cannot be prepared. Therefore, it is difficult to prepare training data that reflects the latest attack techniques. Therefore, when supervised learning is performed to analyze communication packets that are actually distributed on a network, it is difficult to prepare teacher data.
  • a learning device that performs unsupervised learning does not need teacher data, so it does not need communication packets that have been pre-determined as to whether they are normal or not. Therefore, data actually circulating on the network in real time can be used as learning data.
  • the learning data includes both normal communication and abnormal communication. Therefore, the accuracy of analysis of communication packets by the learning model for the purpose of detecting unauthorized communication is lowered.
  • An object of the present invention is to provide a communication analysis device or the like that can improve the accuracy of a learning model for analyzing communication packets.
  • a communication analysis apparatus includes an extraction means for extracting extraction data used for analysis of a communication packet from the communication packet; and the post-removal data, which is the extracted data after the noise data has been removed, is used as learning data, and the extracted data is input data and the extracted data is analyzed a learning means for generating a learning model whose output data is the result of unsupervised learning; analyzing the extracted data using the learning model; and an analysis means for outputting as
  • the communication analysis method extracts extracted data used for analysis of the communication packet from the communication packet, and extracts data that causes a decrease in learning accuracy from the extracted extracted data. and using the post-removal data, which is the extracted data after the noise data has been removed, as learning data, the extracted data is the input data, and the analysis result of the extracted data is A communication analysis method for generating a learning model, which is output data, by unsupervised learning, analyzing the extracted data using the learning model, and outputting the analysis result of the extracted data as the communication packet analysis result. .
  • a communication analysis program recorded on a computer-readable recording medium comprises, in a computer, an extraction function for extracting extraction data used for analysis of a communication packet from the communication packet; a removal function that removes noise data, which is data that causes a decrease in learning accuracy, from the extracted data that has been extracted, and uses the removed data that is the extracted data after removing the noise data as learning data.
  • a communication analysis system includes: extraction means for extracting extraction data used for analysis of a communication packet from the communication packet; and the post-removal data, which is the extraction data after the noise data has been removed, are used as learning data, and the extraction data is the input data and the extraction a learning means for generating a learning model whose output data is an analysis result of the data by unsupervised learning; analyzing the extracted data using the learning model; and analysis means for outputting a result of the analysis.
  • FIG. 4 is a diagram showing a configuration example of a system including a communication analysis device according to a second embodiment of the present invention
  • FIG. It is a figure which shows the structural example of the communication analysis apparatus of 2nd Embodiment of this invention.
  • FIG. 9 is a diagram showing another configuration example of the communication analysis device according to the second embodiment of the present invention.
  • It is a figure which shows the operation example of the communication analysis apparatus of 2nd Embodiment of this invention.
  • a first embodiment of the present invention will be described.
  • a specific example of the communication analysis device 10 according to the first embodiment is a communication analysis device 20 according to a second embodiment described later.
  • the communication analysis device 10 includes an extraction unit 11, a removal unit 12, a learning unit 13 and an analysis unit 14.
  • the extraction unit 11 extracts extraction data used for analysis of communication packets from communication packets.
  • the removing unit 12 removes noise data from the extracted data. Noise data is data that causes a decrease in learning accuracy.
  • the learning unit 13 generates a learning model through unsupervised learning.
  • the learning unit 13 uses the post-removal data as learning data to generate a learning model.
  • the post-removal data is extracted data after noise data has been removed.
  • the analysis unit 14 analyzes the extracted data using the generated learning model, and outputs the analysis result of the extracted data as the communication packet analysis result.
  • the input data to the learning model is the extracted data.
  • the output data from the learning model is the result of analysis on the extracted data.
  • the extraction unit 11 extracts extraction data used for analysis of the communication packet from the communication packet.
  • the removing unit 12 removes noise data from the extracted data.
  • the learning unit 13 uses the post-removal data as learning data to generate a learning model through unsupervised learning.
  • the analysis unit 14 analyzes the extracted data using the generated learning model, and outputs the analysis result of the extracted data as the communication packet analysis result.
  • unsupervised learning is performed based on the post-removal data from which noise data has been removed, thereby improving the accuracy of the generated learning model. Therefore, it is possible to improve the accuracy of the learning model for analyzing communication packets.
  • FIG. 2 shows an example of the operation of the communication analysis device 10 of this embodiment.
  • the extraction unit 11 extracts extraction data used for analysis of the communication packet from the communication packet (step S101).
  • the removing unit 12 removes noise data from the extracted data (step S102).
  • the learning unit 13 uses the post-removal data as learning data to generate a learning model through unsupervised learning (step S103).
  • the analysis unit 14 analyzes the extracted data using the generated learning model, and outputs the analysis result of the extracted data as the communication packet analysis result (step S104).
  • the communication analysis device 10 extracts the extraction data used for analyzing the communication packet from the communication packet. Further, the communication analysis device 10 removes noise data from the extracted data.
  • the communication analysis device 10 also uses the post-removal data as learning data to generate a learning model through unsupervised learning. Further, the communication analysis device 10 analyzes the extracted data using the generated learning model, and outputs the analysis result of the extracted data as the communication packet analysis result.
  • unsupervised learning is performed based on the post-removal data from which noise data has been removed, thereby improving the accuracy of the generated learning model. Therefore, it is possible to improve the accuracy of the learning model for analyzing communication packets.
  • the communication analysis device 10 includes the extraction unit 11, removal unit 12, learning unit 13, and analysis unit 14.
  • the extraction unit 11 extracts extraction data used for analysis of the communication packet from the communication packet.
  • the removing unit 12 removes noise data from the extracted data.
  • the learning unit 13 uses the post-removal data as learning data to generate a learning model through unsupervised learning.
  • the analysis unit 14 analyzes the extracted data using the generated learning model, and outputs the result of analysis of the extracted data as the result of analysis of the communication packet.
  • unsupervised learning is performed based on the post-removal data from which noise data has been removed, thereby improving the accuracy of the generated learning model. Therefore, it is possible to improve the accuracy of the learning model for analyzing communication packets.
  • FIG. 4 shows a configuration example of a system including the communication analysis device 20 of this embodiment.
  • the communication analysis device 20 connects with the storage device 50 with each other.
  • the storage device 50 collects and stores communication packets used for learning and analysis.
  • Communication packets to be accumulated are, for example, communication packets that pass through NNI (Network Node Interface) between the core network and overseas carriers.
  • the communication packets to be accumulated may be communication packets that pass through a UNI (User Network Interface) between the core network and the access network.
  • the communication packets to be accumulated may be communication packets that pass through NMI between the core network and MVNO (Mobile Virtual Network Operator), or communication packets that are transmitted and received between the core network and the Internet. .
  • Communication packets to be accumulated are not limited to those listed here.
  • the communication analysis device 20 analyzes the communication packets input from the storage device 50 and outputs the analysis results.
  • the communication analysis device 20 outputs analysis results to, for example, display means (not shown). Note that, in the present embodiment, the communication analysis device 20 analyzes whether attack data intended for a cyber attack is included in a communication packet (communication flow).
  • the analysis performed by the communication analysis device 20 is not limited to analysis of the presence or absence of attack data.
  • FIG. 4 shows a configuration example of the communication analysis device 20 of this embodiment.
  • a communication analysis device 20 of this embodiment includes an extraction unit 21 , a removal unit 22 , a learning unit 23 , an analysis unit 24 and a model storage unit 25 .
  • the extraction unit 21 extracts extraction data used for analysis of the communication packet from the communication packet.
  • a communication packet is input from the storage device 50 .
  • a predetermined amount of communication packets are input to the extraction unit 21 .
  • the extraction unit 21 receives communication packets for one packet, one day, one month, or the like.
  • the data extracted by the extraction unit 21 are, for example, parameters included in communication packets.
  • Parameters included in the communication packet are, for example, source IP (Internet Protocol) address, communication protocol, session number, sequence number, and the like.
  • the data extracted by the extraction unit 21 may be statistical information about communication packets.
  • the statistical information is, for example, the number of communication packets that match a predetermined condition, the number of communication packets per unit time counted for each combination of source and destination, and the like. In this case, the extraction unit 21 performs statistical processing on the input communication packets.
  • the removal unit 22 removes noise data from the extracted data.
  • Noise data is data that causes a decrease in learning accuracy. More specifically, the noise data is data different from the intended learning. Learning is performed by the learning unit 23 .
  • the removal unit 22 removes from the extraction data data relating to the communication packet from which data that meets a predetermined removal condition is extracted.
  • the noise data is, for example, data relating to the communication packet from which data that satisfies the following removal conditions is extracted.
  • a removal condition is, for example, to include a pattern of known attack data.
  • Known attack data patterns are published, for example, in the GSMA (Global System for Mobile Communications) Association (GSM is a registered trademark).
  • the removal condition may include a pattern defined by a general firewall as data to be blocked.
  • the removal conditions may be unique conditions.
  • Unique conditions may include, for example, conditions such as standard deviation for statistical information.
  • the unique conditions may include conditions related to the character strings contained in the extracted data.
  • the removal unit 22 removes data related to the communication packet from which the data is extracted from the extraction data.
  • the unique conditions may include conditions generated based on the analysis conditions.
  • Analysis conditions are conditions for analysis performed by the learning model generated by the learning unit 23 .
  • Analysis conditions are generated by learning.
  • Analysis conditions are, for example, conditional expressions based on extracted data. For example, when the communication analysis device 20 analyzes whether or not a communication packet contains attack data, the analysis condition is a conditional expression for the learning model to analyze whether or not the communication packet contains attack data.
  • the learning unit 23 may output the analysis conditions to a predetermined output destination.
  • the predetermined output destination may be, for example, the removal unit 22 .
  • the removal unit 22 may generate unique removal conditions based on the analysis conditions.
  • a unique removal condition may be set in the communication analysis device 20 according to the user's operation.
  • the learning unit 23 generates a learning model.
  • the learning model generated by the learning section 23 is used by the analysis section 24 .
  • the learning unit 23 stores the generated learning model in the model storage unit 25 .
  • the input data to the learning model is extracted data.
  • the output data from the learning model is the result of analysis of the extracted data input to the learning model.
  • the learning unit 23 uses the post-removal data as learning data to generate a learning model by unsupervised learning.
  • the post-removal data is extracted data after the noise data has been removed by the removal unit 22 .
  • the learning unit 23 cannot use accurate teacher data for learning. Therefore, the learning unit 23 uses unsupervised learning to generate the learning model. As a result, the learning unit 23 can use the extracted data, which may contain data related to attack data, as learning data.
  • the analysis unit 24 uses the learning model generated by the learning unit 23 to analyze the extracted data.
  • a learning model is stored in the model storage unit 25 .
  • the analysis unit 24 then outputs the analysis result of the extracted data as the communication packet analysis result.
  • a learning model outputs the result of analysis with respect to extraction data, when extraction data are input.
  • the result of analyzing the extracted data is, for example, whether or not the communication packet input from the storage device 50 contains attack data.
  • the attack data are communication packets (communication flows) intended for cyber attacks.
  • the analysis unit 24 may use the post-removal data as an input to the learning model.
  • the learning model outputs the results of the analysis on the post-removal data. Noise data is removed from the post-removal data. Therefore, in this case, the removed noise data is out of the scope of analysis.
  • the learning model outputs analysis results for communication packets from which known attack data and data blocked by general firewalls have been removed. Therefore, the analysis unit 24 may output information about the noise data removed by the removal unit 22 in addition to the analysis result of the learning model.
  • the data used for learning by the learning unit 23 and the data used for analysis by the analysis unit 24 can be aligned with noise data removed. This allows for more accurate analysis.
  • the removal unit 22 of the communication analysis device 20 can more accurately detect that known attack data is included in the analysis target communication packet. Therefore, the communication analysis device 20 does not need to analyze the known attack data again by the analysis unit 24 . By using the post-removal data for analysis by the analysis unit 24, wasteful processing can be eliminated. Also, by removing data related to known attack data from the input to the learning model, the analysis unit 24 can analyze whether or not unknown attack data is included in the communication packet.
  • the analysis unit 24 analyzes whether or not unknown attack data is included in the communication packet, and based on the communication packet analyzed as containing unknown attack data, the analysis unit 24 can be used to pattern unknown attack data. Then, the analysis unit 24 can add the unknown attack data pattern to the removal conditions in the removal unit 22 . In this way, the analysis result of the analysis unit 24 is reflected in the noise data removed by the removal unit 22, thereby further improving the accuracy of the analysis of whether or not unknown attack data is included in the communication packet. it becomes possible to
  • the analysis unit 24 uses the learning model created one generation before as the learning model used for analysis. More specifically, the model storage unit 25 stores the learning model generated by the current learning and the learning model generated by the previous learning. Then, the analysis unit 24 performs analysis using the learning model generated by the previous learning. In this case, since the learning model of one generation before is used for analysis, the analysis unit 24 uses the learning model generated by the learning unit 23 for analysis when the learning unit 23 performs the initial learning. Can not do it. Therefore, in the case of the first learning, the communication packet for learning by the learning unit 23 and the communication packet for analysis by the analysis unit 24 are different from each other.
  • FIG. 5 shows a configuration example of the communication analysis device 30 in this case.
  • Communication analysis device 30 includes extraction units 31 and 37 instead of extraction unit 21 in communication analysis device 20 (see FIG. 4). Further, the communication analysis device 30 includes a removal unit 32 and a removal unit 38 instead of the removal unit 22 in the communication analysis device 20 .
  • a communication packet to be learned by the learning unit 23 is input from the storage device 50 to the extraction unit 31 .
  • a communication packet to be analyzed by the analysis unit 24 is input from the storage device 50 to the extraction unit 37 . If the analysis unit 24 inputs extracted data from which noise data has not been removed to the learning model, the removal unit 38 may not be included in the communication analysis device 30 .
  • the extraction unit 21 extracts extraction data used for analysis of the communication packet from the communication packet.
  • the removing unit 22 removes noise data from the extracted data.
  • the learning unit 13 uses the post-removal data as learning data to generate a learning model through unsupervised learning.
  • the analysis unit 24 analyzes the extracted data using the generated learning model, and outputs the analysis result of the extracted data as the communication packet analysis result.
  • unsupervised learning is performed based on the post-removal data from which noise data has been removed, thereby improving the accuracy of the generated learning model. Therefore, it is possible to improve the accuracy of the learning model for analyzing communication packets.
  • FIGS. 6 and 7 show examples of the operation of the communication analysis device 20 of this embodiment.
  • FIG. 6 shows an operation example of the communication analysis device 20 regarding learning.
  • FIG. 7 shows an operation example of the communication analysis device 20 regarding analysis.
  • the extraction unit 21 extracts extraction data from the communication packet input from the storage device 50 (step S201 in FIG. 6).
  • the removing unit 22 removes noise data from the extracted data (step S202).
  • Noise data is data that causes a decrease in learning accuracy.
  • the learning unit 23 generates a learning model and stores the generated learning model in the model storage unit 25 (step S203).
  • the learning unit 23 generates a learning model by unsupervised learning using the post-removal data as learning data.
  • the post-removal data is extracted data after the noise data has been removed by the removal unit 22 .
  • the extraction unit 21 extracts extraction data from the communication packet input from the storage device 50 (step S301 in FIG. 7).
  • the removing unit 22 removes noise data from the extracted data (step S302).
  • step S301 in FIG. 7 is common to step S201 in FIG.
  • step S302 is common to step S202 in FIG.
  • the communication analysis device 20 can execute step S303 in FIG. 7 after performing steps S201 and S202 in FIG. At this time, the communication analysis device 20 may perform step S203 and step S303 in parallel, or may perform one of them first.
  • the analysis unit 24 uses the learning model stored in the model storage unit 25 to analyze the extracted data. Then, the analysis unit 24 outputs the analysis result of the extracted data as the communication packet analysis result (step S303).
  • a learning model outputs the result of analysis with respect to extraction data, when extraction data are input. Note that the analysis unit 24 may use the extracted data extracted in step S301, or may use the post-removal data from which the noise data has been removed in step S302, as input to the learning model. Step S302 is not required if the extracted data from which noise data has not been removed is used as the input to the learning model.
  • the communication analysis device 20 extracts extraction data used for analyzing communication packets from the communication packets. Further, the communication analysis device 20 removes noise data from the extracted data. The communication analysis device 20 also uses the post-removal data as learning data to generate a learning model through unsupervised learning. The communication analysis device 20 also analyzes the extracted data using the generated learning model, and outputs the analysis result of the extracted data as the communication packet analysis result. As a result, unsupervised learning is performed based on the post-removal data from which noise data has been removed, thereby improving the accuracy of the generated learning model. Therefore, it is possible to improve the accuracy of the learning model for analyzing communication packets.
  • the communication analysis device 20 includes the extraction unit 21, removal unit 22, learning unit 23, analysis unit 24, and model storage unit 25.
  • the extraction unit 21 extracts extraction data used for analysis of the communication packet from the communication packet.
  • the removing unit 22 removes noise data from the extracted data.
  • the learning unit 23 uses the post-removal data as learning data to generate a learning model through unsupervised learning.
  • the analysis unit 24 analyzes the extracted data using the generated learning model, and outputs the analysis result of the extracted data as the communication packet analysis result.
  • unsupervised learning is performed based on the post-removal data from which noise data has been removed, thereby improving the accuracy of the generated learning model. Therefore, it is possible to improve the accuracy of the learning model for analyzing communication packets.
  • the analysis performed by the communication analysis device 20 of the present embodiment relates to whether attack data intended for cyberattacks is included in communication packets. This makes it possible to improve the accuracy of the learning model for analysis of attack data.
  • the noise data removed by the communication analysis device 20 of the present embodiment may be data related to the communication packet from which the data containing the pattern of known attack data is extracted.
  • the communication analysis device 20 since the communication analysis device 20 performs learning based on data from which known attack data has been removed, it is possible to further improve the accuracy of the learning model that analyzes unknown attack data.
  • the noise data may be data related to the communication packet from which the data that contains the pattern defined by a general firewall as data to be blocked is extracted. In this case, since the communication analysis device 20 performs learning based on data from which data that should generally be blocked is removed, the accuracy of the learning model that analyzes attack data can be further improved.
  • the noise data may be data relating to the communication packet from which the data matching the unique condition is extracted. In this case, peculiar data and the like can be removed according to unique conditions, so it is possible to further improve the accuracy of the learning model.
  • the learning unit 23 of the communication analysis device 20 of the present embodiment may output analysis conditions for analysis performed by the learning model.
  • the unique conditions include conditions generated based on the analysis conditions.
  • the data related to the communication packet from which the data matching the condition generated based on the analysis condition is extracted is removed from the extracted data.
  • the learning result can be fed back to the noise data removal, so that the accuracy of the learning model can be further improved.
  • the analysis unit 24 of the communication analysis device 20 of the present embodiment may use post-removal data for input to the learning model.
  • the communication analysis device 20 can make noise data removed from the data used for learning by the learning unit 23 and the data used for analysis by the analysis unit 24 . This enables the communication analysis device 20 to perform more accurate analysis.
  • communication analysis device 20 can analyze data that has not been removed as noise data, such as unknown attack data.
  • the noise data to be removed may reflect the result of the analysis.
  • the communication analysis device 20 can further improve the accuracy of communication packet analysis.
  • the analysis unit 24 of the communication analysis device 20 of the present embodiment may output information regarding noise data removed from the extracted data.
  • the communication analysis device 20 can make the operator or the like understand that the communication packet contains noise data.
  • the communication analysis device may be realized by physically or functionally using at least two information processing devices. Also, the communication analysis device may be implemented as a dedicated device. Also, only a part of the functions of the communication analysis device may be realized using the information processing device.
  • FIG. 8 is a diagram schematically showing a hardware configuration example of an information processing device capable of realizing the communication analysis device of each embodiment of the present invention.
  • the information processing device 90 includes a communication interface 91 , an input/output interface 92 , an arithmetic device 93 , a storage device 94 , a nonvolatile storage device 95 and a drive device 96 .
  • the communication interface 91 is communication means for the communication analysis device of each embodiment to communicate with an external device by wire and/or wirelessly.
  • the communication analysis device is implemented using at least two information processing devices, these devices may be connected via the communication interface 91 so as to be able to communicate with each other.
  • the input/output interface 92 is a man-machine interface such as a keyboard as an example of an input device and a display as an output device.
  • the arithmetic unit 93 is realized by a general-purpose CPU (Central Processing Unit), an arithmetic processing unit such as a microprocessor, and a plurality of electric circuits.
  • the computing device 93 can, for example, read various programs stored in the nonvolatile storage device 95 to the storage device 94 and execute processing according to the read programs.
  • the storage device 94 is a memory device such as a RAM (Random Access Memory) that can be referenced from the computing device 93, and stores programs, various data, and the like. Storage device 94 may be a volatile memory device.
  • RAM Random Access Memory
  • the non-volatile storage device 95 is a non-volatile storage device such as ROM (Read Only Memory), flash memory, etc., and is capable of storing various programs and data.
  • ROM Read Only Memory
  • flash memory etc.
  • the drive device 96 is, for example, a device that processes data reading and writing to a recording medium 97, which will be described later.
  • the recording medium 97 is any recording medium capable of recording data, such as an optical disk, a magneto-optical disk, a semiconductor flash memory, or the like.
  • the information processing apparatus 90 illustrated in FIG. may be realized by
  • the embodiment can be realized by having the arithmetic device 93 execute the program supplied to the communication analysis device. It is also possible to configure the information processing device 90 to perform not all but some of the functions of the communication analysis device.
  • the program may be recorded in the recording medium 97 and stored in the non-volatile storage device 95 as appropriate at the stage of shipping the communication analysis device or at the stage of operation.
  • a method of installing the program in the communication analysis apparatus using an appropriate jig may be employed at the manufacturing stage before shipment or at the operational stage.
  • a general procedure such as a method of downloading from the outside via a communication line such as the Internet may be adopted.
  • Appendix 2 The communication analysis device according to appendix 1, wherein the analysis of the communication packet relates to whether or not the communication packet contains attack data intended for a cyber attack.
  • the noise data is data containing a pattern of known attack data, data containing a pattern defined by a general firewall as data to be blocked, or data that meets unique conditions.
  • the communication analysis device according to appendix 2, wherein the data is data related to the communication packet from which data that meets at least one removal condition of is extracted.
  • the learning means outputs analysis conditions for analysis performed by the learning model,
  • the communication analysis device according to appendix 3, wherein the unique conditions include conditions generated based on the analysis conditions.
  • Appendix 7 The communication analysis device according to any one of appendices 1 to 6, wherein the analyzing means outputs information about the noise data removed from the extracted data.
  • (Appendix 8) extracting extracted data from the communication packet to be used for analysis of the communication packet; removing noise data, which is data that causes a decrease in learning accuracy, from the extracted extracted data; Using the post-removal data, which is the extracted data after the noise data has been removed, as learning data, a learning model in which the extracted data is the input data and the analysis result of the extracted data is the output data, generated by unsupervised learning, A communication analysis method comprising analyzing the extracted data using the learning model, and outputting a result of the analysis of the extracted data as an analysis result of the communication packet.
  • the noise data is data containing a pattern of known attack data, data containing a pattern defined by a general firewall as data to be blocked, or data that meets unique conditions.
  • the communication analysis method according to appendix 9, wherein the data is data related to the communication packet from which data that meets at least one removal condition of is extracted.
  • Appendix 11 output analysis conditions for analysis performed by the learning model; 11.
  • Appendix 14 14. The communication analysis method according to any one of appendices 8 to 13, wherein information about the noise data removed from the extracted data is output.
  • an extracting function for extracting extracted data used for analysis of the communication packet from the communication packet;
  • a removal function that removes noise data, which is data that causes a decrease in learning accuracy, from the extracted extracted data;
  • a learning model in which the extracted data is the input data and the analysis result of the extracted data is the output data, a learning function generated by unsupervised learning;
  • a computer-readable recording medium recording a communication analysis program for realizing an analysis function of analyzing the extracted data using the learning model and outputting the analysis result of the extracted data as the analysis result of the communication packet; .
  • Appendix 16 16.
  • the computer-readable recording medium recording the communication analysis program according to appendix 15, wherein the analysis of the communication packet relates to whether or not the communication packet contains attack data intended for a cyber attack.
  • the noise data is data containing a pattern of known attack data, data containing a pattern defined by a general firewall as data to be blocked, or data that meets unique conditions. 17.
  • Computer-readable recording medium recording the communication analysis program according to appendix 16.
  • Appendix 18 the learning function outputs analysis conditions for analysis performed by the learning model; 18.
  • the computer-readable recording medium recording the communication analysis program according to appendix 17, wherein the unique conditions include conditions generated based on the analysis conditions.
  • Appendix 20 20.
  • the computer-readable recording medium recording the communication analysis program according to appendix 19, wherein the noise data to be removed reflects the analysis result of the communication packet.
  • Appendix 21 The computer-readable recording medium recording the communication analysis program according to any one of appendices 15 to 20, wherein the analysis function outputs information about the noise data removed from the extracted data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

通信パケットの分析のための学習モデルの精度を向上することを可能にするために、通信パケットの分析に使用される抽出データを前記通信パケットから抽出し、抽出された前記抽出データから、学習精度の低下の要因となるデータであるノイズデータを除去し、前記ノイズデータが除去された後の前記抽出データである除去後データを学習用データとして使用して、前記抽出データが入力データであり前記抽出データに対する分析の結果が出力データである学習モデルを、教師なし学習によって生成し、前記学習モデルを用いて前記抽出データに対する分析を行い、前記抽出データに対する分析の結果を前記通信パケットの分析の結果として出力する。

Description

通信分析装置、通信分析方法、通信分析システムおよび記録媒体
 本発明は、通信分析装置等に関する。
 通信事業者のネットワークには様々なデータが流通している。また、近年、流通するデータの量が増加している。その一方、サイバー攻撃の手法が進化し、サイバー攻撃による被害の件数が増加している。そのため、通信事業者ではネットワークの安全性の確保が課題になっている。
 この課題に対応して、教師あり学習を用いて通信パケットを分析する方法が、たとえば、特許文献1から特許文献3に開示されている。特許文献1や特許文献2には、セキュリティ装置が正常な通信データを用いて機械学習を行い、この機械学習により生成された学習モデルを用いて不正な通信を検出することが記載されている。また、特許文献3には、ネットワーク侵入探知システムが教師あり学習を行い、ネットワーク上のパケットが異常的なパケットであるか否かを、学習モデルを用いて探知することが記載されている。
国際公開第2021/009925号 特開2019-185183号公報 特開2007-179542号公報
 特許文献1から特許文献3に記載の方法のいずれでも、教師あり学習が行われている。教師あり学習には、学習の用途に応じた教師データの用意が必要である。不正な通信の分析を目的とした学習を行う場合、教師あり学習は、教師データとして、正常パケットのみの集合、または、異常パケットのみの集合を必要とする。しかし、ネットワークを流れる不正な通信(攻撃手法)は、常に変化する。また、未知の攻撃手法についての異常パケットは、用意されることができない。そのため、最新の攻撃手法が反映された教師データの用意が困難である。したがって、ネットワークで実際に流通している通信パケットの分析のために教師あり学習が行われる場合、教師データの用意が困難である。
 一方、教師なし学習を行う学習装置は、教師データを必要としないので、正常か否かをあらかじめ判断された通信パケットを必要としない。そのため、ネットワーク上に実際にリアルタイムで流通しているデータを学習用データとして使用することができる。しかし、実際に流通しているデータが教師なし学習の学習用データとして使用される場合、学習データには、正常な通信と異常な通信とが混在する。そのため、不正な通信を検知することを目的とした場合の学習モデルによる通信パケットの分析精度が低くなる。
 本発明の目的は、通信パケットの分析のための学習モデルの精度を向上することを可能にする通信分析装置等を提供することにある。
 本発明の一態様において、通信分析装置は、通信パケットの分析に使用される抽出データを前記通信パケットから抽出する抽出手段と、抽出された前記抽出データから、学習精度の低下の要因となるデータであるノイズデータを除去する除去手段と、前記ノイズデータが除去された後の前記抽出データである除去後データを学習用データとして使用して、前記抽出データが入力データであり前記抽出データに対する分析の結果が出力データである学習モデルを、教師なし学習によって生成する学習手段と、前記学習モデルを用いて前記抽出データに対する分析を行い、前記抽出データに対する分析の結果を前記通信パケットの分析の結果として出力する分析手段とを備える。
 また、本発明の他の態様において、通信分析方法は、通信パケットの分析に使用される抽出データを前記通信パケットから抽出し、抽出された前記抽出データから、学習精度の低下の要因となるデータであるノイズデータを除去し、前記ノイズデータが除去された後の前記抽出データである除去後データを学習用データとして使用して、前記抽出データが入力データであり前記抽出データに対する分析の結果が出力データである学習モデルを、教師なし学習によって生成し、前記学習モデルを用いて前記抽出データに対する分析を行い、前記抽出データに対する分析の結果を前記通信パケットの分析の結果として出力する通信分析方法。
 また、本発明の他の態様において、コンピュータ読み取り可能な記録媒体に記録された通信分析プログラムは、コンピュータに、通信パケットの分析に使用される抽出データを前記通信パケットから抽出する抽出機能と、抽出された前記抽出データから、学習精度の低下の要因となるデータであるノイズデータを除去する除去機能と、前記ノイズデータが除去された後の前記抽出データである除去後データを学習用データとして使用して、前記抽出データが入力データであり前記抽出データに対する分析の結果が出力データである学習モデルを、教師なし学習によって生成する学習機能と、前記学習モデルを用いて前記抽出データに対する分析を行い、前記抽出データに対する分析の結果を前記通信パケットの分析の結果として出力する分析機能とを実現させる。
 また、本発明の他の態様において、通信分析システムは、通信パケットの分析に使用される抽出データを前記通信パケットから抽出する抽出手段と、抽出された前記抽出データから、学習精度の低下の要因となるデータであるノイズデータを除去する除去手段と、前記ノイズデータが除去された後の前記抽出データである除去後データを学習用データとして使用して、前記抽出データが入力データであり前記抽出データに対する分析の結果が出力データである学習モデルを、教師なし学習によって生成する学習手段と、前記学習モデルを用いて前記抽出データに対する分析を行い、前記抽出データに対する分析の結果を前記通信パケットの分析の結果として出力する分析手段とを備える。
 本発明によれば、通信パケットの分析のための学習モデルの精度を向上することが可能になる。
本発明の第一の実施形態の通信分析装置の構成例を示す図である。 本発明の第一の実施形態の通信分析装置の動作例を示す図である。 本発明の第二の実施形態の通信分析装置を含むシステムの構成例を示す図である。 本発明の第二の実施形態の通信分析装置の構成例を示す図である。 本発明の第二の実施形態の通信分析装置の他の構成例を示す図である。 本発明の第二の実施形態の通信分析装置の動作例を示す図である。 本発明の第二の実施形態の通信分析装置の動作例を示す図である。 本発明の各実施形態のハードウェア構成例を示す図である。
 [第一の実施形態]
 本発明の第一の実施の形態について説明する。第一の実施の形態における通信分析装置10の具体的な一例が、後述する第二の実施の形態における通信分析装置20である。
 通信分析装置10は、抽出部11、除去部12、学習部13および分析部14を含む。
 抽出部11は、通信パケットの分析に使用される抽出データを通信パケットから抽出する。除去部12は、抽出データからノイズデータを除去する。ノイズデータは、学習精度の低下の要因となるデータである。
 学習部13は、教師なし学習によって学習モデルを生成する。学習部13は、除去後データを学習用データとして使用して、学習モデルを生成する。除去後データは、ノイズデータが除去された後の抽出データである。分析部14は、生成された学習モデルを用いて抽出データに対する分析を行い、抽出データの分析の結果を通信パケットの分析の結果として出力する。抽出データの分析の際、学習モデルへの入力データは、抽出データである。また、学習モデルからの出力データは、抽出データに対する分析の結果である。
 このように通信分析装置10を構成することによって、抽出部11は、通信パケットの分析に使用される抽出データを通信パケットから抽出する。除去部12は、抽出データからノイズデータを除去する。学習部13は、除去後データを学習用データとして使用して、教師なし学習によって学習モデルを生成する。分析部14は、生成された学習モデルを用いて抽出データに対する分析を行い、抽出データの分析の結果を通信パケットの分析の結果として出力する。これにより、ノイズデータが除去された除去後データに基づいて教師なし学習が行われるので、生成される学習モデルの精度が向上する。そのため、通信パケットの分析のための学習モデルの精度を向上することが可能になる。
 次に、図2に本実施形態の通信分析装置10の動作の例を示す。
 抽出部11は、通信パケットの分析に使用される抽出データを通信パケットから抽出する(ステップS101)。除去部12は、抽出データからノイズデータを除去する(ステップS102)。
 学習部13は、除去後データを学習用データとして使用して、教師なし学習によって学習モデルを生成する(ステップS103)。分析部14は、生成された学習モデルを用いて抽出データに対する分析を行い、抽出データの分析の結果を通信パケットの分析の結果として出力する(ステップS104)。
 通信分析装置10は、このように動作することによって、通信パケットの分析に使用される抽出データを通信パケットから抽出する。また、通信分析装置10は、抽出データからノイズデータを除去する。また、通信分析装置10は、除去後データを学習用データとして使用して、教師なし学習によって学習モデルを生成する。また、通信分析装置10は、生成された学習モデルを用いて、抽出データに対する分析を行い、抽出データの分析の結果を通信パケットの分析の結果として出力する。これにより、ノイズデータが除去された除去後データに基づいて教師なし学習が行われるので、生成される学習モデルの精度が向上する。そのため、通信パケットの分析のための学習モデルの精度を向上することが可能になる。
 以上で説明したように、本発明の第一の実施形態では、通信分析装置10は、抽出部11、除去部12、学習部13および分析部14を含む。抽出部11は、通信パケットの分析に使用される抽出データを通信パケットから抽出する。除去部12は、抽出データからノイズデータを除去する。学習部13は、除去後データを学習用データとして使用して、教師なし学習によって学習モデルを生成する。分析部14は、生成された学習モデルを用いて、抽出データに対する分析を行い、抽出データの分析の結果を通信パケットの分析の結果として出力する。これにより、ノイズデータが除去された除去後データに基づいて教師なし学習が行われるので、生成される学習モデルの精度が向上する。そのため、通信パケットの分析のための学習モデルの精度を向上することが可能になる。
 [第二の実施形態]
 次に、本発明の第二の実施の形態における通信分析装置20について説明する。
 まず、図4に本実施形態の通信分析装置20を含むシステムの構成例を示す。通信分析装置20は、蓄積装置50と互いに接続する。
 蓄積装置50は、学習や分析に使用される通信パケットを収集して蓄積する。蓄積対象の通信パケットは、たとえば、コアネットワークと海外キャリアとの間のNNI(Network Node Interface)を経由する通信パケットである。蓄積対象の通信パケットは、コアネットワークとアクセスネットワークとの間のUNI(User Network Interface)を経由する通信パケットであってもよい。また、蓄積対象の通信パケットは、コアネットワークとMVNO(Mobile Virtual Network Operator)との間のNMIを経由する通信パケットや、コアネットワークとインターネットとの間で送受信される通信パケットなどであってもよい。蓄積対象の通信パケットは、ここで挙げられているものに限られない。
 通信分析装置20は、蓄積装置50から入力された通信パケットについて、通信パケットの分析を行い、分析の結果を出力する。通信分析装置20は、たとえば、表示手段(図示せず)などに分析の結果を出力する。なお、本実施形態では、通信分析装置20は、サイバー攻撃を目的とした攻撃データが通信パケット(通信フロー)に含まれているか否かを分析する。通信分析装置20が行う分析は、攻撃データの有無の分析に限られない。
 次に、図4に本実施形態の通信分析装置20の構成例を示す。本実施形態の通信分析装置20は、抽出部21、除去部22、学習部23、分析部24およびモデル記憶部25を含む。
 抽出部21は、通信パケットの分析に使用される抽出データを通信パケットから抽出する。通信パケットは、蓄積装置50から入力される。抽出部21には、あらかじめ定められた量の通信パケットが入力される。たとえば、抽出部21には、1パケット分、1日分、1か月分などの通信パケットが入力される。
 抽出部21によって抽出されるデータは、たとえば、通信パケットに含まれているパラメータである。通信パケットに含まれているパラメータは、たとえば、送信元IP(Internet Protocol)アドレス、通信プロトコル、セッション番号、シーケンス番号などである。
 また、抽出部21によって抽出されるデータは、通信パケットに関する統計情報であってもよい。統計情報は、たとえば、所定の条件に合致している通信パケットの個数や、送信元と送信先との組み合わせごとに集計された通信パケットの単位時間あたりの個数などである。この場合、抽出部21は、入力された通信パケットに対する統計処理を行う。
 除去部22は、抽出データからノイズデータを除去する。ノイズデータは、学習精度の低下の要因となるデータである。より具体的には、ノイズデータは、学習させたい意図と異なるデータである。学習は、学習部23によって行われる。除去部22は、あらかじめ定められた除去条件に合致するデータの抽出元の通信パケットに関するデータを、抽出データから除去する。本実施形態の場合、ノイズデータは、たとえば、以下の除去条件に合致するデータの抽出元の通信パケットに関するデータである。
 除去条件は、たとえば、既知の攻撃データのパターンを含むことである。既知の攻撃データのパターンは、たとえば、GSMA(GSM(Global System for Mobile Communications) Association)(GSMは登録商標)で公開されている。
 また、除去条件は、ブロックすべきデータとして一般的なファイヤーウォールで規定されているパターンを含むことであってもよい。
 また、除去条件は、独自条件であってもよい。独自条件は、たとえば、統計情報に対する標準偏差などの条件を含んでいてもよい。
 また、独自条件は、抽出データに含まれている文字列に関する条件を含んでいてもよい。この場合、除去部22は、特定の文字列が含まれているデータが抽出データにある場合に、当該データの抽出元の通信パケットに関するデータを、抽出データから除去する。
 また、独自条件は、分析条件に基づいて生成された条件を含んでいてもよい。分析条件は、学習部23で生成された学習モデルによって行われる分析の条件である。分析条件は、学習により生成される。分析条件は、たとえば、抽出データに基づく条件式である。たとえば、通信パケットが攻撃データを含むか否かの分析を通信分析装置20が行う場合、通信パケットが攻撃データを含むか否かを学習モデルが分析するための条件式が、分析条件である。学習部23は、分析条件を所定の出力先へ出力してもよい。所定の出力先は、たとえば、除去部22であってもよい。除去部22は、分析条件に基づいて独自の除去条件を生成してもよい。また、独自の除去条件は、利用者による操作に応じて通信分析装置20に設定されてもよい。
 学習部23は、学習モデルを生成する。学習部23によって生成された学習モデルは、分析部24によって使用される。学習部23は、生成した学習モデルをモデル記憶部25に記憶させる。学習モデルへの入力データは、抽出データである。また、学習モデルからの出力データは、学習モデルに入力された抽出データに対する分析の結果である。学習部23は、除去後データを学習用データとして使用して、教師なし学習によって、学習モデルを生成する。除去後データは、除去部22によってノイズデータが除去された後の抽出データである。
 攻撃の手法は、常に進化や変化をしている。そのため、学習部23は、正確な教師データを学習に使用することができない。したがって、学習部23は、学習モデルの生成に、教師なし学習を使用する。これにより、学習部23は、攻撃データに関するデータが含まれている可能性がある抽出データを、学習用データとして使用することができる。
 分析部24は、学習部23で生成された学習モデルを用いて、抽出データに対する分析を行う。学習モデルは、モデル記憶部25に記憶されている。そして、分析部24は、抽出データの分析の結果を通信パケットの分析の結果として出力する。学習モデルは、抽出データが入力された場合、抽出データに対する分析の結果を出力する。
 抽出データに対する分析の結果は、たとえば、蓄積装置50から入力された通信パケットに攻撃データが含まれているか否かである。なお、攻撃データは、サイバー攻撃を目的とした通信パケット(通信フロー)である。
 分析部24は、学習モデルへの入力に、除去後データを使用してもよい。この場合、学習モデルは、除去後データに対する分析の結果を出力する。除去後データは、ノイズデータが除去されている。そのため、この場合、除去されたノイズデータは、分析の対象外である。つまり、学習モデルは、既知の攻撃データや一般的なファイヤーウォールでブロックされるデータなどが除去された通信パケットについての分析結果を出力する。そのため、分析部24は、学習モデルによる分析の結果に加えて、除去部22で除去されたノイズデータに関する情報を出力してもよい。
 学習モデルへの入力に除去後データを使用すると、以下のような効果がある。まず、学習部23による学習に使用されるデータと分析部24による分析に使用されるデータとを、ノイズデータが除去されたものに揃えることができる。これにより、より正確な分析が可能になる。
 また、ノイズデータとして既知の攻撃データを除去する場合、通信分析装置20は、除去部22にて、分析対象の通信パケットに既知の攻撃データが含まれていることを、より正確に検知できる。そのため、通信分析装置20は、既知の攻撃データについては、分析部24で改めて分析する必要がない。分析部24による分析に除去後データを使用することによって、処理の無駄を省くことができる。また、学習モデルへの入力から既知の攻撃データに関するデータが除去されていることによって、分析部24は、未知の攻撃データが通信パケットに含まれているか否かを分析することが可能になる。
 また、未知の攻撃データが通信パケットに含まれているか否かを分析部24が分析することによって、さらに、分析部24は、未知の攻撃データが含まれていると分析された通信パケットに基づいて、未知の攻撃データをパターン化することができる。そして、分析部24は、未知の攻撃データのパターンを、除去部22における除去条件に追加することができる。このように、分析部24における分析の結果が、除去部22で除去されるノイズデータに反映されることで、未知の攻撃データが通信パケットに含まれているか否かの分析の精度をより向上することが可能になる。
 なお、本実施形態では、学習部23での学習のための通信パケットと、分析部24での分析のための通信パケットとが同一である場合について説明した。この場合、分析部24は、分析に使用する学習モデルに、一世代前に作成された学習モデルを使用する。より具体的には、モデル記憶部25は、今回の学習によって生成された学習モデルと、前回の学習によって生成された学習モデルとを記憶する。そして、分析部24は、前回の学習によって生成された学習モデルを使用して分析を行う。なお、この場合、一世代前の学習モデルが分析に使用されるので、学習部23が初回の学習を行った段階では、分析部24は、学習部23によって生成された学習モデルを分析に使用することができない。そのため、初回の学習の場合には、学習部23での学習のための通信パケットと、分析部24での分析のための通信パケットには、互いに異なるものが使用される。
 また、学習部23での学習のための通信パケットと、分析部24での分析の通信パケットとは、互いに異なるものであってもよい。図5に、この場合の通信分析装置30の構成例を示す。通信分析装置30は、通信分析装置20(図4を参照)における抽出部21の代わりに、抽出部31と抽出部37とを含む。また、通信分析装置30は、通信分析装置20における除去部22の代わりに除去部32と除去部38とを含む。
 抽出部31には、学習部23における学習の対象の通信パケットが蓄積装置50から入力される。また、抽出部37には、分析部24における分析の対象の通信パケットが蓄積装置50から入力される。ノイズデータを除去していない抽出データを分析部24が学習モデルに入力する場合には、除去部38は通信分析装置30に含まれていなくてもよい。
 このように通信分析装置20を構成することによって、抽出部21は、通信パケットの分析に使用される抽出データを通信パケットから抽出する。除去部22は、抽出データからノイズデータを除去する。学習部13は、除去後データを学習用データとして使用して、教師なし学習によって学習モデルを生成する。分析部24は、生成された学習モデルを用いて抽出データに対する分析を行い、抽出データの分析の結果を通信パケットの分析の結果として出力する。これにより、ノイズデータが除去された除去後データに基づいて教師なし学習が行われるので、生成される学習モデルの精度が向上する。そのため、通信パケットの分析のための学習モデルの精度を向上することが可能になる。
 次に、図6および図7に、本実施形態の通信分析装置20の動作例を示す。図6は、学習に関する通信分析装置20の動作例を示す。図7は、分析に関する通信分析装置20の動作例を示す。
 まず、学習の動作例について説明する。
 抽出部21は、蓄積装置50から入力された通信パケットから、抽出データを抽出する(図6のステップS201)。次に、除去部22は、抽出データからノイズデータを除去する(ステップS202)。ノイズデータは、学習精度の低下の要因となるデータである。
 そして、学習部23は、学習モデルを生成し、生成した学習モデルをモデル記憶部25に記憶させる(ステップS203)。学習部23は、除去後データを学習用データとして、教師なし学習によって、学習モデルを生成する。除去後データは、除去部22によってノイズデータが除去された後の抽出データである。
 次に、分析の動作例について説明する。
 抽出部21は、蓄積装置50から入力された通信パケットから、抽出データを抽出する(図7のステップS301)。次に、除去部22は、抽出データからノイズデータを除去する(ステップS302)。なお、通信分析装置20が図4に示す構成である場合、図7のステップS301は図6のステップS201と共通である。また、ステップS302は、図6のステップS202と共通である。つまり、通信分析装置20は、図6のステップS201とステップS202とを行った後に、図7のステップS303を実行することができる。このとき、通信分析装置20は、ステップS203とステップS303とを並行して行ってもよいし、いずれかを先に行ってもよい。
 次に、分析部24は、モデル記憶部25に記憶されている学習モデルを用いて、抽出データに対する分析を行う。そして、分析部24は、抽出データの分析の結果を通信パケットの分析の結果として出力する(ステップS303)。学習モデルは、抽出データが入力された場合、抽出データに対する分析の結果を出力する。なお、分析部24は、学習モデルへの入力に、ステップS301で抽出された抽出データを使用してもよいし、ステップS302でノイズデータが除去された除去後データを使用してもよい。ノイズデータが除去されていない抽出データが学習モデルへの入力に使用される場合、ステップS302は不要である。
 通信分析装置20は、このように動作することによって、通信パケットの分析に使用される抽出データを通信パケットから抽出する。また、通信分析装置20は、抽出データからノイズデータを除去する。また、通信分析装置20は、除去後データを学習用データとして使用して、教師なし学習によって学習モデルを生成する。また、通信分析装置20は、生成された学習モデルを用いて抽出データに対する分析を行い、抽出データの分析の結果を通信パケットの分析の結果として出力する。これにより、ノイズデータが除去された除去後データに基づいて教師なし学習が行われるので、生成される学習モデルの精度が向上する。そのため、通信パケットの分析のための学習モデルの精度を向上することが可能になる。
 以上で説明したように、本発明の第二の実施形態では、通信分析装置20は、抽出部21、除去部22、学習部23、分析部24およびモデル記憶部25を含む。抽出部21は、通信パケットの分析に使用される抽出データを通信パケットから抽出する。除去部22は、抽出データからノイズデータを除去する。学習部23は、除去後データを学習用データとして使用して、教師なし学習によって学習モデルを生成する。分析部24は、生成された学習モデルを用いて抽出データに対する分析を行い、抽出データの分析の結果を通信パケットの分析の結果として出力する。これにより、ノイズデータが除去された除去後データに基づいて教師なし学習が行われるので、生成される学習モデルの精度が向上する。そのため、通信パケットの分析のための学習モデルの精度を向上することが可能になる。
 また、本実施形態の通信分析装置20が行う分析は、サイバー攻撃を目的とした攻撃データが通信パケットに含まれているか否かに関する。これにより、攻撃データの分析のための学習モデルの精度を向上することが可能になる。
 また、本実施形態の通信分析装置20が除去するノイズデータは、既知の攻撃データのパターンを含むデータの抽出元の通信パケットに関するデータであってもよい。この場合、通信分析装置20は、既知の攻撃データが除去されたデータに基づいて学習を行うので、未知の攻撃データについての分析を行う学習モデルの精度をより向上することができる。
 また、ノイズデータは、ブロックすべきデータとして一般的なファイヤーウォールで規定されているパターンを含むデータの抽出元の通信パケットに関するデータであってもよい。この場合、通信分析装置20は、一般的にブロックすべきとされているデータが除去されたデータに基づいて学習を行うので、攻撃データの分析を行う学習モデルの精度をより向上することができる。また、ノイズデータは、独自条件に合致するデータの抽出元の通信パケットに関するデータであってもよい。この場合、独自条件に応じて特異なデータなどの除去ができるので、学習モデルの精度をより向上することが可能になる。
 また、本実施形態の通信分析装置20の学習部23は、学習モデルによって行われる分析の分析条件を出力してもよい。また、このとき、独自条件は、分析条件に基づいて生成された条件を含む。この場合、分析条件に基づいて生成された条件に合致するデータの抽出元の通信パケットに関するデータが、抽出データから除去される。これにより、学習の結果をノイズデータ除去にフィードバックできるので、学習モデルの精度をより向上することが可能になる。
 また、本実施形態の通信分析装置20の分析部24は、学習モデルへの入力に、除去後データを使用してもよい。この場合、通信分析装置20は、学習部23による学習に使用されるデータと分析部24による分析に使用されるデータとを、ノイズデータが除去されたものに揃えることができる。これにより、通信分析装置20は、より正確な分析が可能になる。また、学習モデルへの入力からノイズデータが除去されていることによって、通信分析装置20は、ノイズデータとして除去されていないデータの分析、たとえば未知の攻撃データの分析が可能になる。
 また、本実施形態の通信分析装置20では、除去されるノイズデータに、分析の結果が反映されてもよい。この場合、通信分析装置20は、通信パケットの分析の精度をより向上することが可能になる。
 また、本実施形態の通信分析装置20の分析部24は、抽出データから除去されたノイズデータに関する情報を出力してもよい。この場合、通信分析装置20は、通信パケットにノイズデータが含まれていたことを作業者等に把握させることが可能になる。
 [ハードウェア構成例]
 上述した本発明の各実施形態における通信分析装置(10、20、30)を、一つの情報処理装置(コンピュータ)を用いて実現するハードウェア資源の構成例について説明する。なお、通信分析装置は、物理的または機能的に少なくとも二つの情報処理装置を用いて実現してもよい。また、通信分析装置は、専用の装置として実現してもよい。また、通信分析装置の一部の機能のみを情報処理装置を用いて実現してもよい。
 図8は、本発明の各実施形態の通信分析装置を実現可能な情報処理装置のハードウェア構成例を概略的に示す図である。情報処理装置90は、通信インタフェース91、入出力インタフェース92、演算装置93、記憶装置94、不揮発性記憶装置95およびドライブ装置96を含む。
 たとえば、図1の抽出部11、除去部12、学習部13、分析部14は、演算装置93や入出力インタフェース92で実現することが可能である。
 通信インタフェース91は、各実施形態の通信分析装置が、有線あるいは/および無線で外部装置と通信するための通信手段である。なお、通信分析装置を、少なくとも二つの情報処理装置を用いて実現する場合、それらの装置の間を通信インタフェース91経由で相互に通信可能なように接続してもよい。
 入出力インタフェース92は、入力デバイスの一例であるキーボードや、出力デバイスとしてのディスプレイ等のマンマシンインタフェースである。
 演算装置93は、汎用のCPU(Central Processing Unit)やマイクロプロセッサ等の演算処理装置や複数の電気回路によって実現される。演算装置93は、たとえば、不揮発性記憶装置95に記憶された各種プログラムを記憶装置94に読み出し、読み出したプログラムに従って処理を実行することが可能である。
 記憶装置94は、演算装置93から参照可能な、RAM(Random Access Memory)等のメモリ装置であり、プログラムや各種データ等を記憶する。記憶装置94は、揮発性のメモリ装置であってもよい。
 不揮発性記憶装置95は、たとえば、ROM(Read Only Memory)、フラッシュメモリ、等の、不揮発性の記憶装置であり、各種プログラムやデータ等を記憶することが可能である。
 ドライブ装置96は、たとえば、後述する記録媒体97に対するデータの読み込みや書き込みを処理する装置である。
 記録媒体97は、たとえば、光ディスク、光磁気ディスク、半導体フラッシュメモリ等、データを記録可能な任意の記録媒体である。
 本発明の各実施形態は、たとえば、図8に例示した情報処理装置90により通信分析装置を構成し、この通信分析装置に対して、上記各実施形態において説明した機能を実現可能なプログラムを供給することにより実現してもよい。
 この場合、通信分析装置に対して供給したプログラムを、演算装置93が実行することによって、実施形態を実現することが可能である。また、通信分析装置のすべてではなく、一部の機能を情報処理装置90で構成することも可能である。
 さらに、上記プログラムを記録媒体97に記録しておき、通信分析装置の出荷段階、あるいは運用段階等において、適宜上記プログラムが不揮発性記憶装置95に格納されるよう構成してもよい。なお、この場合、上記プログラムの供給方法は、出荷前の製造段階、あるいは運用段階等において、適当な治具を利用して通信分析装置内にインストールする方法を採用してもよい。また、上記プログラムの供給方法は、インターネット等の通信回線を介して外部からダウンロードする方法等の一般的な手順を採用してもよい。
 上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
  (付記1)
 通信パケットの分析に使用される抽出データを前記通信パケットから抽出する抽出手段と、
 抽出された前記抽出データから、学習精度の低下の要因となるデータであるノイズデータを除去する除去手段と、
 前記ノイズデータが除去された後の前記抽出データである除去後データを学習用データとして使用して、前記抽出データが入力データであり前記抽出データに対する分析の結果が出力データである学習モデルを、教師なし学習によって生成する学習手段と、
 前記学習モデルを用いて前記抽出データに対する分析を行い、前記抽出データに対する分析の結果を前記通信パケットの分析の結果として出力する分析手段と
 を備える通信分析装置。
  (付記2)
 前記通信パケットの分析は、サイバー攻撃を目的とした攻撃データが前記通信パケットに含まれているか否かに関する
 付記1に記載の通信分析装置。
  (付記3)
 前記ノイズデータは、既知の攻撃データのパターンを含むデータである、ブロックすべきデータとして一般的なファイヤーウォールで規定されているパターンを含むデータである、または、独自条件に合致するデータである、の少なくとも一つの除去条件に合致するデータの抽出元の前記通信パケットに関するデータである
 付記2に記載の通信分析装置。
  (付記4)
 前記学習手段は、前記学習モデルによって行われる分析の分析条件を出力し、
 前記独自条件は、前記分析条件に基づいて生成された条件を含む
 付記3に記載の通信分析装置。
  (付記5)
 前記分析手段は、前記学習モデルへの入力に、前記除去後データを使用する
 付記1から付記4のいずれかに記載の通信分析装置。
  (付記6)
 除去される前記ノイズデータには、前記通信パケットの分析の結果が反映される
 付記5に記載の通信分析装置。
  (付記7)
 前記分析手段は、前記抽出データから除去された前記ノイズデータに関する情報を出力する
 付記1から付記6のいずれかに記載の通信分析装置。
  (付記8)
 通信パケットの分析に使用される抽出データを前記通信パケットから抽出し、
 抽出された前記抽出データから、学習精度の低下の要因となるデータであるノイズデータを除去し、
 前記ノイズデータが除去された後の前記抽出データである除去後データを学習用データとして使用して、前記抽出データが入力データであり前記抽出データに対する分析の結果が出力データである学習モデルを、教師なし学習によって生成し、
 前記学習モデルを用いて前記抽出データに対する分析を行い、前記抽出データに対する分析の結果を前記通信パケットの分析の結果として出力する
 通信分析方法。
  (付記9)
 前記通信パケットの分析は、サイバー攻撃を目的とした攻撃データが前記通信パケットに含まれているか否かに関する
 付記8に記載の通信分析方法。
  (付記10)
 前記ノイズデータは、既知の攻撃データのパターンを含むデータである、ブロックすべきデータとして一般的なファイヤーウォールで規定されているパターンを含むデータである、または、独自条件に合致するデータである、の少なくとも一つの除去条件に合致するデータの抽出元の前記通信パケットに関するデータである
 付記9に記載の通信分析方法。
  (付記11)
 前記学習モデルによって行われる分析の分析条件を出力し、
 前記独自条件は、前記分析条件に基づいて生成された条件を含む
 付記10に記載の通信分析方法。
  (付記12)
 前記学習モデルへの入力に、前記除去後データを使用する
 付記8から付記11のいずれかに記載の通信分析方法。
  (付記13)
 除去される前記ノイズデータには、前記通信パケットの分析の結果が反映される
 付記12に記載の通信分析方法。
  (付記14)
 前記抽出データから除去された前記ノイズデータに関する情報を出力する
 付記8から付記13のいずれかに記載の通信分析方法。
  (付記15)
 コンピュータに、
 通信パケットの分析に使用される抽出データを前記通信パケットから抽出する抽出機能と、
 抽出された前記抽出データから、学習精度の低下の要因となるデータであるノイズデータを除去する除去機能と、
 前記ノイズデータが除去された後の前記抽出データである除去後データを学習用データとして使用して、前記抽出データが入力データであり前記抽出データに対する分析の結果が出力データである学習モデルを、教師なし学習によって生成する学習機能と、
 前記学習モデルを用いて前記抽出データに対する分析を行い、前記抽出データに対する分析の結果を前記通信パケットの分析の結果として出力する分析機能と
 を実現させる通信分析プログラムを記録したコンピュータ読み取り可能な記録媒体。
  (付記16)
 前記通信パケットの分析は、サイバー攻撃を目的とした攻撃データが前記通信パケットに含まれているか否かに関する
 付記15に記載の通信分析プログラムを記録したコンピュータ読み取り可能な記録媒体。
  (付記17)
 前記ノイズデータは、既知の攻撃データのパターンを含むデータである、ブロックすべきデータとして一般的なファイヤーウォールで規定されているパターンを含むデータである、または、独自条件に合致するデータである、の少なくとも一つの除去条件に合致するデータの抽出元の前記通信パケットに関するデータである
 付記16に記載の通信分析プログラムを記録したコンピュータ読み取り可能な記録媒体。
  (付記18)
 前記学習機能は、前記学習モデルによって行われる分析の分析条件を出力し、
 前記独自条件は、前記分析条件に基づいて生成された条件を含む
 付記17に記載の通信分析プログラムを記録したコンピュータ読み取り可能な記録媒体。
  (付記19)
 前記分析機能は、前記学習モデルへの入力に、前記除去後データを使用する
 付記15から付記18のいずれかに記載の通信分析プログラムを記録したコンピュータ読み取り可能な記録媒体。
  (付記20)
 除去される前記ノイズデータには、前記通信パケットの分析の結果が反映される
 付記19に記載の通信分析プログラムを記録したコンピュータ読み取り可能な記録媒体。
  (付記21)
 前記分析機能は、前記抽出データから除去された前記ノイズデータに関する情報を出力する
 付記15から付記20のいずれかに記載の通信分析プログラムを記録したコンピュータ読み取り可能な記録媒体。
  (付記22)
 通信パケットの分析に使用される抽出データを前記通信パケットから抽出する抽出手段と、
 抽出された前記抽出データから、学習精度の低下の要因となるデータであるノイズデータを除去する除去手段と、
 前記ノイズデータが除去された後の前記抽出データである除去後データを学習用データとして使用して、前記抽出データが入力データであり前記抽出データに対する分析の結果が出力データである学習モデルを、教師なし学習によって生成する学習手段と、
 前記学習モデルを用いて前記抽出データに対する分析を行い、前記抽出データに対する分析の結果を前記通信パケットの分析の結果として出力する分析手段と
 を備える通信分析システム。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 10、20、30  通信分析装置
 11、21、31、37  抽出部
 12、22、32、38  除去部
 13、23  学習部
 14、24  分析部
 25  モデル記憶部
 50  蓄積装置
 90  情報処理装置
 91  通信インタフェース
 92  入出力インタフェース
 93  演算装置
 94  記憶装置
 95  不揮発性記憶装置
 96  ドライブ装置
 97  記録媒体

Claims (22)

  1.  通信パケットの分析に使用される抽出データを前記通信パケットから抽出する抽出手段と、
     抽出された前記抽出データから、学習精度の低下の要因となるデータであるノイズデータを除去する除去手段と、
     前記ノイズデータが除去された後の前記抽出データである除去後データを学習用データとして使用して、前記抽出データが入力データであり前記抽出データに対する分析の結果が出力データである学習モデルを、教師なし学習によって生成する学習手段と、
     前記学習モデルを用いて前記抽出データに対する分析を行い、前記抽出データに対する分析の結果を前記通信パケットの分析の結果として出力する分析手段と
     を備える通信分析装置。
  2.  前記通信パケットの分析は、サイバー攻撃を目的とした攻撃データが前記通信パケットに含まれているか否かに関する
     請求項1に記載の通信分析装置。
  3.  前記ノイズデータは、既知の攻撃データのパターンを含むデータである、ブロックすべきデータとして一般的なファイヤーウォールで規定されているパターンを含むデータである、または、独自条件に合致するデータである、の少なくとも一つの除去条件に合致するデータの抽出元の前記通信パケットに関するデータである
     請求項2に記載の通信分析装置。
  4.  前記学習手段は、前記学習モデルによって行われる分析の分析条件を出力し、
     前記独自条件は、前記分析条件に基づいて生成された条件を含む
     請求項3に記載の通信分析装置。
  5.  前記分析手段は、前記学習モデルへの入力に、前記除去後データを使用する
     請求項1から請求項4のいずれかに記載の通信分析装置。
  6.  除去される前記ノイズデータには、前記通信パケットの分析の結果が反映される
     請求項5に記載の通信分析装置。
  7.  前記分析手段は、前記抽出データから除去された前記ノイズデータに関する情報を出力する
     請求項1から請求項6のいずれかに記載の通信分析装置。
  8.  通信パケットの分析に使用される抽出データを前記通信パケットから抽出し、
     抽出された前記抽出データから、学習精度の低下の要因となるデータであるノイズデータを除去し、
     前記ノイズデータが除去された後の前記抽出データである除去後データを学習用データとして使用して、前記抽出データが入力データであり前記抽出データに対する分析の結果が出力データである学習モデルを、教師なし学習によって生成し、
     前記学習モデルを用いて前記抽出データに対する分析を行い、前記抽出データに対する分析の結果を前記通信パケットの分析の結果として出力する
     通信分析方法。
  9.  前記通信パケットの分析は、サイバー攻撃を目的とした攻撃データが前記通信パケットに含まれているか否かに関する
     請求項8に記載の通信分析方法。
  10.  前記ノイズデータは、既知の攻撃データのパターンを含むデータである、ブロックすべきデータとして一般的なファイヤーウォールで規定されているパターンを含むデータである、または、独自条件に合致するデータである、の少なくとも一つの除去条件に合致するデータの抽出元の前記通信パケットに関するデータである
     請求項9に記載の通信分析方法。
  11.  前記学習モデルによって行われる分析の分析条件を出力し、
     前記独自条件は、前記分析条件に基づいて生成された条件を含む
     請求項10に記載の通信分析方法。
  12.  前記学習モデルへの入力に、前記除去後データを使用する
     請求項8から請求項11のいずれかに記載の通信分析方法。
  13.  除去される前記ノイズデータには、前記通信パケットの分析の結果が反映される
     請求項12に記載の通信分析方法。
  14.  前記抽出データから除去された前記ノイズデータに関する情報を出力する
     請求項8から請求項13のいずれかに記載の通信分析方法。
  15.  コンピュータに、
     通信パケットの分析に使用される抽出データを前記通信パケットから抽出する抽出機能と、
     抽出された前記抽出データから、学習精度の低下の要因となるデータであるノイズデータを除去する除去機能と、
     前記ノイズデータが除去された後の前記抽出データである除去後データを学習用データとして使用して、前記抽出データが入力データであり前記抽出データに対する分析の結果が出力データである学習モデルを、教師なし学習によって生成する学習機能と、
     前記学習モデルを用いて前記抽出データに対する分析を行い、前記抽出データに対する分析の結果を前記通信パケットの分析の結果として出力する分析機能と
     を実現させる通信分析プログラムを記録したコンピュータ読み取り可能な記録媒体。
  16.  前記通信パケットの分析は、サイバー攻撃を目的とした攻撃データが前記通信パケットに含まれているか否かに関する
     請求項15に記載の通信分析プログラムを記録したコンピュータ読み取り可能な記録媒体。
  17.  前記ノイズデータは、既知の攻撃データのパターンを含むデータである、ブロックすべきデータとして一般的なファイヤーウォールで規定されているパターンを含むデータである、または、独自条件に合致するデータである、の少なくとも一つの除去条件に合致するデータの抽出元の前記通信パケットに関するデータである
     請求項16に記載の通信分析プログラムを記録したコンピュータ読み取り可能な記録媒体。
  18.  前記学習機能は、前記学習モデルによって行われる分析の分析条件を出力し、
     前記独自条件は、前記分析条件に基づいて生成された条件を含む
     請求項17に記載の通信分析プログラムを記録したコンピュータ読み取り可能な記録媒体。
  19.  前記分析機能は、前記学習モデルへの入力に、前記除去後データを使用する
     請求項15から請求項18のいずれかに記載の通信分析プログラムを記録したコンピュータ読み取り可能な記録媒体。
  20.  除去される前記ノイズデータには、前記通信パケットの分析の結果が反映される
     請求項19に記載の通信分析プログラムを記録したコンピュータ読み取り可能な記録媒体。
  21.  前記分析機能は、前記抽出データから除去された前記ノイズデータに関する情報を出力する
     請求項15から請求項20のいずれかに記載の通信分析プログラムを記録したコンピュータ読み取り可能な記録媒体。
  22.  通信パケットの分析に使用される抽出データを前記通信パケットから抽出する抽出手段と、
     抽出された前記抽出データから、学習精度の低下の要因となるデータであるノイズデータを除去する除去手段と、
     前記ノイズデータが除去された後の前記抽出データである除去後データを学習用データとして使用して、前記抽出データが入力データであり前記抽出データに対する分析の結果が出力データである学習モデルを、教師なし学習によって生成する学習手段と、
     前記学習モデルを用いて前記抽出データに対する分析を行い、前記抽出データに対する分析の結果を前記通信パケットの分析の結果として出力する分析手段と
     を備える通信分析システム。
PCT/JP2021/025727 2021-07-08 2021-07-08 通信分析装置、通信分析方法、通信分析システムおよび記録媒体 WO2023281684A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/025727 WO2023281684A1 (ja) 2021-07-08 2021-07-08 通信分析装置、通信分析方法、通信分析システムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/025727 WO2023281684A1 (ja) 2021-07-08 2021-07-08 通信分析装置、通信分析方法、通信分析システムおよび記録媒体

Publications (1)

Publication Number Publication Date
WO2023281684A1 true WO2023281684A1 (ja) 2023-01-12

Family

ID=84801574

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/025727 WO2023281684A1 (ja) 2021-07-08 2021-07-08 通信分析装置、通信分析方法、通信分析システムおよび記録媒体

Country Status (1)

Country Link
WO (1) WO2023281684A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019235403A1 (ja) * 2018-06-04 2019-12-12 日本電信電話株式会社 感染拡大攻撃検知システム及び方法、並びに、プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019235403A1 (ja) * 2018-06-04 2019-12-12 日本電信電話株式会社 感染拡大攻撃検知システム及び方法、並びに、プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HATADA MITSUHIRO, MORI TATSUYA: "Finding New Malware Samples with the Network Behavior Analysis", COMPUTER SECURITY SYMPOSIUM 2016, vol. 12, 11 October 2016 (2016-10-11) - 13 October 2016 (2016-10-13), pages 647 - 654, XP055794575 *

Similar Documents

Publication Publication Date Title
CN109034660B (zh) 基于预测模型的风险控制策略的确定方法及相关装置
US10484410B2 (en) Anomaly detection for micro-service communications
US8490196B2 (en) System and method for extending automated penetration testing to develop an intelligent and cost efficient security strategy
US20210021644A1 (en) Advanced cybersecurity threat mitigation using software supply chain analysis
CN110719212A (zh) 用于使用源代码测试网络节点的方法、系统和计算机可读介质
Bos et al. Assessing the feasibility of single trace power analysis of Frodo
Hussein et al. UMLintr: a UML profile for specifying intrusions
CN109194684B (zh) 一种模拟拒绝服务攻击的方法、装置及计算设备
EP2476238A2 (en) System and method for probabilistic attack planning
US20220210202A1 (en) Advanced cybersecurity threat mitigation using software supply chain analysis
CN104980421A (zh) 一种批量请求处理方法及系统
CN112822291A (zh) 一种工控设备的监测方法与装置
Marquis et al. SCL: a language for security testing of network applications
Ovaz Akpinar et al. Development of the ECAT preprocessor with the trust communication approach
KR102011603B1 (ko) 탐지 규칙 검증을 위한 패킷 생성 방법 및 장치
WO2022034405A1 (en) Low-latency identification of network-device properties
WO2023281684A1 (ja) 通信分析装置、通信分析方法、通信分析システムおよび記録媒体
US20070013563A1 (en) Data packet decoding
CN114553551B (zh) 对入侵防御系统进行测试的方法及装置
Nath Vulnerability assessment methods–a review
EP3839781A1 (en) Calculation device, calculation method, and calculation program
CN114244572B (zh) 一种基于零拷贝报文收集系统的物联网安全网关方法
CN114006838B (zh) 流控设备的测试方法及系统
EP3961445A1 (en) Automatic identification of flaws in software systems
CN114205146B (zh) 一种多源异构安全日志的处理方法及装置

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE