WO2021130838A1 - 情報処理装置、脅威情報評価システム、情報処理方法および非一時的なコンピュータ可読媒体 - Google Patents

情報処理装置、脅威情報評価システム、情報処理方法および非一時的なコンピュータ可読媒体 Download PDF

Info

Publication number
WO2021130838A1
WO2021130838A1 PCT/JP2019/050483 JP2019050483W WO2021130838A1 WO 2021130838 A1 WO2021130838 A1 WO 2021130838A1 JP 2019050483 W JP2019050483 W JP 2019050483W WO 2021130838 A1 WO2021130838 A1 WO 2021130838A1
Authority
WO
WIPO (PCT)
Prior art keywords
level
feature amount
learning data
threat
information processing
Prior art date
Application number
PCT/JP2019/050483
Other languages
English (en)
French (fr)
Inventor
泰圭 神農
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2019/050483 priority Critical patent/WO2021130838A1/ja
Priority to US17/783,081 priority patent/US20230025208A1/en
Priority to JP2021566414A priority patent/JP7287503B2/ja
Publication of WO2021130838A1 publication Critical patent/WO2021130838A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Definitions

  • the present invention relates to an information processing device, a threat information evaluation system, an information processing method, and a non-temporary computer-readable medium.
  • a security operator for example, SOC (Security Operation Center) receives threat information (for example, electronic device logs and accompanying packets) from an organization such as a company, and sets a huge amount of threat information mainly manually. Is going. However, the amount of threat information received is enormous, and there are limits to manual manual analysis and threat leveling. On the other hand, there is a method of automatically leveling a huge amount of threat information.
  • SOC Security Operation Center
  • a character string length is predetermined among an extraction unit that extracts a common character string between parameters in a communication access log determined to be an attack and a continuous character string extracted by the extraction unit.
  • An attack pattern extraction device including an attack pattern generation unit that generates an attack pattern based on a character string having a character string length or longer is disclosed.
  • the present invention has been made to solve such a problem, and is an information processing device and a threat information evaluation system capable of appropriately selecting learning data including a character string that can contribute to threat leveling. , Information processing methods and programs.
  • the information processing apparatus is learning data composed of a plurality of items, and is leveled into a first level and a second level having a threat level higher than the first level.
  • the acquisition unit that acquires learning data
  • a first feature amount detection unit that detects a first feature amount of a specific character string from the learning data belonging to the first level, and a first feature amount detection unit.
  • a second feature amount detection unit that detects a second feature amount of the specific character string from the learning data belonging to the second level, and a second feature amount detection unit.
  • a difference detection unit that detects a difference between the first feature amount and the second feature amount, When the difference is equal to or greater than the threshold value, a selection unit for selecting learning data of the item to which the specific character string belongs is provided.
  • the information processing method is learning data composed of a plurality of items, and is leveled into a first level and a second level having a higher threat level than the first level.
  • Get training data The first feature amount of a specific character string is detected from the learning data belonging to the first level, and the first feature amount is detected.
  • the second feature amount of the specific character string is detected from the learning data belonging to the second level, and the second feature amount is detected.
  • a difference is detected between the first feature amount and the second feature amount, and the difference is detected. When the difference is equal to or greater than the threshold value, the learning data of the item to which the specific character string belongs is selected.
  • the program non-transitory computer-readable medium is learning data composed of a plurality of items, and is a first level and a second level having a higher threat level than the first level. And the process of acquiring the learning data leveled to The process of detecting the first feature amount of a specific character string from the learning data belonging to the first level, and The second feature amount of the specific character string is detected from the learning data belonging to the second level, and the second feature amount is detected. A process of detecting a difference between the first feature amount and the second feature amount, and When the difference is equal to or greater than the threshold value, the computer is made to execute the process of selecting the learning data of the item to which the specific character string belongs.
  • an information processing device a threat information evaluation system, an information processing method and a program capable of appropriately selecting learning data including a character string that can contribute to threat leveling.
  • FIG. It is a block diagram which shows the structure of the information processing apparatus which concerns on Embodiment 1.
  • FIG. It is a block diagram which shows the whole structure of the threat information evaluation system which concerns on Embodiment 2.
  • It is a flowchart which shows the processing flow of the data collection server at the time of learning.
  • It is a flowchart which shows the learning process flow of a learning part.
  • An example of log data of a security device and an example of corresponding packet data are shown.
  • This is an example of a learning data table in which the log data and packet data of FIG. 5 are merged.
  • It is a flowchart which shows the processing flow which selects the characteristic column from all the columns which concerns on Embodiment 2.
  • FIG. 1 is a block diagram showing a configuration of an information processing apparatus according to the first embodiment.
  • the information processing device 100 is an acquisition unit 101 that acquires learning data composed of a plurality of items and is leveled to a first level and a second level having a higher threat level than the first level.
  • the first feature amount detecting unit 102 that detects the first feature amount of the specific character string from the learning data belonging to the first level, and the specific character string from the learning data belonging to the second level.
  • the selection unit 105 for selecting the learning data of the item to which the specific character string belongs is provided.
  • the items mentioned here are various types of threat information (learning data) output from security systems (for example, IDS (Intrusion Detection System), firewalls, etc.) that prevent unauthorized access to computers and networks in the organization from the outside. It can be an item of.
  • security systems for example, IDS (Intrusion Detection System), firewalls, etc.
  • IDS Intrusion Detection System
  • firewalls etc.
  • the item may also be called a column or a tuple.
  • Learning data is threat information that has been pre-leveled by analysts and the like.
  • the threat level includes at least two levels, but the number of levels can be set arbitrarily.
  • the threat information can include, for example, a communication log and a packet accompanying the communication log.
  • the character string in the present specification can include one or more letters, symbols, words, numbers, and combinations thereof.
  • the feature amount can be, for example, frequency information, but is not limited to this.
  • Embodiment 2 It is a block diagram which shows the whole structure of the threat information evaluation system which concerns on Embodiment 2.
  • the threat information evaluation system 1 according to the present embodiment can be applied to supervised machine learning for setting a threat level for a huge amount of threat information (for example, a communication log or a packet accompanying the communication log).
  • the threat level given by the analyst to the threat information can be the teacher label.
  • Machine learning is performed based on such a large amount of threat information and a large number of pairs of threat levels.
  • the threat information evaluation system 1 can automatically select the feature amount to be used during such supervised learning.
  • the machine learning algorithm according to the present embodiment can determine which information should be extracted from the huge amount of threat information, or which information should be extracted for each company or each era.
  • the threat information evaluation system 1 includes an SOC (Security Operation Center) 10 and a monitored customer environment 20.
  • SOC 10 and the monitored customer environment 20 are connected to each other via a network.
  • Examples of the network referred to here include a local area network (LAN) and a wide area network (WAN), for example, the Internet.
  • LAN local area network
  • WAN wide area network
  • the monitored customer environment 20 is composed of computers and servers of various organizations such as companies and organizations. As shown in FIG. 2, the monitored customer environment 20 may include, for example, company A, company B, and company C. In the monitored customer environment 20, when a communication device such as a computer or a server detects suspicious communication in terms of security, each computer of each company transmits a communication log and a packet accompanying the communication log to the SOC 10.
  • a communication device such as a computer or a server detects suspicious communication in terms of security
  • each computer of each company transmits a communication log and a packet accompanying the communication log to the SOC 10.
  • the SOC10 receives, for example, communication logs and packets as threat information from communication devices installed in the monitored customer environment 20, and sets threat levels for the logs and packets.
  • the SOC 10 includes a data collection server 130, one or more PCs (Personal Computer) 140 for analysts, and an automatic analysis server 100.
  • the automatic analysis server 100 is an example of the information processing device described in the first embodiment.
  • the data collection server 130 can receive threat information from each company and manage the threat information for each company separately.
  • the data collection server 130 can send all or part of the collected threat information to the analyst's PC 140 and request the analyst to level the threat.
  • the analyst manually sets the threat level for the threat information sent to the PC140. Specifically, analysts can look at logs and packets to level threats. As a result, the threat leveling result (learning data) in which the correct answer data is associated with the threat information is collected in the data collection server 130. The data collection server 130 transmits the threat leveling result to the learning unit 120 of the automatic analysis server 100.
  • the learning unit 120 of the automatic analysis server 100 receives the threat leveling result as learning data from the data collection server 130. Further, the learning unit 120 can automatically learn when sufficient learning data is accumulated and generate a learning model for use in the automatic analysis of threat leveling.
  • the automatic analysis server 100 stores the learning model thus generated in a storage unit inside the server or an external storage unit connected via a network. Although the details will be described later, the learning unit 120 can automatically select the feature amount from the learning data when a certain amount or more of the learning data is accumulated.
  • the prediction unit 110 of the automatic analysis server 100 can automatically label the threat information sent from each company via the data collection server 130 by using the learning model stored in the storage unit.
  • the data collection server 130 can appropriately send new threat information to the PC 140 in order to request analysts to level the threat. For example, threat information above a certain level requires labeling by an analyst. In this way, the manual threat leveling result is transmitted to the learning unit 120 of the automatic analysis server 100 via the data collection server 130. In this way, the learning unit 120 can periodically collect new learning data with threat leveling, relearn based on the updated learning data, and regenerate the learning model.
  • the automatic analysis server 100 and the data collection server 130 have been described as separate units, but these may be integrated servers. Further, the learning unit 120 and the prediction unit 110 of the automatic analysis server 100 may be executed by separate servers.
  • FIG. 3 is a flowchart showing the operation of the data collection server during learning.
  • the data collection server 130 collects threat information (for example, a security log and a packet accompanying the security log) from each company (step S11).
  • the data collection server 130 may manage threat information for each company or for each predetermined period (for example, one year).
  • the data collection server 130 transmits all or a part of the collected threat information to the analyst PC 140, and requests the analyst to level the threat (step S12).
  • the data collection server 130 receives the threat leveling result (step S13). After that, the data collection server 130 transmits the threat leveling result as learning data to the learning unit 120 of the automatic analysis server 100 (step S14).
  • FIG. 4 is a flowchart showing the learning process of the learning unit.
  • the learning unit 120 acquires the threat leveling result as learning data from the data collection server 130 (step S101).
  • This learning data includes a plurality of items of threat information output by the security system. That is, such learning data can be represented by a learning table in which a plurality of items are columns and one threat information is a row. Each line contains a threat level item.
  • the threat level can be multiple levels. If the learning unit 120 can acquire the learning data (YES in step S102) and the amount of data is sufficient (YES in step S103), the difference in the feature amount between the levels in the learning data is large (for example,).
  • the learning unit 120 adjusts the hyperparameters (step S104).
  • the learning unit 120 converts the selected column into a numerical value using a feature amount (for example, frequency information).
  • the learning unit 120 performs machine learning based on the feature quantities selected and quantified in this way (step S106).
  • the learning model generated in this way is stored in a storage unit or the like of the learning unit.
  • weighting of the features may be changed according to the difference between the features detected between the levels. For example, when the difference is relatively large, the weighting of the feature amount may be increased as an important column. On the other hand, when the difference is relatively small, the weighting of the feature amount may be reduced as mere reference information.
  • FIG. 5 shows an example of log data of a communication device and an example of packet data corresponding thereto.
  • FIG. 6 is an example of a learning data table in which the log data and packet data of FIG. 5 are merged. Each column of the learning data table shown in FIG. 6 may be referred to as an item in the present specification.
  • the frequency information of the character string appearing in each column of the learning data table generated in this way can be used as the feature amount.
  • X before (destinationPort frequency information, deviceEventCategory frequency information,..., User-Agent frequency information, Host frequency information, etc.
  • X after (deviceEventCategory frequency information,..., User-Agent frequency information, etc.
  • FIG. 7 is a flowchart showing a processing flow for selecting a characteristic column from all the columns according to the second embodiment.
  • An arbitrary one column is extracted from all the columns of the training data table (step S21).
  • An algorithm for automatic feature selection processing (described later in FIG. 8) is independently executed on the extracted columns.
  • the effectiveness of the extracted column that is, whether or not the column can contribute to threat leveling is confirmed (step S22).
  • step S23 it is confirmed whether or not there is a column whose effectiveness has not been confirmed. If unconfirmed columns remain (YES in step S23), the processes of steps S21 and S22 are repeated.
  • all the extracted columns are selected as feature quantities (step S24).
  • FIG. 8 is a flowchart showing the feature amount automatic selection processing flow according to the second embodiment.
  • frequency information of various character strings is detected for each level (step S201). It is determined whether the frequency information of the character strings detected within the same level is equal to or higher than the threshold value (step S202). If the frequency information of the character string detected in the level is less than the threshold value (NO in step S202), it is interpreted that the character string has no regularity. The column interpreted in this way is not used as a feature and the process ends.
  • step S202 if the frequency information of the character strings detected within the same level is equal to or higher than the threshold value (YES in step S202), it is interpreted that the character strings have regularity.
  • step S203 it is determined whether or not there is a difference equal to or greater than the threshold value in the frequency information of the same character string detected between different levels. If the frequency information of the character strings detected between different levels does not differ by more than a threshold value (NO in step S203), the character string is interpreted as not a feature that can contribute to threat leveling. The column interpreted in this way is not used as a feature and the process ends.
  • the column (item) having the difference is selected as a feature (step S204). ..
  • the column containing the character string may be selected as a feature.
  • a column containing the plurality of character strings may be selected as a feature. A larger weight may be given to a column containing a large number of character strings.
  • FIG. 9 is a diagram specifically explaining the automatic selection of the feature amount.
  • the training data is threat-leveled so that the first row is level 1 and the second row is level 2. These threat leveling is done by analysts in advance.
  • the packet data from which the column is generated is http.
  • FIG. 9 shows frequency information of various character strings detected for each column from the training data. The process of executing this algorithm for each column and selecting the characteristic column will be described in detail below.
  • one character string "55202” and one character string “29766” were detected at level 1. Further, at level 2, one character string "16027” and one character string “39777” are detected. That is, in the level 1 class, both the character string “55202” and the character string “29766” are detected one by one that is less than the threshold value (for example, 5 cases), and the frequency information is not biased and has no regularity. .. Similarly, in the level 2 class, the character string "16027” and the character string “39777” are both detected one by one below the threshold value (for example, 5 cases), and the frequency information is not biased and has no regularity. .. Therefore, the sourcePort column is interpreted as unusable as a feature that can contribute to threat leveling. Therefore, the data in the sourcePort column can be excluded from the training data.
  • the http_user_agent column is interpreted as a feature that can contribute to threat leveling.
  • the column of http_user_agent from which two character strings "Mozilla” and "python-requests" were extracted was selected as a feature, but the column from which only one character string was extracted was selected as a feature. May be good.
  • a column in which a predetermined number or more of character strings are extracted may be selected as a feature.
  • the http_host column is interpreted as a feature that can contribute to threat leveling.
  • the http_host column from which the three character strings "www.normal1.com", “www.malicious1.com”, and “www.malicious2.com” were extracted was selected as a feature, but one A column in which only a character string is extracted may be selected as a feature. Alternatively, a column in which a predetermined number or more of character strings are extracted may be selected as a feature.
  • the learning unit can automatically select the http_user_agent column and the http_host column as the feature amount at the time of learning.
  • unnecessary data such as the sourcePort column and the http_response_content_type column can be excluded from the training data, so that the calculation cost for subsequent machine learning and the like can be reduced.
  • the gist of the present invention is also applicable to the case of three or more threat levels. For example, if there are three threat levels, the difference between each level, that is, the difference between level 1 and level 2, level 1 and level 3, and level 2 and level 3, may be calculated respectively. By calculating the difference between all levels in this way, more appropriate learning data can be selected.
  • the frequency information is compared for all the character strings with the same weighting, but for a specific character string, the weighting may be increased or decreased.
  • the frequency information of the character string is used as the feature amount
  • the difference between the frequency information of one character string and the frequency information of another character string may be used as the feature amount
  • the learning unit 120 uses machine learning as learning data for threat leveling results for threat information from a specific company (for example, company A) or only a specific industry, thereby performing machine learning on the specific company or a specific industry. You can learn the attack tendency. That is, the data collection server 130 may classify the learning data for each company or each industry and provide the learning data to the learning unit 120.
  • the learning unit 120 can use the learning data as learning data to machine-learn the threat leveling results for threat information from organizations such as various companies (for example, companies A, B, C, etc.) and organizations, thereby providing the company or industry. Regardless, you can learn the overall attack tendency.
  • organizations such as various companies (for example, companies A, B, C, etc.) and organizations, thereby providing the company or industry. Regardless, you can learn the overall attack tendency.
  • the learning unit 120 can learn the attack tendency of the predetermined period by machine learning using the threat leveling result as the learning data for the threat information of the predetermined period (for example, for the past one year). it can.
  • FIG. 10 is a flowchart showing a feature amount automatic selection processing flow according to the third embodiment.
  • a combination of columns can be incorporated as a target for automatic feature quantity selection.
  • One column is extracted from all the columns of the training data table (step S31). That is, the algorithm for automatic feature selection processing (see FIG. 8) is executed independently for each column. Then, the effectiveness of the extracted column, that is, whether or not the column contributes to threat leveling is confirmed (step S32). Next, it is confirmed whether or not there is a column whose effectiveness has not been confirmed (step S33). If unconfirmed columns remain (YES in step S33), the processes of steps S31 and S32 are repeated.
  • one combination with columns of the same level is extracted (step S34). For example, since destinationPort alone does not know whether it is udp or tcp, the combination of destinationPort and transportProtocol may be extracted. These combinations may be extracted based on a combination rule predetermined by advice from an analyst. That is, a combination of columns having a high correlation may be extracted. In this case, the combination of such columns may be added to the training data table in advance as a new column (for example, destinationPort_transportProtocol).
  • step S35 Execute the algorithm for the extracted column combinations between the same levels and check the effectiveness (step S35). That is, as described above in FIG. 8, the frequency information of the character string combination is detected for the extracted combination.
  • the combination of the character strings to be detected may be "55202_text / html" or "55202_text / plain”.
  • step S36 the processes of steps S34 and S35 are repeated.
  • step S37 the extracted column and the combination of the columns are selected as the feature amount (step S37).
  • the learning unit 120 extracts a predetermined combination of columns (for example, a combination of columns having a high correlation), but the learning unit 120 is predetermined by an analyst. You may acquire the training data table which added the combination of the column.
  • FIG. 11 is a flowchart showing a prediction processing flow according to the fourth embodiment.
  • the prediction unit 110 of the automatic analysis server 100 receives a security log and a packet associated therewith as threat information from each company via the data collection server 130.
  • the prediction unit 110 determines whether the received threat information is business communication or attack communication (step S41). Whether it is business communication or attack communication can be determined using existing technology. If it is determined that the threat information is attack communication (YES in step S42), the prediction unit 110 performs threat leveling using the learning model generated by learning as described above (step S43). ). On the other hand, if it is determined that the threat information is not attack communication (NO in step S42), the threat leveling is not performed and the process ends.
  • the prediction unit 110 may automatically perform prediction processing based on the learning model, but threat information with a high security level may not be predicted from known learning data. Therefore, it is preferable that the threat information above the predetermined level is threat-leveled by an analyst, the threat-leveling result is sent to the learning unit again, and the learning model is updated.
  • FIGS. 3, 4, 7, 8, 10, and 11 show the specific order of execution, but the order of execution may be different from the drawn form.
  • the order of execution of two or more steps may be swapped with respect to the indicated order.
  • the two or more steps shown consecutively in the flowchart may be performed simultaneously or partially simultaneously. Further, in some embodiments, one or more steps shown in the flowchart may be skipped or omitted.
  • FIG. 12 is a block diagram showing a hardware configuration example of the servers 100, 130, and PC 140 in this embodiment.
  • the servers 100, 130, and PC 140 of the present embodiment are computers having a CPU (Central Processing Unit) 201, a RAM (Random access memory) 202, a ROM (Read Only Memory) 203, and the like.
  • the CPU 201 performs calculations and controls according to software stored in the RAM 202, the ROM 203, or the hard disk 204.
  • the RAM 202 is used as a temporary storage area when the CPU 201 executes various processes.
  • the hard disk 204 stores an operating system (OS), a registration program, and the like.
  • OS operating system
  • the display 205 is composed of a liquid crystal display and a graphic controller, and the display 205 displays objects such as images and icons, a GUI, and the like.
  • the input unit 206 is a device for the user to give various instructions to the terminal device 200, and is composed of, for example, a mouse, a keyboard, a touch panel, and the like.
  • the I / F (interface) unit 207 can control wireless LAN communication and wired LAN communication corresponding to standards such as IEEE802.11a, and is based on a protocol such as TCP / IP via the same communication network and the Internet. Communicate with external devices.
  • the system bus 208 controls the exchange of data with the CPU 201, the RAM 202, the ROM 203, the hard disk 204, and the like.
  • Non-temporary computer-readable media include various types of tangible storage media.
  • Examples of non-temporary computer-readable media include magnetic recording media, magneto-optical recording media (eg, magneto-optical disks), CD-ROMs (Read Only Memory), CD-Rs, CD-R / Ws, and semiconductor memories.
  • the magnetic recording medium may be, for example, a flexible disk, a magnetic tape, or a hard disk drive.
  • the semiconductor memory may be, for example, a mask ROM, a PROM (Programmable ROM), an EPROM (Erasable PROM), a flash ROM, or a RAM (Random Access Memory).
  • the program may also be supplied to the computer by various types of temporary computer readable medium.
  • temporary computer-readable media include electrical, optical, and electromagnetic waves.
  • the temporary computer-readable medium can supply the program to the computer via a wired communication path such as an electric wire and an optical fiber, or a wireless communication path.
  • An acquisition unit that acquires learning data composed of a plurality of items and is leveled to a first level, a second level having a higher threat level than the first level, and an acquisition unit.
  • a first feature amount detection unit that detects a first feature amount of a specific character string from the learning data belonging to the first level, and a first feature amount detection unit.
  • a second feature amount detection unit that detects a second feature amount of the specific character string from the learning data belonging to the second level, and a second feature amount detection unit.
  • a difference detection unit that detects a difference between the first feature amount and the second feature amount,
  • An information processing device including a selection unit for selecting learning data of an item to which the specific character string belongs when the difference is equal to or greater than a threshold value.
  • (Appendix 2) The information processing apparatus according to Appendix 1, wherein the feature amount is frequency information.
  • (Appendix 3) The information processing apparatus according to Appendix 1 or 2, wherein the first feature amount and the second feature amount are equal to or more than a threshold value.
  • (Appendix 4) The information processing apparatus according to any one of Supplementary note 1 to 3, wherein when the learning data is leveled to three or more levels, the difference detection unit extracts the difference between the levels.
  • (Appendix 5) The information processing apparatus according to any one of Supplementary note 1 to 4, wherein the acquisition unit acquires learning data classified for each organization.
  • (Appendix 6) The information processing device according to any one of Supplementary note 1 to 5, wherein the acquisition unit periodically acquires learning data that has been threat-leveled by an analyst.
  • the first feature amount detection unit detects the first feature amount of a specific character string from the learning data belonging to the first level and belonging to a specific item.
  • the first feature amount detection unit belongs to the second level and detects the first feature amount of the specific character string from the learning data belonging to the specific item, any one of Supplementary notes 1 to 6.
  • the information processing device described in the section. (Appendix 8) The information processing apparatus according to any one of Supplementary note 1 to 7, wherein the acquisition unit acquires the learning data including a combination of predetermined items among a plurality of items.
  • (Appendix 9) The information processing device according to any one of Supplementary note 1 to 8, wherein the learning data includes communication log data and packets accompanying the communication log data.
  • Appendix 10 The information processing apparatus according to any one of Appendix 1 to 9, further comprising a learning unit that performs machine learning using the learning data of the selected item.
  • Appendix 11 The information processing apparatus according to Appendix 10, further comprising a prediction unit that sets a threat level of threat information based on a learning model generated by the learning unit.
  • Appendix 12 Further provided with a discriminating unit for discriminating whether the threat information is business communication or attack communication.
  • the information processing device according to Appendix 11, wherein the prediction unit sets a threat level for threat information determined by the determination unit as an attack communication.
  • (Appendix 13) A data collection server that collects threat information from the outside, A computer for analysts to perform threat leveling on the collected threat information, The information processing device according to any one of Appendix 1 to 12 and A threat information evaluation system equipped with.
  • (Appendix 14) Learning data composed of a plurality of items, which is leveled to a first level and a second level having a higher threat level than the first level, is acquired. The first feature amount of a specific character string is detected from the learning data belonging to the first level, and the first feature amount is detected. The second feature amount of the specific character string is detected from the learning data belonging to the second level, and the second feature amount is detected. A difference is detected between the first feature amount and the second feature amount, and the difference is detected.
  • An information processing method for selecting learning data of an item to which the specific character string belongs when the difference is equal to or greater than a threshold value (Appendix 15) A process of acquiring learning data composed of a plurality of items, which is leveled to a first level and a second level having a higher threat level than the first level. The process of detecting the first feature amount of a specific character string from the learning data belonging to the first level, and The second feature amount of the specific character string is detected from the learning data belonging to the second level, and the second feature amount is detected.
  • a process of detecting a difference between the first feature amount and the second feature amount and A program that causes a computer to execute a process of selecting learning data of an item to which the specific character string belongs when the difference is equal to or greater than a threshold value.
  • (Appendix 16) Collect threat information from the outside At least a portion of the collected threat information is sent to a computer for the analyst to level the threat and As a result of threat leveling by the computer, learning data composed of a plurality of items, which is leveled to a first level and a second level having a higher threat level than the first level, is obtained. Acquired, The first feature amount of a specific character string is detected from the learning data belonging to the first level, and the first feature amount is detected.
  • the second feature amount of the specific character string is detected from the learning data belonging to the second level, and the second feature amount is detected.
  • a difference is detected between the first feature amount and the second feature amount, and the difference is detected.
  • An information processing method for selecting learning data of an item to which the specific character string belongs when the difference is equal to or greater than a threshold value. (Appendix 17) The process of collecting threat information from the outside and The process of sending at least part of the collected threat information to a computer for the analyst to level the threat, As a result of threat leveling by the computer, learning data composed of a plurality of items, which is leveled to a first level and a second level having a higher threat level than the first level, is obtained.
  • Threat information evaluation system 10 SOC 20 Monitored customer environment 100 Automatic analysis server 101 Acquisition unit 102 First feature amount detection unit 103 Second feature amount detection unit 104 Difference detection unit 105 Selection unit 120 Prediction unit 130 Data collection server 140 PC

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

情報処理装置(100)は、複数の項目からなる学習データであって、第1のレベルと、前記第1のレベルより脅威レベルの高い第2のレベルにレベル付けされた学習データを取得する取得部(101)と、前記第1のレベルに属する学習データから特定の文字列の第1の特徴量を検出する第1の特徴量検出部(102)と、前記第2のレベルに属する学習データから前記特定の文字列の第2の特徴量を検出する第2の特徴量検出部(103)と、前記第1の特徴量と前記第2の特徴量との間に差分を検出する差分検出部(104)と、前記差分がある場合は、前記特定の文字列が属する項目の学習データを選択する選択部(105)と、を備える。

Description

情報処理装置、脅威情報評価システム、情報処理方法および非一時的なコンピュータ可読媒体
 本発明は、情報処理装置、脅威情報評価システム、情報処理方法および非一時的なコンピュータ可読媒体に関する。
  セキュリティ運用者(例えば、SOC(Security Operation Center))は会社等の組織から脅威情報(例えば、電子機器のログやそれに付随するパケット)を受け取り、膨大な脅威情報を主に人手で脅威レベル付けを行っている。しかし、受け取る脅威情報は膨大で、人手での手動解析や脅威レベル付けには限界がある。これに対して、膨大な脅威情報に対して自動で脅威レベル付けする方法が存在する。
 特許文献1には、攻撃と判定された通信のアクセスログにおけるパラメータ同士の共通した文字列を抽出する抽出部と、前記抽出部によって抽出された連続する文字列のうち、文字列長が所定の文字列長以上の文字列を基に攻撃パターンを生成する攻撃パターン生成部とを備えた攻撃パターン抽出装置が開示されている。
国際公開第2018/159361号
 しかしながら、上記した先行技術文献では、脅威レベル付けに必要な文字列を含む学習データを適切に選択することができない。
 本発明は、このような問題点を解決するためになされたものであり、脅威レベル付けに寄与し得る文字列を含む学習データを適切に選択することができる、情報処理装置、脅威情報評価システム、情報処理方法およびプログラムを提供することを目的とする。
 本開示の第1の態様にかかる情報処理装置は、複数の項目からなる学習データであって、第1のレベルと、前記第1のレベルより脅威レベルの高い第2のレベルにレベル付けされた学習データを取得する取得部と、
 前記第1のレベルに属する学習データから特定の文字列の第1の特徴量を検出する第1の特徴量検出部と、
 前記第2のレベルに属する学習データから前記特定の文字列の第2の特徴量を検出する第2の特徴量検出部と、
 前記第1の特徴量と前記第2の特徴量との間に差分を検出する差分検出部と、
 前記差分が閾値以上ある場合は、前記特定の文字列が属する項目の学習データを選択する選択部と、を備える。
 本開示の第2の態様にかかる情報処理方法は、複数の項目からなる学習データであって、第1のレベルと、前記第1のレベルより脅威レベルの高い第2のレベルにレベル付けされた学習データを取得し、
 前記第1のレベルに属する学習データから特定の文字列の第1の特徴量を検出し、
 前記第2のレベルに属する学習データから前記特定の文字列の第2の特徴量を検出し、
 前記第1の特徴量と前記第2の特徴量との間に差分を検出し、
 前記差分が閾値以上ある場合は、前記特定の文字列が属する項目の学習データを選択する。
 本開示の第3の態様にかかるプログラム非一時的なコンピュータ可読媒体は、複数の項目からなる学習データであって、第1のレベルと、前記第1のレベルより脅威レベルの高い第2のレベルにレベル付けされた学習データを取得する処理と、
 前記第1のレベルに属する学習データから特定の文字列の第1の特徴量を検出する処理と、
 前記第2のレベルに属する学習データから前記特定の文字列の第2の特徴量を検出し、
 前記第1の特徴量と前記第2の特徴量との間に差分を検出する処理と、
 前記差分が閾値以上ある場合は、前記特定の文字列が属する項目の学習データを選択する処理と、をコンピュータに実行させる。
 本開示により、脅威レベル付けに寄与し得る文字列を含む学習データを適切に選択することができる、情報処理装置、脅威情報評価システム、情報処理方法およびプログラムを提供することができる。
実施の形態1にかかる情報処理装置の構成を示すブロック図である。 実施の形態2にかかる脅威情報評価システムの全体構成を示すブロック図である。 学習時のデータ収集サーバの処理フローを示すフローチャートである。 学習部の学習処理フローを示すフローチャートである。 セキュリティ機器のログデータの例と、それに対応するパケットデータの例を示す。 図5のログデータとパケットデータをマージした学習データテーブルの例である。 実施の形態2にかかる全カラムから特徴となるカラムを選択する処理フローを示すフローチャートである。 実施の形態2にかかる特徴量自動選択処理フローを示すフローチャートである。 特徴量の自動選択を具体的に説明する図である。 実施の形態3にかかる特徴量自動選択処理フローを示すフローチャートである。 実施の形態4にかかる予測処理フローを示すフローチャートである。 サーバ100,130,およびPC140のハードウェア構成例を示すブロック図である。
 (実施の形態1)
 図1は、実施の形態1にかかる情報処理装置の構成を示すブロック図である。
 情報処理装置100は、複数の項目からなる学習データであって、第1のレベルと、前記第1のレベルより脅威レベルの高い第2のレベルにレベル付けされた学習データを取得する取得部101と、前記第1のレベルに属する学習データから特定の文字列の第1の特徴量を検出する第1の特徴量検出部102と、前記第2のレベルに属する学習データから前記特定の文字列の第2の特徴量を検出する第2の特徴量検出部103と、前記第1の特徴量と前記第2の特徴量との間に差分を検出する差分検出部104と、前記差分がある場合は、前記特定の文字列が属する項目の学習データを選択する選択部105と、を備える。
 ここでいう項目は、組織内のコンピュータやネットワークを、外部からの不正なアクセスを防止するセキュリティシステム(例えば、IDS(Intrusion Detection System)、ファイアウォールなど)から出力される脅威情報(学習データ)の各種の項目とすることができる。なお、項目は、カラム又はタプルとも呼ばれる場合がある。
 学習データは、アナリストなどによって予め脅威レベル付けされている脅威情報である。脅威レベルは、少なくとも2つのレベルを含むが、レベルの数は任意に設定することができる。脅威情報は、例えば、通信ログや、通信ログに付随するパケットを含むことができる。
 本明細書における文字列は、1以上の文字、記号、単語、数字、およびそれらの組合せを含むことができる。
 特徴量は、例えば、頻度情報とすることができるが、これに限定されない。
 以上説明した本実施の形態にかかる情報処理装置によれば、脅威レベル付けに寄与し得る文字列を含む学習データを適切に選択することができる。
 (実施の形態2)
 実施の形態2にかかる脅威情報評価システムの全体構成を示すブロック図である。
 本実施の形態にかかる脅威情報評価システム1は、膨大な脅威情報(例えば、通信のログやそれに付随するパケットなど)に対して脅威レベル付けするための、教師あり機械学習に適用可能である。脅威情報に対するアナリストにより付けられた脅威レベルを教師ラベルとすることができる。こうした、膨大な脅威情報と脅威レベルとの大量のペアに基づき、機械学習が行われる。なお、詳細は後述するが、脅威情報評価システム1は、こうした教師あり学習時に使用する特徴量を自動で選択することができる。言い換えると、本実施の形態による機械学習アルゴリズムは、膨大な脅威情報の中から、どの情報を抽出すべきか、又は、会社毎や時代毎にどの情報を抽出すべきかを決定することができる。
 図2を参照して、本脅威情報評価システムの全体構成を説明する。
 図2に示すように、脅威情報評価システム1は、SOC(Security Operation Center)10と監視対象顧客環境20を備える。SOC10と監視対象顧客環境20は、ネットワークを介して互いに接続されている。ここでいうネットワークの例としては、ローカルエリアネットワーク(local area network、LAN)、及びワイドエリアネットワーク(wide area network、WAN)、例えば、インターネットを挙げることができる。
 監視対象顧客環境20は、会社、団体などの様々な組織のコンピュータやサーバから構成される。図2に示すように、監視対象顧客環境20は、例えば、会社A、会社B、及び会社Cを含み得る。監視対象顧客環境20では、コンピュータやサーバなどの通信機器がセキュリティ上、怪しい通信を検知すると、各会社の各コンピュータは、通信ログおよびそれに付随するパケットをSOC10に送信する。
 SOC10は、監視対象顧客環境20に設置されている通信機器から、脅威情報として、例えば、通信ログとパケットを受け取り、ログおよびパケットに対する脅威レベル付けを行う。具体的には、SOC10は、データ収集サーバ130と、アナリスト用の1つ以上のPC(Personal Computer)140と、自動解析サーバ100と、を備える。なお、自動解析サーバ100は、上記実施の形態1で説明した情報処理装置の一例である。
 データ収集サーバ130は、各会社から脅威情報を受け取り、会社毎の脅威情報を別々に管理することができる。データ収集サーバ130は、収集された脅威情報の全て又は一部をアナリスト用のPC140に送信し、アナリストに脅威レベル付けを要求することができる。
 アナリストは、PC140に送られた脅威情報に対して、手動による脅威レベル付けを行う。具体的には、アナリストはログとパケットを見て、脅威レベル付けを行うことができる。これにより、脅威情報に対して正解データを紐付けた脅威レベル付け結果(学習データ)がデータ収集サーバ130に収集される。データ収集サーバ130は、脅威レベル付け結果を自動解析サーバ100の学習部120に送信する。
 自動解析サーバ100の学習部120は、データ収集サーバ130から脅威レベル付け結果を学習データとして受信する。さらに学習部120は、十分な学習データを蓄積した場合、自動的に学習し、脅威レベル付けの自動解析に用いるための学習モデルを生成することができる。自動解析サーバ100は、こうして生成された学習モデルを、サーバ内部の記憶部又はネットワークを介して接続された外部記憶部に記憶させる。なお、詳細は後述するが、学習部120は、一定量以上の学習データが蓄積された場合、学習データの中から、特徴量を自動的に選択することができる。
 自動解析サーバ100の予測部110は、上記記憶部に記憶された学習モデルを用いて、各会社からデータ収集サーバ130を介して送られた脅威情報を自動的にラベル付けすることができる。
 しかしながら、脅威情報や攻撃パターンも日々進化するため、データ収集サーバ130は、適宜、アナリストに脅威レベル付けを要求すべく、新たな脅威情報をPC140に送信することができる。例えば、所定レベル以上の脅威情報は、アナリストによるラベル付けを必要とする。こうして、人手による脅威レベル付け結果は、データ収集サーバ130を介して、自動解析サーバ100の学習部120に送信される。このように、学習部120は、定期的に、脅威レベル付けされた新たな学習データを収集し、更新した学習データを基づいて、再学習し、学習モデルを再生成することができる。
 なお、上記した例では、自動解析サーバ100とデータ収集サーバ130は別体として説明したが、これらは、一体型のサーバであってもよい。また、自動解析サーバ100の学習部120と予測部110は、別々のサーバによって実行されてもよい。
 図3は、学習時のデータ収集サーバの動作を示すフローチャートである。
 データ収集サーバ130は、各会社から脅威情報(例えば、セキュリティログ及びそれに付随するパケット)を収集する(ステップS11)。データ収集サーバ130は、会社毎に、又は所定の期間(例えば、1年)毎に脅威情報を管理してもよい。データ収集サーバ130は、収集された脅威情報の全て又は一部を、アナリスト用のPC140に送信して、アナリストに脅威レベル付けを要求する(ステップS12)。アナリストによる脅威レベル付けが完了すると、データ収集サーバ130は、脅威レベル付け結果を受信する(ステップS13)。その後、データ収集サーバ130は、自動解析サーバ100の学習部120に脅威レベル付け結果を学習データとして送信する(ステップS14)。
 図4は、学習部の学習処理を示すフローチャートである。
 学習部120は、データ収集サーバ130から脅威レベル付け結果を学習データとして取得する(ステップS101)。この学習データは、セキュリティシステムが出力する脅威情報の複数の項目を含むものである。すなわち、こうした学習データは、複数の項目を列(カラム)とし、1つの脅威情報を行とした学習テーブルで表すことができる。各行には、脅威レベル項目が含まれている。脅威レベルは、複数のレベルであり得る。学習部120は、学習データを取得でき(ステップS102でYES)、かつ、十分なデータ量である場合は(ステップS103でYES)、学習データ内でレベル間の特徴量の差が大きい(例えば、特徴量の差が閾値以上である)場合は、その差分の大きい部分の項目(カラム)を特徴として選択する(ステップS104)。本ステップの詳細(学習時の特徴量の自動選択処理)については、後述する。次に、学習部120は、ハイパーパラメータを調整する(ステップS104)。学習部120は、選択されたカラムを、特徴量(例えば、頻度情報)を用いて数値に変換する。その後、学習部120は、こうして選択され、数値化された特徴量を基づいて、機械学習を行う(ステップS106)。こうして生成された学習モデルは、学習部の記憶部等に記憶される。
 なお、レベル間で検出された特徴量の差分に応じて、特徴量の重み付けを変えてもよい。例えば、差分が比較的大きい場合は、重要なカラムとして、特徴量の重み付けを大きくしてもよい。一方、差分が比較的小さい場合は、単なる参考情報として、特徴量の重み付けを小さくしてもよい。
 次に、学習時の特徴量の自動選択処理について説明する。
 図5は、通信機器のログデータの例と、それに対応するパケットデータの例を示す。図6は、図5のログデータとパケットデータをマージした学習データテーブルの例である。なお、図6に示す学習データテーブルの各カラムは、本明細書において、項目と呼ばれる場合がある。
 このように生成された学習データテーブルの各カラムに出現する文字列の頻度情報を特徴量とすることができる。例えば、特徴量はX=(sourcePortの頻度情報,deviceEventCategoryの頻度情報,…,User-Agentの頻度情報,Hostの頻度情報,…)と表すことができる。
 通常の特徴量は、全カラムの頻度情報を使用する。しかし、脅威レベルを予測するために不要な情報まで特徴量に含まれると、予測精度が低下してしまう。そこで、本実施の形態では、脅威レベル付けに寄与し得るカラム(項目)のみを特徴量として選択する。例えば、全カラムの頻度情報をXbeforeとすると、本アルゴリズムを実行することで選択される、脅威レベル付けに寄与するカラム(項目)をXafterと表すことができる。
 Xbefore=(destinationPortの頻度情報,deviceEventCategoryの頻度情報,…,User-Agentの頻度情報,Hostの頻度情報,…)
 Xafter=(deviceEventCategoryの頻度情報,…,User-Agentの頻度情報,…)
 以下、図7、8,9を参照して、特徴量の自動選択を説明する。
 図7は、実施の形態2にかかる全カラムから特徴となるカラムを選択する処理フローを示すフローチャートである。
 学習データテーブルの全カラムから任意の1つのカラムを抽出する(ステップS21)。抽出したカラムに対して、独立して特徴量自動選択処理のアルゴリズム(図8で後述)を実行する。そして、抽出されたカラムの有効性、すなわち、当該カラムが脅威レベル付けに寄与し得るか否かを確認する(ステップS22)。次に、有効性を確認していないカラムが残っているか否かを確認する(ステップS23)。未確認のカラムが残っている場合は(ステップS23でYES)、ステップS21およびステップS22の処理を繰り返す。全てのカラムの有効性を確認後(ステップS23でNO)、抽出された全てのカラムを特徴量として選択する(ステップS24)。
 図8は、実施の形態2にかかる特徴量自動選択処理フローを示すフローチャートである。
 学習データテーブルの抽出されたカラムに対して、レベル毎に様々な文字列の頻度情報を検出する(ステップS201)。同一のレベル内で検出された文字列の頻度情報が閾値以上かを判定する(ステップS202)。レベル内で検出された文字列の頻度情報が閾値未満の場合(ステップS202でNO)、当該文字列に規則性はないと解釈される。このように解釈されたカラムは、特徴として使用せず、処理は終了する。
 一方、同一のレベル内で検出された文字列の頻度情報が閾値以上の場合は(ステップS202でYES)、当該文字列に規則性はあると解釈される。次に、異なるレベル間で検出された同一の文字列の頻度情報に、閾値以上の差があるかを判定する(ステップS203)。異なるレベル間で検出された文字列の頻度情報に、閾値以上の差がない場合は(ステップS203でNO)、当該文字列は、脅威レベル付けに寄与し得る特徴ではないものと解釈される。このように解釈されたカラムは、特徴として使用せず、処理は終了する。
 一方、異なるレベル間で検出された同一の文字列の頻度情報に、閾値以上の差がある場合は(ステップS203でYES)、当該差のあるカラム(項目)を特徴として選択する(ステップS204)。
 同一のカラム内の異なるレベル間に頻度情報に差のある文字列が少なくとも1つあれば、当該文字列を含むカラムを、特徴として選択してもよい。あるいは、同一のカラム内の異なるレベル間に差のある文字列が所定個数以上ある場合、当該複数個の文字列を含むカラムを、特徴として選択してもよい。文字列が含まれる数が多いカラムに対して、より大きい重み付けを付与してもよい。
 図9は、特徴量の自動選択を具体的に説明する図である。
 図9のテーブルでは、学習データは、第1行をレベル1、第2行をレベル2となるように脅威レベル付けされている。これらの脅威レベル付けは、予めアナリストにより行われている。本例では、カラムを生成する元となるパケットデータは、httpであると仮定する。また、本テーブルでは、sourcePort、http_response_content_type、http_user_agent、およびhttp_hostの4つのカラムが存在している。また、図9には、学習データからカラムごとに、検出された各種の文字列の頻度情報が示されている。以下に、カラムごとに本アルゴリズムを実行し、特徴となるカラムを選択する処理を詳細に説明する。
 sourcePortのカラムでは、レベル1において、文字列「55202」が1件、文字列「29766」が1件検出されている。また、レベル2では、文字列「16027」が1件、文字列「39777」が1件検出されている。すなわち、レベル1のクラス内において、文字列「55202」と文字列「29766」はともに、閾値(例えば、5件)未満である1件ずつ検出され、頻度情報に偏りがなく、規則性もない。同様に、レベル2のクラス内において、文字列「16027」と文字列「39777」がともに閾値(例えば、5件)未満である1件ずつ検出され、頻度情報に偏りがなく、規則性もない。したがって、sourcePortのカラムは、脅威レベル付けに寄与し得る特徴として使用できないと解釈される。したがって、学習データから、sourcePortのカラムのデータを除外することができる。
 http_response_content_typeのカラムでは、レベル1において、文字列「text/html」が100件、文字列「text/plain」が10件検出されている。また、レベル2では、「text/html」が100件、文字列「text/plain」が10件検出されている。すなわち、「text/html」と「text/plain」はともに、閾値以上(例えば、5件以上)あるため、レベル1又はレベル2の1つのクラス内では、規則性がある。しかし、レベル1とレベル2との間では、「text/html」はともに100件であり、異なるレベル間において、検出された文字列の頻度情報に差がない。同様に、レベル1とレベル2との間では、「text/plain」はともに10件であり、異なるレベル間において、検出された文字列の頻度情報に差がない。したがって、http_response_content_typeのカラムは、脅威レベル付けに寄与し得る特徴として使用できないと解釈される。したがって、学習データから、http_response_content_typeのカラムのデータを除外することができる。
 http_user_agentのカラムでは、レベル1において、文字列「Mozilla」が100件、「python-requests」が10件検出されている。また、レベル2では、文字列「python-requests」が90件、「Mozilla」が20件検出されている。すなわち、「Mozilla」と「python-requests」はともに、閾値以上(例えば、5件以上)あるため、レベル1およびレベル2の1つのクラス内では、規則性がある。さらに、レベル1では、「Mozilla」が100件であるのに対し、レベル2では、「Mozilla」が20件であることから、レベル1とレベル2との間でも、頻度情報に閾値(例えば、10件)以上の差がある。同様に、レベル1では、「python-requests」が10件であるのに対し、レベル2では、「python-requests」が90件であることから、レベル1とレベル2との間でも、頻度情報に閾値(例えば、10件)以上の差がある。したがって、http_user_agentのカラムは、脅威レベル付けに寄与し得る特徴として使用できると解釈される。なお、本例では、「Mozilla」と「python-requests」の2つの文字列が抽出されたhttp_user_agentのカラムを特徴として選択したが、1つの文字列のみが抽出されたカラムを特徴として選択してもよい。あるいは、所定個数以上の文字列が抽出されたカラムを特徴として選択してもよい。
 http_hostのカラムでは、レベル1において、文字列「www.normal1.com」は90件、文字列「www.malicious1.com」は10件、文字列「www.malicious2.com」は10件検出されている。また、レベル2では、「www.malicious1.com」は50件、「www.malicious2.com」は50件、「www.normal1.com」は10件検出されている。すなわち、「www.normal1.com」と「www.malicious1.com」と「www.malicious2.com」はともに、閾値以上(例えば、5件以上)あるため、レベル1又はレベル2の1つのクラス内では、規則性がある。さらに、レベル1では、「www.normal1.com」は90件であるのに対し、レベル2では、「www.normal1.com」は10件であることから、レベル1とレベル2との間でも、頻度情報に閾値(例えば、10件)以上の差がある。また、レベル1では、「www.malicious1.com」は10件であるのに対し、レベル2では、「www.malicious1.com」は50件であることから、レベル1とレベル2との間でも、頻度情報に閾値(例えば、10件)以上の差がある。さらに、レベル1では、「www.malicious2.com」は10件であるのに対し、レベル2では、「www.malicious2.com」は50件であることから、レベル1とレベル2との間でも、頻度情報に閾値(例えば、10件)以上の差がある。したがって、http_hostのカラムは、脅威レベル付けに寄与し得る特徴として使用できると解釈される。なお、本例では、「www.normal1.com」と「www.malicious1.com」と「www.malicious2.com」の3つの文字列が抽出されたhttp_hostのカラムを特徴として選択したが、1つの文字列のみが抽出されたカラムを特徴として選択してもよい。あるいは、所定個数以上の文字列が抽出されたカラムを特徴として選択してもよい。
 以上に説明したように、本実施の形態にかかる学習部は、学習時の特徴量として、http_user_agentのカラムおよびhttp_hostのカラムを自動的に選択することができる。言い換えると、学習データから、sourcePortのカラムやhttp_response_content_typeのカラムなどの不要なデータを除外することができるので、後続の機械学習等にかかる計算コストを低減することができる。
 以上に説明した実施の形態では、2つの脅威レベルの場合を説明したが、本発明の趣旨は、3つ以上の脅威レベルの場合にも適用可能である。例えば、3つの脅威レベルがある場合は、それぞれのレベル間の差、すなわち、レベル1とレベル2、レベル1とレベル3、およびレベル2とレベル3の間の差をそれぞれ算出してもよい。このように、全てのレベル間の差を算出することで、より適切な学習データを選択することができる。
 また、上記の例では、すべての文字列を同等の重み付けで頻度情報を比較したが、特定の文字列については、重み付けを大きくしたり、小さくしたりしてもよい。
 上記したように、http_user_agentのカラムでは、2つの文字列が特徴として検出され、http_hostのカラムでは、3つの文字列が特徴として検出された。検出された文字列の数によって、カラムの重み付けを変更してもよい。
 また、文字列の頻度情報を特徴量としたが、ある文字列の頻度情報と別の文字列との頻度情報の差を特徴量してもよい。
 学習部120は、特定の会社(例えば、会社A)あるいは、特定の業界のみからの脅威情報に対する脅威レベル付け結果を学習データとして、機械学習することで、当該特定の会社、あるいは特定の業界の攻撃傾向を学習することができる。つまり、データ収集サーバ130は、会社ごとに、あるいは業界ごとに学習データを区分して、学習部120に提供してもよい。
 あるいは、学習部120は、様々な会社(例えば、会社A、B、Cなど)や団体などの組織からの脅威情報に対する脅威レベル付け結果を学習データとして、機械学習することで、会社や業界にかかわらず、全体的な攻撃傾向を学習することができる。
 また、学習部120は、所定の期間(例えば、過去1年分)の脅威情報に対する、脅威レベル付け結果を学習データとして、機械学習することで、当該所定の期間の攻撃傾向を学習することができる。
 (実施の形態3)
 図10は、実施の形態3にかかる特徴量自動選択処理フローを示すフローチャートである。
 本実施の形態では、特徴量自動選択の対象として、カラムの組合せを取り入れることができる。
 学習データテーブルの全カラムから1つのカラムを抽出する(ステップS31)。すなわち、各カラムに対して、独立して特徴量自動選択処理のアルゴリズム(図8参照)を実行する。そして、抽出されたカラムの有効性、すなわち、当該カラムが脅威レベル付けに寄与するか否かを確認する(ステップS32)。次に、有効性を確認していないカラムが残っているか否かを確認する(ステップS33)。未確認のカラムが残っている場合は(ステップS33でYES)、ステップS31およびステップS32の処理を繰り返す。全てのカラムの有効性を確認後(ステップS33でNO)、同一レベル間のカラムとの組合せを1つ抽出する(ステップS34)。例えば、destinationPort単体では、そもそもudpかtcpか分からないため、destinationPortとtransportProtocolの組合せを抽出してもよい。これらの組合せは、アナリストからのアドバイスにより予め決められた組合せルールに基づいて、抽出してもよい。つまり、相関性の高いカラムの組合せを抽出してもよい。この場合、学習データテーブルには、こうしたカラムの組合せを、新たなカラム(例えば、destinationPort_transportProtocol)として予め追加しておいてもよい。
 抽出された同一レベル間のカラムの組合せに対してアルゴリズムを実行し、有効性を確認する(ステップS35)。すなわち、図8で前述したとおり、抽出された組合せに対して、文字列の組合せの頻度情報を検出する。例えば、図9の例では、レベル1のsourcePortのカラムと、http_response_content_typeのカラムを組み合わせる場合、検出すべき文字列の組合せは、「55202_text/html」や「55202_text/plain」としてもよい。
 さらに、異なるレベル間で検出された文字列の頻度情報に閾値以上の差がある場合は、差のある文字列の組合せを含むカラムの組合せを特徴として選択する。予め決められた組合せルールに基づいた組合せが残っている場合は(ステップS36でYES)、ステップS34およびステップS35の処理を繰り返す。予め決められた組合せルールに基づいた組合せが残っていない場合(ステップS33でNO)、抽出されたカラムと、カラムの組合せを特徴量として選択する(ステップS37)。
 本実施の形態によれば、カラムの組合せを取り入れることで、より一層適切に、脅威レベル付けに寄与し得る特徴を抽出することができる。これにより、後続する学習処理にかかる計算コストを軽減することができる。
 なお、上記の実施の形態では、学習部120が、所定のカラムの組合せ(例えば、相関性の高いカラムの組合せ)を抽出することを想定したが、学習部120は、アナリストにより予め決められたカラムの組合せを追加した学習データテーブルを取得してもよい。
 (実施の形態4)
 図11は、実施の形態4にかかる予測処理フローを示すフローチャートである。
 自動解析サーバ100の予測部110は、各会社から脅威情報として、セキュリティログおよびそれに付随するパケットを、データ収集サーバ130を経由して受信する。予測部110は、まず、受信した脅威情報が、業務通信か攻撃通信かを判定する(ステップS41)。業務通信か攻撃通信かの判定は、既存技術を用いて行うことができる。脅威情報が攻撃通信であると判定された場合は(ステップS42でYES)、予測部110は、上記したように学習により生成された学習モデルを使用して、脅威レベル付けを実施する(ステップS43)。一方、脅威情報が攻撃通信でないと判定された場合は(ステップS42でNO)、脅威レベル付けを行わず、処理は終了する。
 なお、予測部110は、学習モデルに基づいて、自動的に予測処理を行ってもよいが、セキュリティレベルの高い脅威情報は、既知の学習データから予測できない場合がある。そのため、こうした所定レベル以上の脅威情報は、アナリストにより脅威レベル付けを行い、再度、脅威レベル付け結果を学習部に送り、学習モデルを更新することが好ましい。
 図3,図4,図7,図8,図10,図11のフローチャートは、実行の具体的な順番を示しているが、実行の順番は描かれている形態と異なっていてもよい。例えば、2つ以上のステップの実行の順番は、示された順番に対して入れ替えられてもよい。また、フローチャートの中で連続して示された2つ以上のステップは、同時に、または部分的に同時に実行されてもよい。さらに、いくつかの実施形態では、フローチャートに示された1つまたは複数のステップがスキップまたは省略されてもよい。
 図12は、本実施形態におけるサーバ100,130,およびPC140のハードウェア構成例を示すブロック図である。図12に示すように、本実施形態のサーバ100,130,およびPC140は、CPU(Central Processing Unit)201、RAM(Random access memory)202、ROM(Read Only Memory)203などを有するコンピュータである。CPU201は、RAM202、ROM203、または、ハードディスク204に格納されたソフトウェアに従い演算および制御を行う。RAM202は、CPU201が各種処理を実行する際の一時記憶領域として使用される。ハードディスク204には、オペレーティングシステム(OS)や、登録プログラムなどが記憶される。ディスプレイ205は、液晶ディスプレイとグラフィックコントローラとから構成され、ディスプレイ205には、画像やアイコンなどのオブジェクト、および、GUIなどが表示される。入力部206は、ユーザが端末装置200に各種指示を与えるための装置であり、例えばマウスやキーボード、タッチパネルなどによって構成される。I/F(インターフェース)部207は、IEEE  802.11aなどの規格に対応した無線LAN通信や有線LAN通信を制御することができ、TCP/IPなどのプロトコルに基づき同一通信ネットワークおよびインターネットを介して外部機器と通信する。システムバス208は、CPU201、RAM202、ROM203、および、ハードディスク204などとのデータのやり取りを制御する。
 上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリを含む。磁気記録媒体は、例えばフレキシブルディスク、磁気テープ、ハードディスクドライブであってもよい。半導体メモリは、例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory)であってもよい。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
 なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。以上で説明した複数の例は、適宜組み合わせて実施されることもできる。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 複数の項目からなる学習データであって、第1のレベルと、前記第1のレベルより脅威レベルの高い第2のレベルにレベル付けされた学習データを取得する取得部と、
 前記第1のレベルに属する学習データから特定の文字列の第1の特徴量を検出する第1の特徴量検出部と、
 前記第2のレベルに属する学習データから前記特定の文字列の第2の特徴量を検出する第2の特徴量検出部と、
 前記第1の特徴量と前記第2の特徴量との間に差分を検出する差分検出部と、
 前記差分が閾値以上ある場合は、前記特定の文字列が属する項目の学習データを選択する選択部と、を備える情報処理装置。
 (付記2)
 前記特徴量は、頻度情報である、付記1に記載の情報処理装置。
 (付記3)
 前記第1の特徴量と前記第2の特徴量は閾値以上である、付記1又は2に記載の情報処理装置。
 (付記4)
 前記学習データが3つ以上のレベルにレベル付けされている場合は、前記差分検出部は、各レベル間の差分を抽出する、付記1~3のいずれか一項に記載の情報処理装置。
 (付記5)
 前記取得部は、組織毎に区分された学習データを取得する、付記1~4のいずれか一項に記載の情報処理装置。
 (付記6)
 前記取得部は、定期的にアナリストにより脅威レベル付けされた学習データを取得する、付記1~5のいずれか一項に記載の情報処理装置。
 (付記7)
 前記第1の特徴量検出部は、前記第1のレベルに属し、特定の項目に属する学習データから特定の文字列の第1の特徴量を検出し、
 前記第1の特徴量検出部は、前記第2のレベルに属し、前記特定の項目に属する学習データから前記特定の文字列の第1の特徴量を検出する、付記1~6のいずれか一項に記載の情報処理装置。
 (付記8)
 前記取得部は、複数の項目のうちの所定の項目の組合せを含む前記学習データを取得する、付記1~7のいずれか一項に記載の情報処理装置。
 (付記9)
 前記学習データは、通信ログデータおよび該通信ログデータに付随するパケットを含む、付記1~8のいずれか一項に記載の情報処理装置。
 (付記10)
 前記選択された項目の学習データを用いて、機械学習を行う学習部を更に備える、付記1~9のいずれか一項に記載の情報処理装置。
 (付記11)
 前記学習部により生成された学習モデルに基づいて、脅威情報の脅威レベル付けを行う予測部を更に備える、付記10に記載の情報処理装置。
 (付記12)
 前記脅威情報が、業務通信か攻撃通信かを判別する判別部を更に備え、
 前記予測部は、前記判別部が攻撃通信と判別した脅威情報に対して脅威レベル付けを行う、付記11に記載の情報処理装置。
 (付記13)
 外部から脅威情報を収集するデータ収集サーバと、
 収集された前記脅威情報に、アナリストが脅威レベル付けを行うためのコンピュータと、
 付記1~12のいずれか一項に記載の情報処理装置と、
を備える、脅威情報評価システム。
 (付記14)
 複数の項目からなる学習データであって、第1のレベルと、前記第1のレベルより脅威レベルの高い第2のレベルにレベル付けされた学習データを取得し、
 前記第1のレベルに属する学習データから特定の文字列の第1の特徴量を検出し、
 前記第2のレベルに属する学習データから前記特定の文字列の第2の特徴量を検出し、
 前記第1の特徴量と前記第2の特徴量との間に差分を検出し、
 前記差分が閾値以上ある場合は、前記特定の文字列が属する項目の学習データを選択する、情報処理方法。
 (付記15)
 複数の項目からなる学習データであって、第1のレベルと、前記第1のレベルより脅威レベルの高い第2のレベルにレベル付けされた学習データを取得する処理と、
 前記第1のレベルに属する学習データから特定の文字列の第1の特徴量を検出する処理と、
 前記第2のレベルに属する学習データから前記特定の文字列の第2の特徴量を検出し、
 前記第1の特徴量と前記第2の特徴量との間に差分を検出する処理と、
 前記差分が閾値以上ある場合は、前記特定の文字列が属する項目の学習データを選択する処理と、をコンピュータに実行させるプログラム。
 (付記16)
 外部から脅威情報を収集し、
 前記収集された脅威情報の少なくとも一部をアナリストが脅威レベル付けするためのコンピュータに送信し、
 前記コンピュータで脅威レベル付けされた結果として、複数の項目からなる学習データであって、第1のレベルと、前記第1のレベルより脅威レベルの高い第2のレベルにレベル付けされた学習データを取得し、
 前記第1のレベルに属する学習データから特定の文字列の第1の特徴量を検出し、
 前記第2のレベルに属する学習データから前記特定の文字列の第2の特徴量を検出し、
 前記第1の特徴量と前記第2の特徴量との間に差分を検出し、
 前記差分が閾値以上ある場合は、前記特定の文字列が属する項目の学習データを選択する、情報処理方法。
 (付記17)
 外部から脅威情報を収集する処理と、
 前記収集された脅威情報の少なくとも一部をアナリストが脅威レベル付けするためのコンピュータに送信する処理と、
 前記コンピュータで脅威レベル付けされた結果として、複数の項目からなる学習データであって、第1のレベルと、前記第1のレベルより脅威レベルの高い第2のレベルにレベル付けされた学習データを取得する処理と、
 前記第1のレベルに属する学習データから特定の文字列の第1の特徴量を検出する処理と、
 前記第2のレベルに属する学習データから前記特定の文字列の第2の特徴量を検出する処理と、
 前記第1の特徴量と前記第2の特徴量との間に差分を検出する処理と、
 前記差分が閾値以上ある場合は、前記特定の文字列が属する項目の学習データを選択する処理と、をコンピュータに実行させるプログラム。
 1 脅威情報評価システム
 10 SOC
 20 監視対象顧客環境
 100 自動解析サーバ
 101 取得部
 102 第1の特徴量検出部
 103 第2の特徴量検出部
 104 差分検出部
 105 選択部
 110 予測部
 120 学習部
 130 データ収集サーバ
 140 PC

Claims (15)

  1.  複数の項目からなる学習データであって、第1のレベルと、前記第1のレベルより脅威レベルの高い第2のレベルにレベル付けされた学習データを取得する取得部と、
     前記第1のレベルに属する学習データから特定の文字列の第1の特徴量を検出する第1の特徴量検出部と、
     前記第2のレベルに属する学習データから前記特定の文字列の第2の特徴量を検出する第2の特徴量検出部と、
     前記第1の特徴量と前記第2の特徴量との間に差分を検出する差分検出部と、
     前記差分が閾値以上ある場合は、前記特定の文字列が属する項目の学習データを選択する選択部と、を備える情報処理装置。
  2.  前記特徴量は、頻度情報である、請求項1に記載の情報処理装置。
  3.  前記第1の特徴量と前記第2の特徴量は閾値以上である、請求項1又は2に記載の情報処理装置。
  4.  前記学習データが3つ以上のレベルにレベル付けされている場合は、前記差分検出部は、各レベル間の差分を抽出する、請求項1~3のいずれか一項に記載の情報処理装置。
  5.  前記取得部は、組織毎に区分された学習データを取得する、請求項1~4のいずれか一項に記載の情報処理装置。
  6.  前記取得部は、定期的にアナリストにより脅威レベル付けされた学習データを取得する、請求項1~5のいずれか一項に記載の情報処理装置。
  7.  前記第1の特徴量検出部は、前記第1のレベルに属し、特定の項目に属する学習データから特定の文字列の第1の特徴量を検出し、
     前記第1の特徴量検出部は、前記第2のレベルに属し、前記特定の項目に属する学習データから前記特定の文字列の第1の特徴量を検出する、請求項1~6のいずれか一項に記載の情報処理装置。
  8.  前記取得部は、複数の項目のうちの所定の項目の組合せを含む前記学習データを取得する、請求項1~7のいずれか一項に記載の情報処理装置。
  9.  前記学習データは、通信ログデータおよび該通信ログデータに付随するパケットを含む、請求項1~8のいずれか一項に記載の情報処理装置。
  10.  前記選択された項目の学習データを用いて、機械学習を行う学習部を更に備える、請求項1~9のいずれか一項に記載の情報処理装置。
  11.  前記学習部により生成された学習モデルに基づいて、脅威情報の脅威レベル付けを行う予測部を更に備える、請求項10に記載の情報処理装置。
  12.  前記脅威情報が、業務通信か攻撃通信かを判別する判別部を更に備え、
     前記予測部は、前記判別部が攻撃通信と判別した脅威情報に対して脅威レベル付けを行う、請求項11に記載の情報処理装置。
  13.  外部から脅威情報を収集するデータ収集サーバと、
     収集された前記脅威情報に、アナリストが脅威レベル付けを行うためのコンピュータと、
     請求項1~12のいずれか一項に記載の情報処理装置と、
    を備える、脅威情報評価システム。
  14.  複数の項目からなる学習データであって、第1のレベルと、前記第1のレベルより脅威レベルの高い第2のレベルにレベル付けされた学習データを取得し、
     前記第1のレベルに属する学習データから特定の文字列の第1の特徴量を検出し、
     前記第2のレベルに属する学習データから前記特定の文字列の第2の特徴量を検出し、
     前記第1の特徴量と前記第2の特徴量との間に差分を検出し、
     前記差分が閾値以上ある場合は、前記特定の文字列が属する項目の学習データを選択する、情報処理方法。
  15.  複数の項目からなる学習データであって、第1のレベルと、前記第1のレベルより脅威レベルの高い第2のレベルにレベル付けされた学習データを取得する処理と、
     前記第1のレベルに属する学習データから特定の文字列の第1の特徴量を検出する処理と、
     前記第2のレベルに属する学習データから前記特定の文字列の第2の特徴量を検出し、
     前記第1の特徴量と前記第2の特徴量との間に差分を検出する処理と、
     前記差分が閾値以上ある場合は、前記特定の文字列が属する項目の学習データを選択する処理と、をコンピュータに実行させるプログラムが格納された非一時的なコンピュータ可読媒体。
PCT/JP2019/050483 2019-12-24 2019-12-24 情報処理装置、脅威情報評価システム、情報処理方法および非一時的なコンピュータ可読媒体 WO2021130838A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2019/050483 WO2021130838A1 (ja) 2019-12-24 2019-12-24 情報処理装置、脅威情報評価システム、情報処理方法および非一時的なコンピュータ可読媒体
US17/783,081 US20230025208A1 (en) 2019-12-24 2019-12-24 Information processing apparatus, threat information evaluation system, informationprocessing method, and non-transitory computer readable medium
JP2021566414A JP7287503B2 (ja) 2019-12-24 2019-12-24 情報処理装置、脅威情報評価システム、情報処理方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/050483 WO2021130838A1 (ja) 2019-12-24 2019-12-24 情報処理装置、脅威情報評価システム、情報処理方法および非一時的なコンピュータ可読媒体

Publications (1)

Publication Number Publication Date
WO2021130838A1 true WO2021130838A1 (ja) 2021-07-01

Family

ID=76575782

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/050483 WO2021130838A1 (ja) 2019-12-24 2019-12-24 情報処理装置、脅威情報評価システム、情報処理方法および非一時的なコンピュータ可読媒体

Country Status (3)

Country Link
US (1) US20230025208A1 (ja)
JP (1) JP7287503B2 (ja)
WO (1) WO2021130838A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016125837A1 (ja) * 2015-02-04 2016-08-11 日本電信電話株式会社 悪性通信パターン抽出装置、悪性通信パターン抽出システム、悪性通信パターン抽出方法、および、悪性通信パターン抽出プログラム
US20180367561A1 (en) * 2017-06-14 2018-12-20 International Business Machines Corporation Threat disposition analysis and modeling using supervised machine learning

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9462008B2 (en) * 2014-05-16 2016-10-04 Cisco Technology, Inc. Identifying threats based on hierarchical classification
WO2015186662A1 (ja) * 2014-06-06 2015-12-10 日本電信電話株式会社 ログ分析装置、攻撃検知装置、攻撃検知方法およびプログラム
GB2555192B (en) * 2016-08-02 2021-11-24 Invincea Inc Methods and apparatus for detecting and identifying malware by mapping feature data into a semantic space
US10673880B1 (en) * 2016-09-26 2020-06-02 Splunk Inc. Anomaly detection to identify security threats
JP6697123B2 (ja) * 2017-03-03 2020-05-20 日本電信電話株式会社 プロファイル生成装置、攻撃検知装置、プロファイル生成方法、および、プロファイル生成プログラム
US11563717B2 (en) * 2018-06-04 2023-01-24 Nippon Telegraph And Telephone Corporation Generation method, generation device, and recording medium
US11310268B2 (en) * 2019-05-06 2022-04-19 Secureworks Corp. Systems and methods using computer vision and machine learning for detection of malicious actions
WO2023044060A1 (en) * 2021-09-16 2023-03-23 Centripetal Networks Malicious homoglyphic domain name detection, generation, and associated cyber security applications

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016125837A1 (ja) * 2015-02-04 2016-08-11 日本電信電話株式会社 悪性通信パターン抽出装置、悪性通信パターン抽出システム、悪性通信パターン抽出方法、および、悪性通信パターン抽出プログラム
US20180367561A1 (en) * 2017-06-14 2018-12-20 International Business Machines Corporation Threat disposition analysis and modeling using supervised machine learning

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FUKUMU TSUTSUMI; TOSHINORI USUI, KANTA MATSUURA: "Improving Optimization Level Estimation of Malware by Feature Selection. ", THE 32ND SYMPOSIUM ON CRYPTOGRAPHY AND INFORMATION SECURITY (SCIS2015); JANUARY 20-23, 2015, 20 January 2015 (2015-01-20) - 23 January 2015 (2015-01-23), JP, pages 1 - 8, XP009533887 *

Also Published As

Publication number Publication date
JPWO2021130838A1 (ja) 2021-07-01
US20230025208A1 (en) 2023-01-26
JP7287503B2 (ja) 2023-06-06

Similar Documents

Publication Publication Date Title
US20190141064A1 (en) Detecting attacks against a server computer based on characterizing user interactions with the client computing device
CN109922032B (zh) 用于确定登录账户的风险的方法、装置、设备及存储介质
Peng et al. Modeling and predicting extreme cyber attack rates via marked point processes
CN115668865A (zh) 网络异常检测
EP3465515B1 (en) Classifying transactions at network accessible storage
CN108183916A (zh) 一种基于日志分析的网络攻击检测方法及装置
JP2018512823A (ja) 企業ネットワークにおけるコミュニティと役割の統合型の発見
US20180006900A1 (en) Predictive anomaly detection in communication systems
CN114978568A (zh) 使用机器学习进行数据中心管理
US20230362200A1 (en) Dynamic cybersecurity scoring and operational risk reduction assessment
CN110855648B (zh) 一种网络攻击的预警控制方法及装置
CN114430826A (zh) 用于预测计算工作负载的时间序列分析
US20200311231A1 (en) Anomalous user session detector
Folino et al. A distributed intrusion detection framework based on evolved specialized ensembles of classifiers
US9621576B1 (en) Detecting malicious websites
US20160269431A1 (en) Predictive analytics utilizing real time events
US11956261B2 (en) Detection method for malicious domain name in domain name system and detection device
US20230146382A1 (en) Network embeddings model for personal identifiable information protection
JP2017527929A (ja) コンピュータ・インフラストラクチャの管理におけるポリシーの自己調整のための半教師あり機械学習の活用
Turcotte et al. Modelling user behaviour in a network using computer event logs
Paik Schoenberg Nonparametric estimation of variable productivity Hawkes processes
CN110572402A (zh) 基于网络访问行为分析的互联网托管网站检测方法、系统和可读存储介质
JP6517468B2 (ja) 情報処理システム、情報処理装置、監視装置、監視方法、及び、プログラム
WO2021130838A1 (ja) 情報処理装置、脅威情報評価システム、情報処理方法および非一時的なコンピュータ可読媒体
CN107766227A (zh) 一种用于远程测试的方法与设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19957339

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021566414

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19957339

Country of ref document: EP

Kind code of ref document: A1