WO2022239161A1 - 抽出方法、抽出装置及び抽出プログラム - Google Patents

抽出方法、抽出装置及び抽出プログラム Download PDF

Info

Publication number
WO2022239161A1
WO2022239161A1 PCT/JP2021/018117 JP2021018117W WO2022239161A1 WO 2022239161 A1 WO2022239161 A1 WO 2022239161A1 JP 2021018117 W JP2021018117 W JP 2021018117W WO 2022239161 A1 WO2022239161 A1 WO 2022239161A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature information
ioc
information
analyst
extraction unit
Prior art date
Application number
PCT/JP2021/018117
Other languages
English (en)
French (fr)
Inventor
大紀 千葉
満昭 秋山
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/018117 priority Critical patent/WO2022239161A1/ja
Priority to JP2023520662A priority patent/JPWO2022239161A1/ja
Publication of WO2022239161A1 publication Critical patent/WO2022239161A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures

Definitions

  • the present invention relates to an extraction method, an extraction device, and an extraction program.
  • SOC security operation center
  • References 1 and 2 below, analysts who process a large number of alerts on a daily basis cause a situation called alert fatigue, which leads to analyst burnout.
  • Reference 1 S. C. Sundaramurthy, A. G. Bardas, J. Case, X. Ou, M. Wesch, J. McHugh, and S. R. Rajagopalan, “A human capital model for mitigating security analyst burnout,” Proc. SOUPS, 2015.
  • Reference 2 Ponemon Institute, “Improving the Effectiveness of the Security Operations Center,” 2019.
  • Non-Patent Documents 1 to 5 a technology has been proposed to distinguish between truly malicious alerts and non-malicious alerts that are false positives by estimating the anomaly score and malignancy score of each security-related alert from past alerts.
  • Non-Patent Documents 6 to 8 there is a known technology that supports analysts' subsequent processes by extracting information that is most relevant to each security alert (see, for example, Non-Patent Documents 6 to 8).
  • the technology described in the prior art document above employs characteristic information necessary to determine whether an IOC is abnormal or malignant. On the other hand, whether an IOC is abnormal or malignant and whether the IOC requires further investigation by an analyst is independent.
  • the extraction method is an extraction method executed by an extraction device, which is performed by an analyst regarding investigation of IOC (Indicator of Compromise) included in cybersecurity information. and a creation step of creating characteristic information of the IOC based on the information obtained from the behavior history acquired by the acquisition step.
  • IOC Information of Compromise
  • useful feature information can be obtained for determining the priority of IOC investigations.
  • FIG. 1 is a diagram explaining a security system.
  • FIG. 2 is a diagram showing an example of an alert monitor screen.
  • FIG. 3 is a diagram showing an example of an IOC checker screen.
  • FIG. 4 is a diagram illustrating a configuration example of a determination device according to the first embodiment.
  • FIG. 5 is a diagram illustrating an example of a request period.
  • FIG. 6 is a flowchart showing the flow of learning processing.
  • FIG. 7 is a flowchart showing the flow of processing for extracting feature information.
  • FIG. 8 is a flowchart showing the flow of prediction processing.
  • FIG. 9 is a diagram illustrating an example of a computer that executes a determination program;
  • the determination device functions as an extraction device.
  • FIG. 1 is a diagram explaining a security system.
  • the security system 1 performs automatic analysis by an analysis engine or analysis by an analyst based on predetermined information generated in the security appliance of the customer organization.
  • Security appliances include, for example, intrusion prevention systems (IPS), proxies, sandboxes, and unified threat management (UTM).
  • IPS intrusion prevention systems
  • proxies proxies
  • sandboxes sandboxes
  • UPM unified threat management
  • the SOC analyzes security-related information obtained from security appliances in real time.
  • security related information includes security logs and alerts.
  • the SOC is used as an outsourced SOC provided by a large-scale MSSP (Managed Security Service Provider).
  • MSSP Managed Security Service Provider
  • this embodiment is also applicable to an in-house SOC.
  • the customer organization's security appliance sends alerts and security logs to the SOC's analysis engine 10 (step S1).
  • the security system 1 can process security logs in the same manner as alerts.
  • the analysis engine 10 performs automatic analysis (step S2).
  • the analysis engine 10 responds to alerts by performing analysis based on known malicious characteristics and pre-defined rules and blacklists.
  • the analysis engine 10 may perform analysis using a function called SOAR (Security Orchestration, Automation, and Response).
  • SOAR Security Orchestration, Automation, and Response
  • the analysis engine 10 sends an alert that satisfies a predetermined condition to the determination device 20, alert monitor 30, or IOC checker 40 (step S3).
  • FIG. 2 is a diagram showing an example of an alert monitor screen.
  • the alert monitor 30 stores the date of the event that caused the alert (Date), the customer name (Customer), the device that sent the alert (Device), the name of the alert (Alert Name), and the event that triggered the alert. An overview of the status, etc. is displayed.
  • the IOC checker 40 displays information about the IOC (Indicator of Compromise) included in the alert.
  • FIG. 3 is a diagram showing an example of an IOC checker screen.
  • the IOC includes domain names, IP addresses, URLs, file hash values, etc.
  • the IOC checker 40 can check the status of investigation in the SOC (Status), the SOC's most recent judgment on the malignancy of the IOC (SOC Last Decision), the latest threat intelligence result of the IOC (Detection in TI), etc.
  • the analyst uses tools dedicated to IOC evaluation, such as the alert monitor 30 and the IOC checker 40, to triage (evaluate) IOCs for alerts that could not be processed by the analysis engine 10.
  • tools dedicated to IOC evaluation such as the alert monitor 30 and the IOC checker 40, to triage (evaluate) IOCs for alerts that could not be processed by the analysis engine 10.
  • the determination device 20 determines an IOC with a high priority and notifies the analyst of it. This can prevent multiple analysts from manually evaluating the same IOC at the SOC.
  • the determination device 20 it is possible to preferentially analyze IOCs with high priority, so that the effect on the workload of the analyst can be improved.
  • the decision device 20 learns the model or predicts the priority of the IOC using the model (step S4). Then, the determining device 20 determines an IOC with a higher priority based on the prediction result, and notifies the determined IOC (step S5).
  • the decision device 20 notifies the analyst of the decided IOC via the IOC checker 40 .
  • the analyst performs analysis based on the notified priority (step S6).
  • the analyst may also search a threat intelligence service (eg, VirusTotal (https://www.virustotal.com/)) during the analysis (step S7).
  • a threat intelligence service eg, VirusTotal (https://www.virustotal.com/)
  • Some threat intelligence services provide scores regarding the level and severity of threats. However, such a score by itself does not necessarily determine the analyst's next action.
  • an IOC related to an attack that uses a vulnerability that has already been patched may have a high score for being malicious, but it is not an immediate threat from the perspective of protecting customer organizations.
  • the decision of the IOC with the higher priority by the deciding device 20 is useful for securing time for the analyst's decision and for reducing the investigation operation of each IOC.
  • the analyst ultimately determines whether the alert to be analyzed and the IOC included in the alert are malignant or non-malignant, further determines whether reporting to the customer is necessary, and if it is necessary to report to the customer , to the system administrator of the client organization, etc. (step S8).
  • the conditions for triggering alerts in the analysis engine 10 can be changed based on the results.
  • the IOC can be used in the analysis engine 10 as a custom blacklist or custom signature.
  • logs containing the same IOC can be automatically detected by other SOC customers. Additionally, if the assessment identifies an IOC with a low false positive or threat level, the SIEM logic that triggers the alert can be changed to prevent the same false positive alert from occurring again, reducing analyst workload. .
  • FIG. 4 is a diagram showing a configuration example of the determination device according to the first embodiment.
  • the determination device 20 has a feature information extraction unit 21 , label assignment unit 22 , learning unit 23 , prediction unit 24 and model information 25 .
  • the decision device 20 performs model learning processing using a machine learning method and prediction processing using the learned model.
  • the feature information extraction unit 21, the labeling unit 22, and the learning unit 23 are used. Also, in the prediction process, the feature information extraction unit 21 and the prediction unit 24 are used.
  • the feature information extraction unit 21 extracts feature information from the IOCs included in the information on cybersecurity. For example, information regarding cyber security is an alert obtained from the analysis engine 10 .
  • the feature information extraction unit 21 extracts information characterizing the characteristics of the IOC (hereinafter referred to as feature information) from the IOCs included in past alerts obtained from the analysis engine 10 .
  • the feature information may be the domain name, IP address, URL, file hash value, etc. included in the IOC.
  • the feature information extraction unit 21 extracts feature information from alerts that have occurred during a predetermined number of days.
  • the feature information extraction unit 21 functions as an extraction device having an acquisition unit and a creation unit.
  • the acquisition unit acquires the history of actions taken by analysts regarding IOC investigations included in cybersecurity information.
  • the creation unit creates IOC feature information based on information obtained from the behavior history acquired by the acquisition unit.
  • the feature information extraction unit 21 creates feature information based on the history of actions, such as when and how long an analyst in which shift has investigated each IOC as a whole SOC.
  • the feature information extraction unit 21 observes requests made by analysts to investigate each IOC, and creates feature information from the observation information.
  • the analyst may send a search request to the threat intelligence service for IOCs included in alerts from client organizations in the SOC workflow.
  • the characteristic information extraction unit 21 can obtain the information of the request to the threat intelligence service as the action history of the analyst.
  • the feature information extraction unit 21 does not need to individually acquire detailed action histories of each analyst. Also, the feature information extraction unit 21 can acquire the action history without changing the daily SOC workflow. Moreover, in most SOCs, such action history is readily available.
  • the feature information extraction unit 21 extracts a total of 80 pieces of feature information consisting of 3 major items and 8 minor items.
  • the feature information extraction unit 21 extracts feature information using five different time windows (eg, 1 day, 3 days, 7 days, 14 days, and 30 days).
  • the feature information extraction unit 21 can distinguish between IOCs included in alerts observed in bursts over a short period of time and IOCs in alerts observed over a longer period of time.
  • the feature information extraction unit 21 further divides the most recent one week into 1 day, 3 days, and 7 days, thereby obtaining feature information suitable for real-time priority prediction that emphasizes more recent information. be able to.
  • the feature information of item 1 is feature information based on the timing of the analyst's request. For example, 55 pieces of feature information are included in item 1 .
  • Characteristic information of items denoted as items XY below is assumed to be characteristic information included in the item X.
  • the feature information extraction unit 21 creates feature information included in item 1 based on information on the number of actions and the time interval between actions. For example, the number of actions and the time interval over which the actions were taken are the number of requests to the threat intelligent service and the interval between requests.
  • the feature information extraction unit 21 uses the number of request queries to the threat intelligence service used by the SOC for each of five time windows (for example, 1 day, 3 days, 7 days, 14 days, and 30 days) as feature information. count. Thereby, the feature information extraction unit 21 obtains, for example, five pieces of feature information.
  • the reason for using the feature information in item 1-1 is that the suspected candidate IOCs manually investigated by SOC analysts have different features.
  • the feature information extraction unit 21 calculates statistics such as the average, minimum, maximum, standard deviation, and variance of the number of requests in item 1-1 as feature information. Thereby, the feature information extraction unit 21 obtains, for example, 25 pieces of feature information.
  • the feature information extraction unit 21 creates feature information based on information obtained from the behavior history and statistics calculated from the information.
  • the feature information extraction unit 21 calculates statistics such as the average, minimum, maximum, standard deviation, and variance of time intervals between requests as feature information. Thereby, the feature information extraction unit 21 obtains, for example, 25 pieces of feature information.
  • the feature information in items 1-3 is an IOC investigation request used in targeted attacks against specific customer companies and an IOC investigation request used in non-targeted attacks indiscriminately carried out against multiple companies. contributes to distinguishing between
  • IOCs used in targeted attacks reach only some companies and their employees, and as a result SOC analysts are relatively rare in investigating them.
  • IOCs used in non-targeted attacks are widely distributed regardless of companies and employees, so multiple analysts at the same SOC base investigate in a short period of time.
  • the feature information in item 2 is feature information based on the analyst's request period. There are, for example, 15 items of feature information included in item 2 .
  • the feature information extraction unit 21 creates feature information included in item 2 based on information about the elapsed time from the point in time when the action was performed within a predetermined time window. Each period used in item 2 is as shown in FIG. FIG. 5 is a diagram illustrating an example of a request period.
  • the feature information extraction unit 21 calculates the number of days elapsed since the first survey date for each time window as feature information. Thereby, the feature information extraction unit 21 obtains, for example, five pieces of feature information.
  • the feature information extraction unit 21 calculates the number of days elapsed since the last survey date for each time window as feature information. Thereby, the feature information extraction unit 21 obtains, for example, five pieces of feature information.
  • the feature information extraction unit 21 calculates the number of days elapsed from the first survey date to the last survey date by the analyst for each time window as feature information. Thereby, the feature information extraction unit 21 obtains, for example, five pieces of feature information.
  • the feature information in item 3 is feature information based on the analyst's shift.
  • the number of pieces of feature information included in item 3 is, for example, ten.
  • the characteristic information extraction unit 21 creates the characteristic information of item 3 based on the date and time when the action was performed and the information on the work style of the analyst.
  • the characteristic information extracting unit 21 calculates the percentage of weekdays when the analyst made a request to the threat intelligence service for each time window as characteristic information. For example, weekdays are Monday through Friday in the local time of the location where the SOC is located. Thereby, the feature information extraction unit 21 obtains, for example, five pieces of feature information.
  • the feature information in item 3-1 is feature information in consideration of such tendencies.
  • the characteristic information extraction unit 21 calculates the ratio of times when analysts make requests to the threat intelligence service during the day shift for each time window as characteristic information. For example, an analyst's shift may have a day shift (e.g. 8:00 to 16:00) and a night shift (e.g. 16:00 to 8:00 the next day) to provide 24/7 coverage. . Thereby, the feature information extraction unit 21 obtains, for example, five pieces of feature information.
  • the feature information in item 3-2 is feature information in consideration of such tendencies.
  • the labeling unit 22 gives each IOC a label according to the amount of work required to respond to the associated alert.
  • the label is assumed to be binary data indicating whether the priority is high or not.
  • the label assigning unit 22 assigns a label indicating that the priority is high to IOCs that have consumed a large amount of work of the analyst in the past, and assigns labels indicating that the priority is not high to other IOCs. do.
  • the label assigning unit 22 assigns a label indicating a high priority to an IOC for which the number of manual investigations that occurred within a certain period of time for the related alert is equal to or greater than a predetermined value, and assigns a label indicating that the manual investigation is performed.
  • a label indicating that the priority is not high is assigned to the IOC whose number of times is less than a predetermined value.
  • priority a label indicating high priority
  • non-priority a label indicating low priority
  • the learning unit 23 uses learning data obtained by combining the feature information extracted by the feature information extraction unit 21 and the label assigned by the label assignment unit 22 to learn a model that outputs a label from the IOC feature information.
  • the learning unit 23 creates and updates models by supervised machine learning.
  • the model information 25 is information including parameters for constructing a model.
  • the learning unit 23 creates and updates model information 25 .
  • the learning unit 23 can employ any known supervised machine learning algorithm. In this embodiment, the learning unit 23 adopts standard logistic regression.
  • Logistic regression is scalable and fast, so it is suitable for predicting IOC contained in a large number of alerts from many customers, such as in an SOC environment.
  • logistic regression is known to be highly interpretable.
  • the output of logistic regression by its nature can be interpreted as the probability that the input IOC is preferred, and can indicate which feature among the feature information corresponding to each IOC contributes to the result.
  • logistic regression has the advantage of being highly interpretable.
  • the learning unit 23 particularly uses logistic regression with L1 regularization.
  • the learning unit 23 converts the conditional probability y of the label shown in equation (1) into a model as shown in equation (2).
  • is the parameter of the logistic regression model.
  • is a sigmoid function. Also assume that all features of x are normalized to the range [0,1].
  • the learning unit 23 obtains the parameter ⁇ for minimizing the objective function of the formula (4) into which the hyperparameter ⁇ that determines the degree of regularization is introduced. Use a set of training data.
  • 1 adds a penalty to the objective function, and has the effect of identifying and reducing feature information that does not contribute significantly.
  • the prediction unit 24 uses the model trained by the learning unit 23 to predict the label from the IOC feature information.
  • the prediction unit 24 uses the model learned by the learning unit 23 to input the IOC included in the alert newly generated in real time and the corresponding feature information, and determines which IOC will be used by the analyst in the future. Predict whether you will consume a lot of
  • the prediction unit 24 makes predictions using a logistic regression model constructed based on the model information 25.
  • the prediction unit 24 predicts the probability that the analyst will manually analyze the target IOC K times or more within P days (where P is an integer).
  • the prediction unit 24 uses the parameter ⁇ determined by the learning unit 23, the prediction unit 24 obtains the probability p that the vector x of the feature information corresponding to the IOC is “priority”, and sets the predicted label ⁇ y ( ⁇ directly above y) (5) is defined by the formula.
  • the decision device 20 Based on the labels predicted by the prediction unit 24, the decision device 20 outputs the IOCs that are considered to lead to repeated investigations by the SOC analyst, that is, the IOCs predicted with the "priority" label, in descending order of probability p. and present it to the analyst.
  • the analyst can use the information presented by the decision device 20 to prioritize the research targets and efficiently perform triage and detailed analysis.
  • the analyst can investigate IOCs with high priority and reflect the results in the analysis engine 10 .
  • the analysis engine 10 can automatically process alerts containing the same IOC, avoiding the need for analysts to manually investigate the IOC every time, and reducing the amount of work for the SOC as a whole. .
  • the analyst investigates IOCs determined to have a high priority, and based on the results, causes the analysis engine 10 to automatically analyze the IOCs. As a result, the IOC will not be handed over to other analysts, thus reducing the amount of work.
  • the determining device 20 re-executes the learning process offline periodically (for example, once a day) to update the model information 25 .
  • the determination device 20 performs learning processing using data for a predetermined period before and after the feature information extraction point shown in FIG. 5 .
  • the determination device 20 performs the learning process using data for F+L days, which is F days (corresponding to a time window) up to the point of feature extraction and L days from the point of feature information extraction (however, F and L is an integer).
  • the determination device 20 processes the IOC included in the alert from the customer organization in real time, that is, when performing the prediction process, the feature information to extract
  • the determining device 20 calculates the probability p that the analyst will conduct K or more manual investigations in the future P days from the extracted feature information.
  • the decision device 20 repeats the above prediction process for each IOC received in real time. As a result, a list of IOCs to be investigated preferentially by the analyst is displayed on the screen of the IOC checker 40 as shown in FIG. 3 and continuously updated.
  • FIG. 6 is a flowchart showing the flow of learning processing. As shown in FIG. 6, first, the determination device 20 receives an input of past alerts (step S101).
  • the determining device 20 extracts feature information from the IOC included in the input alert (step S102). Subsequently, the determination device 20 assigns a correct label regarding priority based on the amount of work of the analyst for each IOC (step S103).
  • the determining device 20 learns a model that outputs a priority-related label from the feature information using the correct label (step S104).
  • FIG. 7 is a flowchart showing the flow of processing for extracting feature information.
  • the processing in FIG. 7 corresponds to step S102 in FIG.
  • the determination device 20 acquires the analyst's action history (step S102a).
  • the determination device 20 creates feature information based on the timing of the analyst's request (item 1) (step S102b). Subsequently, the determination device 20 creates characteristic information based on the period requested by the analyst (item 2) (step S102c). Further, the determination device 20 creates feature information based on the analyst's shift (item 3) (step S102d).
  • FIG. 8 is a flowchart showing the flow of prediction processing. As shown in FIG. 8, the determining device 20 first receives an input of the most recent alert (step S201).
  • the determination device 20 extracts feature information from the IOC included in the input alert (step S202). Subsequently, the determination device 20 extracts a correct label based on the analyst's working amount for each IOC (step S203).
  • the determining device 20 inputs the feature information to the learned model and predicts a label related to priority (step S204).
  • the decision device 20 can notify the SOC analyst of the high-priority IOC based on the predicted label.
  • the feature information extraction unit 21 acquires the history of actions taken by the analyst regarding the investigation of IOCs included in the information on cybersecurity.
  • the feature information extraction unit 21 creates IOC feature information based on information obtained from the acquired behavior history.
  • the feature information extraction unit 21 creates feature information based on information about the number of actions and the time interval between actions.
  • the feature information extraction unit 21 can reflect trends in IOC research by analysts in the feature information.
  • the feature information extraction unit 21 creates feature information based on information about the elapsed time from the time when the action was performed within a predetermined time window.
  • the feature information extraction unit 21 can reflect in the feature information whether the IOC has been investigated for a long time or only for a short time.
  • the feature information extraction unit 21 creates feature information based on the date and time when the action was performed and information on the work style of the analyst.
  • the feature information extraction unit 21 can reflect in the feature information the tendency of the research content according to the work shift of the analyst.
  • the feature information extraction unit 21 creates feature information based on information obtained from the behavior history and statistics calculated from the information.
  • the feature information extraction unit 21 can obtain more feature information from limited information.
  • each component of each device illustrated is functionally conceptual, and does not necessarily need to be physically configured as illustrated.
  • the specific form of distribution and integration of each device is not limited to the illustrated one, and all or part of them can be functionally or physically distributed or Can be integrated and configured.
  • all or any part of each processing function performed by each device is realized by a CPU (Central Processing Unit) and a program analyzed and executed by the CPU, or hardware by wired logic can be realized as Note that the program may be executed not only by the CPU but also by other processors such as a GPU.
  • CPU Central Processing Unit
  • the determination device 20 can be implemented by installing a determination program that executes the determination process described above as package software or online software on a desired computer.
  • the information processing device can function as the decision device 20 by causing the information processing device to execute the decision program.
  • the information processing apparatus referred to here includes a desktop or notebook personal computer.
  • information processing devices include mobile communication terminals such as smartphones, mobile phones and PHS (Personal Handyphone Systems), and slate terminals such as PDAs (Personal Digital Assistants).
  • the decision device 20 can also be implemented as a decision server device that uses a terminal device used by a user as a client and provides the client with services related to the above-described decision processing.
  • the determination server device is implemented as a server device that provides a determination service that receives security alerts as inputs and outputs high-priority IOCs.
  • the determination server device may be implemented as a web server, or may be implemented as a cloud that provides services related to the above-described determination processing through outsourcing.
  • FIG. 9 is a diagram showing an example of a computer that executes a determination program.
  • the computer 1000 has a memory 1010 and a CPU 1020, for example.
  • Computer 1000 also has hard disk drive interface 1030 , disk drive interface 1040 , serial port interface 1050 , video adapter 1060 and network interface 1070 . These units are connected by a bus 1080 .
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM (Random Access Memory) 1012 .
  • the ROM 1011 stores a boot program such as BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • Hard disk drive interface 1030 is connected to hard disk drive 1090 .
  • a disk drive interface 1040 is connected to the disk drive 1100 .
  • a removable storage medium such as a magnetic disk or optical disk is inserted into the disk drive 1100 .
  • Serial port interface 1050 is connected to mouse 1110 and keyboard 1120, for example.
  • Video adapter 1060 is connected to display 1130, for example.
  • the hard disk drive 1090 stores, for example, an OS 1091, application programs 1092, program modules 1093, and program data 1094. That is, a program that defines each process of the decision device 20 is implemented as a program module 1093 in which computer-executable code is described. Program modules 1093 are stored, for example, on hard disk drive 1090 .
  • the hard disk drive 1090 stores a program module 1093 for executing processing similar to the functional configuration of the determination device 20 .
  • the hard disk drive 1090 may be replaced by an SSD (Solid State Drive).
  • the setting data used in the processing of the above-described embodiment is stored as program data 1094 in the memory 1010 or the hard disk drive 1090, for example. Then, the CPU 1020 reads the program modules 1093 and program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as necessary, and executes the processes of the above-described embodiments.
  • the program modules 1093 and program data 1094 are not limited to being stored in the hard disk drive 1090, but may be stored in a removable storage medium, for example, and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program modules 1093 and program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). Program modules 1093 and program data 1094 may then be read by CPU 1020 through network interface 1070 from other computers.
  • LAN Local Area Network
  • WAN Wide Area Network
  • security system 10 analysis engine 20 decision device 21 feature information extraction unit 22 labeling unit 23 learning unit 24 prediction unit 25 model information 30 alert monitor 40 IOC checker

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

特徴情報抽出部(21)は、サイバーセキュリティに関する情報に含まれるIOCの調査に関して分析者が行った行動の履歴を取得する。特徴情報抽出部(21)は、取得した行動の履歴から得られる情報を基に、IOCの特徴情報を作成する。

Description

抽出方法、抽出装置及び抽出プログラム
 本発明は、抽出方法、抽出装置及び抽出プログラムに関する。
 企業や組織ではサイバーセキュリティを担保するために、セキュリティ管理や脅威を検知するためのシステムが導入されている。セキュリティオペレーションセンタ(SOC:Security Operation Center)は、このようなシステムの運用を行う組織である。SOCのアナリスト(分析者)は、システムから出力される大量のログやアラートを監視、分析し、必要な対処を行う。
 一方で、下記の参考文献1、2によると、日々大量に発生するアラートを処理するアナリストが、アラート疲労と呼ばれる状況を起こし、アナリストの燃え尽きにつながることが問題視されている。
 参考文献1:S. C. Sundaramurthy, A. G. Bardas, J. Case, X. Ou, M. Wesch, J. McHugh, and S. R. Rajagopalan, “A human capital model for mitigating security analyst burnout,” Proc. SOUPS, 2015.
 参考文献2:Ponemon Institute, “Improving the Effectiveness of the Security Operations Center,” 2019.
 また、上記の問題を解決するために必要なことは、よりすぐれた自動化を実現してアナリストの稼働を削減することである。実際、参考文献3によると、多くのSOCのマネージャは、SOCコンポーネントの自動化レベルが不十分であることが現在のSOC組織における最重要課題であるととらえている。
 参考文献3:F. B. Kokulu, A. Soneji, T. Bao, Y. Shoshitaishvili, Z. Zhao, A. Doupe, and G.-J. Ahn, “Matched and Mismatched SOCs: A Qualitative Study on Security Operations Center Issues,” Proc. ACM CCS, 2019.
 これに対し、例えば、セキュリティに関する各アラートの異常スコアや悪性度スコアを過去のアラートから推定することで、真に悪性なアラートと誤検知となる本来非悪性のアラートとを識別する技術が提案されている(例えば、非特許文献1から5を参照)。
 また、セキュリティに関する各アラートと最も関連性の高い情報を抽出してくることで、アナリストのその後のプロセスをサポートする技術が知られている(例えば、非特許文献6から8を参照)。
W. U. Hassan, S. Guo, D. Li, Z. Chen, K. Jee, Z. Li, and A. Bates, "NoDoze: Combatting Threat Alert Fatigue with Automated Provenance Triage," Proc. NDSS, 2019. A. Oprea, Z. Li, R. Norris, and K. Bowers, "MADE: Security Analytics for Enterprise Threat Detection," Proc. ACSAC, 2018. K. A. Roundy, A. Tamersoy, M. Spertus, M. Hart, D. Kats, M. Dell’Amico, and R. Scott, "Smoke Detector: Cross-Product Intrusion Detection With Weak Indicators," Proc. ACSAC, 2017. Y. Liu, M. Zhang, D. Li, K. Jee, Z. Li, Z. Wu, J. Rhee, and P. Mittal, "Towards a Timely Causality Analysis for Enterprise Security," Proc. NDSS, 2018. P. Najafi, A. Muhle, W. Punter, F. Cheng, and C. Meinel, "MalRank: a measure of maliciousness in SIEM-based knowledge graphs," Proc. ACSAC, 2019. C. Zhong, J. Yen, P. Liu, and R. F. Erbacher, "Automate Cybersecurity Data Triage by Leveraging Human Analysts’ Cognitive Process," Proc. IEEE IDS, 2016. C. Zhong, T. Lin, P. Liu, J. Yen, and K. Chen, "A cyber security data triage operation retrieval system," Comput. Secur., vol.76, pp.12-31, 2018. S. T. Chen, Y. Han, D. H. Chau, C. Gates, M. Hart, and K. A. Roundy, "Predicting Cyber Threats with Virtual Security Products," Proc. ACSAC, 2017.
 しかしながら、従来の技術には、IOCの調査の優先度を決定するために有用な特徴情報が得られない場合があるという問題がある。
 例えば、上記の先行技術文献に記載された技術では、IOCが異常又は悪性であるか否かを決定するのに必要な特徴情報が採用されている。一方で、IOCが異常又は悪性であることと、当該IOCが分析者による詳細な調査が必要であるかどうかは独立である。
 上述した課題を解決し、目的を達成するために、抽出方法は、抽出装置によって実行される抽出方法であって、サイバーセキュリティに関する情報に含まれるIOC(Indicator of Compromise)の調査に関して分析者が行った行動の履歴を取得する取得工程と、前記取得工程によって取得された行動の履歴から得られる情報を基に、IOCの特徴情報を作成する作成工程と、を含むことを特徴とする。
 本発明によれば、IOCの調査の優先度を決定するために有用な特徴情報を得ることができる。
図1は、セキュリティシステムについて説明する図である。 図2は、アラートモニタの画面の例を示す図である。 図3は、IOCチェッカーの画面の例を示す図である。 図4は、第1の実施形態に係る決定装置の構成例を示す図である。 図5は、リクエストの期間の例を示す図である。 図6は、学習処理の流れを示すフローチャートである。 図7は、特徴情報を抽出する処理の流れを示すフローチャートである。 図8は、予測処理の流れを示すフローチャートである。 図9は、決定プログラムを実行するコンピュータの一例を示す図である。
 以下に、本願に係る抽出方法、抽出装置及び抽出プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。なお、本実施形態では、決定装置が抽出装置として機能する。
[第1の実施形態の構成]
 まず、図1を用いて、第1の実施形態に係る決定装置を含むセキュリティシステムについて説明する。図1は、セキュリティシステムについて説明する図である。
 セキュリティシステム1は、顧客組織のセキュリティプライアンスにおいて生じた所定の情報を基に、分析エンジンによる自動分析、又は分析者による分析が行われる。
 セキュリティプライアンスは、例えば侵入防御システム(IPS:Intrusion Prevention System)、プロキシ、サンドボックス、統合脅威管理(UTM:Unified Threat Management)等である。
 SOCでは、セキュリティアプライアンスから取得したセキュリティに関する情報をリアルタイムに分析する。例えば、セキュリティに関する情報にはセキュリティログ及びアラートが含まれる。
 図1の例では、SOCは大規模なMSSP(Managed Security Service Provider)で提供されるアウトソースSOCとして利用されている。一方で、本実施形態は、インハウスSOCにも適用可能である。
 アウトソースSOCとインハウスSOCは組織的な違いはあるが、全体的なワークフローは類似している。このため、スケールメリットを十分に発揮できる規模の組織のインハウスSOCであれば、本実施形態の効果が得られやすい。
 セキュリティシステム1における処理の流れを説明する。図1に示すように、まず、顧客組織のセキュリティアプライアンスは、アラート及びセキュリティログをSOCの分析エンジン10に送信する(ステップS1)。
 以下、アラートについて処理を行う場合の例を説明する。セキュリティシステム1は、セキュリティログについても、アラートと同様に処理することができる。
 分析エンジン10は自動分析を行う(ステップS2)。分析エンジン10は、既知の悪意のある特性や、事前に定義されたルールやブラックリストに基づいて分析を行うことで、アラートに対応する。
 分析エンジン10は、SOAR(Security Orchestration, Automation, and Response)と呼ばれる機能を用いて分析を行ってもよい。
 分析エンジン10は、所定の条件を満たすアラートを決定装置20、アラートモニタ30又はIOCチェッカー40に送信する(ステップS3)。
 このとき、図2に示すように、アラートモニタ30は、アラートに関する情報を表示する。図2は、アラートモニタの画面の例を示す図である。
 例えば、アラートモニタ30には、アラートの原因となったイベントの日付(Date)、顧客名(Customer)、アラートを送信したデバイス(Device)、アラートの名前(Alert Name)、アラートのトリガーとなった状況の概要等が表示される。
 また、図3に示すように、IOCチェッカー40は、アラートに含まれるIOC(Indicator of Compromise)に関する情報を表示する。図3は、IOCチェッカーの画面の例を示す図である。
 例えば、IOCには、ドメイン名、IPアドレス、URL、ファイルハッシュ値等が含まれる。
 図3に示すように、例えば、IOCチェッカー40は、SOCでの調査状況(Status)、IOCの悪性度に関するSOCの直近の判断(SOC Last Decision)、そのIOCの最新の脅威インテリジェンス結果(Detection in TI)等を表示する。
 例えば、分析者は、アラートモニタ30及びIOCチェッカー40といった、IOC評価専用のツールを使って、分析エンジン10によって処理できなかったアラートについてIOCのトリアージ(評価)を行う。
 SOCの分析者は日頃のSOCワークフローで大量のアラートを処理する。そこで、決定装置20は、優先度が高いIOCを決定し、分析者に通知する。これにより、SOCにおいて複数の分析者が同じIOCを手動で評価することを防止することができる。
 また、決定装置20によれば、優先度が高いIOCを優先して分析することができるため、分析者の稼働量に対する効果を向上させることができる。
 決定装置20は、モデルの学習、又はモデルを用いてIOCの優先度の予測を行う(ステップS4)。そして、決定装置20は、予測結果に基づき優先度が高いIOCを決定し、当該決定したIOCを通知する(ステップS5)。
 例えば、決定装置20は、決定したIOCを、IOCチェッカー40を介して分析者に通知する。
 分析者は、通知された優先度に基づき分析を実施する(ステップS6)。また、分析者は、分析の過程で脅威インテリジェンスサービス(例えば、VirusTotal(https://www.virustotal.com/))の検索を行ってもよい(ステップS7)。
 脅威インテリジェンスサービスの中には、脅威のレベルや悪性度に関するスコアを提供するものがある。しかしながら、本来そのようなスコアは必ずしも分析者の次のアクションを決定するものではない。
 例えば、既にパッチが展開されている脆弱性を利用した攻撃に関連したIOCは、悪性であるスコアが高いかもしれないが、顧客組織を守るという観点では差し迫った脅威ではない。
 このように、SOCにおけるアラート分析は単純ではないため、アラート分析を完全自動化することは難しく、分析者による判断が必要になる場合がある。
 このため、決定装置20による優先度が高いIOCの決定は、分析者の判断の時間を確保し、また各IOCの調査稼働を削減するために有用であるということができる。
 分析者は、最終的に分析対象のアラート及び当該アラートに含まれたIOCが悪性か非悪性かを判断し、さらに顧客への報告が必要かどうかを判断し、顧客への報告が必要な場合、顧客組織のシステム管理者等に報告を行う(ステップS8)。
 例えば、分析者があるIOCの評価を完了すると、その結果に基づいて、分析エンジン10におけるアラートのトリガーされる条件を変更することができる。
 例えば、分析者による評価で明らかに悪性のIOCが特定された場合、カスタムブラックリスト又はカスタムシグネチャとして当該IOCを分析エンジン10において使用することができる。
 その場合、同一IOCを含むログをSOCの他の顧客でも自動的に検知できるようにすることができる。また、評価で誤検知や脅威レベルが少ないIOCが特定された場合、アラートをトリガーするSIEMロジックが変更され、同じ誤検知アラートが再び発生するのを防ぐことができ、分析者の稼働削減につながる。
 以降、決定装置20が優先度の高いIOCを決定する処理について、決定装置20の構成とともに詳細に説明する。
 図4は、第1の実施形態に係る決定装置の構成例を示す図である。図4に示すように、決定装置20は、特徴情報抽出部21、ラベル付与部22、学習部23、予測部24及びモデル情報25を有する。
 決定装置20は、機械学習手法によるモデルの学習処理、及び学習済みのモデルを使った予測処理を行う。
 学習処理では、特徴情報抽出部21、ラベル付与部22及び学習部23が用いられる。また、予測処理では、特徴情報抽出部21及び予測部24が用いられる。
 特徴情報抽出部21は、サイバーセキュリティに関する情報に含まれるIOCから特徴情報を抽出する。例えば、サイバーセキュリティに関する情報は、分析エンジン10から取得するアラートである。
 特徴情報抽出部21は、分析エンジン10から入手した過去のアラートに含まれるIOCから、当該IOCの特性を特徴づける情報(以後、特徴情報)を抽出する。
 特徴情報は、IOCに含まれるドメイン名、IPアドレス、URL、ファイルハッシュ値等であってもよい。
 例えば、特徴情報抽出部21は、あらかじめ定められた一定の日数の間に発生したアラートから特徴情報を抽出する。
 ここで、特徴情報抽出部21による特徴情報の抽出方法を詳細に説明する。特徴情報抽出部21は、取得部及び作成部を有する抽出装置として機能する。
 取得部は、サイバーセキュリティに関する情報に含まれるIOCの調査に関して分析者が行った行動の履歴を取得する。作成部は、取得部によって取得された行動の履歴から得られる情報を基に、IOCの特徴情報を作成する。
 特徴情報抽出部21は、SOC全体として各IOCをどのシフトの分析者がいつどのくらい調査したのかという行動の履歴に基づいて特徴情報を作成する。
 例えば、特徴情報抽出部21は、分析者が各IOCを調査するために実施したリクエストを観測し、その観測情報から特徴情報を作成する。
 図1のステップS7に示すように、分析者は、SOCワークフローにおいて、顧客組織からのアラートに含まれるIOCについて、脅威インテリジェンスサービスへ検索のためのリクエストを送る場合がある。
 そこで、特徴情報抽出部21は、脅威インテリジェンスサービスへのリクエストの情報を分析者の行動履歴として入手することができる。
 特徴情報抽出部21は、各分析者の行動履歴を個別に詳細に取得する必要はない。また、特徴情報抽出部21は、日頃のSOCワークフローを変えることなく行動履歴を取得することができる。また、大部分のSOCで、上記のような行動履歴は容易に入手可能である。
 本実施形態では、特徴情報抽出部21は、3つの大項目及び8つの小項目からなる合計80個の特徴情報を抽出するものとする。
 特徴情報抽出部21は、5つの異なるタイムウィンドウ(例えば、1日、3日、7日、14日、30日)を用いて特徴情報を抽出する。
 このように複数の異なるタイムウィンドウを用いることにより、特徴情報抽出部21は、短い期間でバースト的に観測されるアラートに含まれるIOCと、より長い期間で観測されるアラートのIOCとを識別可能にすることができる。
 また、特徴情報抽出部21は、直近の1週間を1日、3日、7日にさらに分割することで、より直近の情報を重視したリアルタイムでの優先度の予測に適した特徴情報を得ることができる。
 各項目の特徴情報について説明する。まず、項目1の特徴情報は、分析者のリクエストのタイミングに基づく特徴情報である。項目1に包含される特徴情報は、例えば55個である。以下項目X-Yのように表記される項目の特徴情報は、項目Xに包含される特徴情報であるものとする。
 特徴情報抽出部21は、行動の回数及び行動が行われた時間の間隔に関する情報を基に、項目1に包含される特徴情報を作成する。例えば、行動の回数及び行動が行われた時間の間隔は、脅威インテリジェントサービスへのリクエストの回数及びリクエストの間隔である。
(項目1-1)
 特徴情報抽出部21は、5つのタイムウィンドウ(例えば1日、3日、7日、14日、30日)ごとの、当該SOCが利用している脅威インテリジェンスサービスへのリクエストクエリ数を特徴情報としてカウントする。これにより、特徴情報抽出部21は、例えば5個の特徴情報を得る。
 項目1-1の特徴情報を利用している理由は、SOCアナリストが手動で調査を実施した疑わしい候補のIOCに、それぞれ異なる特徴があるためである。
 例えば、短期的に多くの顧客組織で同時に観測されるようなアラートに含まれるIOCがあったり、その逆に長期的に複数の顧客組織で観測されるようなIOCがあったりする。
(項目1-2)
 特徴情報抽出部21は、項目1-1におけるリクエスト数の平均、最小、最大、標準偏差、分散といった統計量を特徴情報として計算する。これにより、特徴情報抽出部21は、例えば25個の特徴情報を得る。
 このように、特徴情報抽出部21は、行動の履歴から得られる情報、及び情報から計算される統計量を基に、特徴情報を作成する。
 項目1-2の特徴情報によれば、各タイムウィンドウ内で、当該SOC拠点の複数のアナリストがどのように当該IOCを調査していたかという傾向を把握することができる。
(項目1-3)
 特徴情報抽出部21は、リクエスト間の時間間隔の平均、最小、最大、標準偏差、分散といった統計量を特徴情報として計算する。これにより、特徴情報抽出部21は、例えば25個の特徴情報を得る。
 項目1-3の特徴情報は、特定の顧客企業に対する標的型攻撃で使用されるIOCの調査リクエストと、複数の企業に無差別的に実施される非標的型攻撃で使用されるIOCの調査リクエストを区別することに寄与する。
 例えば、標的型攻撃に使用されたIOCは、一部の企業やその従業員にしか到達せず、結果SOCアナリストが調査することは相対的に希である。一方で、非標的型攻撃に使用されたIOCは、企業及び従業員にかかわらず広くばらまかれるために、短期間で同一SOC拠点の複数のアナリストが調査することになる。
 項目2の特徴情報は、分析者のリクエストの期間に基づく特徴情報である。項目2に包含される特徴情報は、例えば15個である。
 特徴情報抽出部21は、所定のタイムウィンドウの中で行動が行われた時点からの経過時間に関する情報を基に、項目2に包含される特徴情報を作成する。項目2で用いられる各期間は、図5に示す通りである。図5は、リクエストの期間の例を示す図である。
(項目2-1)
 特徴情報抽出部21は、タイムウィンドウごとの、最初の調査日からの経過日数を特徴情報として計算する。これにより、特徴情報抽出部21は、例えば5個の特徴情報を得る。
 項目2-1の特徴情報によれば、分析者による調査が早くから行われていたIOCと、最近から調査が行われたIOCとを区別することができる。
(項目2-2)
 特徴情報抽出部21は、タイムウィンドウごとの、最後の調査日からの経過日数を特徴情報として計算する。これにより、特徴情報抽出部21は、例えば5個の特徴情報を得る。
 項目2-2の特徴情報によれば、IOCが分析者によって最近まで継続して調査されてきたものであるか否かを区別することができる。
(項目2-3)
 特徴情報抽出部21は、タイムウィンドウごとの、分析者による最初の調査日から最後の調査日までの経過日数を特徴情報として計算する。これにより、特徴情報抽出部21は、例えば5個の特徴情報を得る。
 項目2-3の特徴情報によれば、分析者によって長期間調査されてきたIOCと、短期間しか調査されていないIOCとを区別することができる。
 項目3の特徴情報は、分析者のシフトに基づく特徴情報である。項目3に包含される特徴情報は、例えば10個である。
 特徴情報抽出部21は、行動が行われた時の日時、及び分析者の勤務形態に関する情報を基に、項目3の特徴情報を作成する。
(項目3-1)
 特徴情報抽出部21は、タイムウィンドウごとの、分析者が脅威インテリジェンスサービスへリクエストを行った日が平日である割合を特徴情報として計算する。例えば、平日は、SOCの拠点がある場所の現地時間における月曜日から金曜日であるものとする。これにより、特徴情報抽出部21は、例えば5個の特徴情報を得る。
 SOCの分析者は、平日は顧客組織から直近で観測されたアラートに含まれるIOCを調査することが多い。一方で、分析者は、週末は通常とは異なるIOCを調査したり、アラートの絶対数が少なくなるため平日にはできない脅威の能動的な調査を行ったりする傾向がある。項目3-1の特徴情報はこのような傾向を考慮した特徴情報である。
(項目3-2)
 特徴情報抽出部21は、タイムウィンドウごとの、分析者が脅威インテリジェンスサービスへリクエストを行った時刻が日勤帯である割合を特徴情報として計算する。例えば、分析者のシフトには、24時間365日の対応を行うために、日勤(例えば8:00から16:00)及び夜勤(例えば16:00から翌日の8:00)がある場合がある。これにより、特徴情報抽出部21は、例えば5個の特徴情報を得る。
 前述の平日と週末の関係と同様に、日勤と夜勤とで分析者による調査の傾向が異なる場合がある。項目3-2の特徴情報はこのような傾向を考慮した特徴情報である。
 ラベル付与部22は、IOCのそれぞれについて、関連するアラートの対応に要した稼働量の実績に応じたラベルを付与する。
 ここでは、ラベルは優先度が高いか否かを表す二値データであるものとする。例えば、ラベル付与部22は、過去に分析者の稼働を多く消費したIOCについては、優先度が高いことを示すラベルを付与し、そうでないものについては優先度が高くないことを示すラベルを付与する。
 なお、従来技術(例えば、非特許文献4から8に記載の技術)では、IOCが悪性のもの(又は悪意があるもの)であるか否かを示すラベルが付与されていた。一方で、本実施形態では、分析者の稼働量に基づきラベルが付与される。
 ラベル付与部22は、IOCのうち、関連するアラートに対して一定期間内に発生した手動調査の回数が所定値以上であるIOCについて、優先度が高いことを示すラベルを付与し、手動調査の回数が所定値未満であるIOCについて、優先度が高くないことを示すラベルを付与する。
 以降の説明では、優先度が高いことを示すラベルを「優先」、優先度が高くないことを示すラベルを「非優先」と表記する。
 学習部23は、特徴情報抽出部21によって抽出された特徴情報及びラベル付与部22によって付与されたラベルを組み合わせた学習データを用いて、IOCの特徴情報からラベルを出力するモデルの学習を行う。
 学習部23は、教師あり機械学習により、モデルの作成及び更新を行う。モデル情報25は、モデルを構築するためのパラメータ等を含む情報である。学習部23は、モデル情報25の作成及び更新を行う。
 学習部23は、既知の任意の教師あり機械学習のアルゴリズムを採用することが可能である。本実施形態では、学習部23は標準的なロジスティック回帰を採用するものとする。
 ロジスティック回帰は、スケーラブルで高速なので、SOC環境のように多くの顧客からの大量のアラートに含まれるIOCを予測するのに適している。
 また、ロジスティック回帰は解釈可能性が高いことが知られている。ロジスティック回帰の出力は、その性質上、入力されたIOCが優先される確率として解釈でき、さらに各IOCに対応する特徴情報のうちどの特徴が結果に貢献しているかを示すことができる。このように、ロジスティック回帰には解釈可能性が高いという利点がある。
 ここでは、学習部23は、特にL1正則化つきロジスティック回帰を利用するものとする。
 まず、学習部23は、特徴情報抽出部21によって抽出された特徴情報を表すベクトルxが与えられたとき、(1)式に示すラベルの条件付き確率yを、(2)式のようにモデル化する。
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000002
 ここで、θはロジスティック回帰モデルのパラメータである。また、σはシグモイド関数である。また、xの全ての特徴は、[0,1]の範囲に正規化されるものとする。
 学習部23は、正則化の度合いを決定するハイパーパラメータλを導入した(4)式の目的関数を最小化する際のパラメータθを求めるために、(3)式に示すn個のラベル付きの学習用データの集合を使用する。
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000004
 (4)式のうち、L1正則化部分λ||θ||は、目的関数にペナルティを加えており、有意に寄与しない特徴情報を識別して削減する効果がある。
 このような特徴量の削減は必要以上に学習データに合わせてしまうオーバーフィッティングの防止に寄与するだけでなく、メモリ使用量の削減や、SOCアナリストに提示する結果をより簡潔で解釈しやすいものにする効果がある。
 予測部24は、学習部23による学習が行われたモデルを用いて、IOCの特徴情報からラベルを予測する。
 予測部24は、学習部23によって学習が行われたモデルを利用して、新たにリアルタイムで発生したアラートに含まれるIOCと対応する特徴情報を入力し、どのIOCが将来的に分析者の稼働を多く消費することになるのかを予測する。
 例えば、予測部24は、モデル情報25を基に構築したロジスティック回帰モデルを使って予測を行う。
 例えば、予測部24は、分析者が対象のIOCをP日以内にK回以上手動で分析する確率を予測することである(ただし、Pは整数)。
 予測部24は、学習部23によって決定されたパラメータθを用いて、IOCに対応する特徴情報のベクトルxが「優先」である確率p求め、予測するラベル^y(yの直上に^)を(5)式で定義する。
Figure JPOXMLDOC01-appb-M000005
 決定装置20は、予測部24によって予測されたラベルを基に、SOCの分析者による繰り返しの調査につながると考えられるIOC、すなわち「優先」ラベルが予測されたIOCを、確率pが高い順に出力し、分析者に提示する。
 このとき、分析者は、決定装置20によって提示された情報を利用して、調査対象の優先順位付けを行い、効率的にトリアージや詳細分析を行うことができる。
 SOCの分析者は、IOCに対してどのようなアクションを取るべきかを可能な限り決定し記録することが求められる。
 本実施形態によれば、分析者は優先度が高いIOCを調査し、その結果を分析エンジン10に反映させることができる。それによって、分析エンジン10は同じIOCを含むアラートを自動処理できるようになるため、分析者が毎回当該IOCを手動で調査することを回避し、SOC全体としての稼働量の削減を図ることができる。
 例えば、分析者は優先度が高いと決定されたIOCを調査し、その結果を基に分析エンジン10に当該IOCを自動分析させるようにする。これにより、当該IOCは他の分析者に受け渡されることがなくなるため、稼働量が削減される。
 なお、決定装置20は、学習処理をオフラインで定期的(例えば1日に1回)に再実行し、モデル情報25を更新する。決定装置20は、図5に示す特徴情報抽出時点前後の所定の期間のデータを利用して学習処理を行う。例えば、決定装置20は、特徴抽出時点までのF日間(タイムウィンドウに相当)と特徴情報抽出時点からのL日間を合わせたF+L日間のデータを利用して学習処理を行う(ただし、F及びLは整数)。
 一方、決定装置20が、顧客組織からのアラートに含まれるIOCをリアルタイムに処理する際、すなわち予測処理を行う際には、当該IOCに対して、過去F日間分のデータを利用して特徴情報を抽出する。
 そして、決定装置20は、抽出した特徴情報から、未来のP日間に分析者によるK回以上の手動調査が実施される確率pを計算する。
 決定装置20は、上記の予測処理をリアルタイムに受信するIOCごとに繰り返す。その結果、分析者が優先的に調査するべきIOCのリストが、図3のようにIOCチェッカー40の画面に表示され継続的に更新される。
[第1の実施形態の処理]
 図6は、学習処理の流れを示すフローチャートである。図6に示すように、まず、決定装置20は、過去のアラートの入力を受け付ける(ステップS101)。
 次に、決定装置20は、入力されたアラートに含まれるIOCから特徴情報を抽出する(ステップS102)。続いて、決定装置20は、各IOCに対する分析者の稼働量に基づいて優先度に関する正解ラベルを付与する(ステップS103)。
 そして、決定装置20は、正解ラベルを用いて、特徴情報から優先度に関するラベルを出力するモデルを学習する(ステップS104)。
 図7は、特徴情報を抽出する処理の流れを示すフローチャートである。図7の処理は、図6のステップS102に相当する。
 まず、図7に示すように、決定装置20は、分析者の行動履歴を取得する(ステップS102a)。
 次に、決定装置20は、分析者のリクエストのタイミングに基づく特徴情報を作成する(項目1)(ステップS102b)。続いて、決定装置20は、分析者のリクエストの期間に基づく特徴情報を作成する(項目2)(ステップS102c)。さらに、決定装置20は、分析者のシフトに基づく特徴情報を作成する(項目3)(ステップS102d)。
 図8は、予測処理の流れを示すフローチャートである。図8に示すように、まず、決定装置20は、直近のアラートの入力を受け付ける(ステップS201)。
 次に、決定装置20は、入力されたアラートに含まれるIOCから特徴情報を抽出する(ステップS202)。続いて、決定装置20は、各IOCに対する分析者の稼働量に基づいて正解ラベルを抽出する(ステップS203)。
 そして、決定装置20は、特徴情報を学習済みのモデルに入力して、優先度に関するラベルを予測する(ステップS204)。
 決定装置20は、予測したラベルに基づき優先度の高いIOCをSOCの分析者に通知することができる。
[第1の実施形態の効果]
 これまで説明してきたように、特徴情報抽出部21は、サイバーセキュリティに関する情報に含まれるIOCの調査に関して分析者が行った行動の履歴を取得する。特徴情報抽出部21は、取得した行動の履歴から得られる情報を基に、IOCの特徴情報を作成する。
 これにより、IOCの調査の優先度を決定するために有用な特徴情報を得ることができる。
 特徴情報抽出部21は、行動の回数及び行動が行われた時間の間隔に関する情報を基に、特徴情報を作成する。
 これにより、特徴情報抽出部21は、分析者によるIOCの調査の傾向を特徴情報に反映させることができる。
 特徴情報抽出部21は、所定のタイムウィンドウの中で行動が行われた時点からの経過時間に関する情報を基に、特徴情報を作成する。
 これにより、特徴情報抽出部21は、IOCが長い間調査が行われてきたものであるか、又は短い間しか調査が行われていないものであるかを特徴情報に反映させることができる。
 特徴情報抽出部21は、行動が行われた時の日時、及び分析者の勤務形態に関する情報を基に、特徴情報を作成する。
 これにより、特徴情報抽出部21は、分析者の勤務シフトに応じた調査内容の傾向を特徴情報に反映させることができる。
 特徴情報抽出部21は、行動の履歴から得られる情報、及び情報から計算される統計量を基に、特徴情報を作成する。
 これにより、特徴情報抽出部21は、限られた情報からさらに多くの特徴情報を得ることができる。
[システム構成等]
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU(Central Processing Unit)及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。なお、プログラムは、CPUだけでなく、GPU等の他のプロセッサによって実行されてもよい。
 また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
 一実施形態として、決定装置20は、パッケージソフトウェアやオンラインソフトウェアとして上記の決定処理を実行する決定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の決定プログラムを情報処理装置に実行させることにより、情報処理装置を決定装置20として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
 また、決定装置20は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の決定処理に関するサービスを提供する決定サーバ装置として実装することもできる。例えば、決定サーバ装置は、セキュリティに関するアラートを入力とし、優先度の高いIOCを出力とする決定サービスを提供するサーバ装置として実装される。この場合、決定サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の決定処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。
 図9は、決定プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
 ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、決定装置20の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、決定装置20における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
 また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020は、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した実施形態の処理を実行する。
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 1 セキュリティシステム
 10 分析エンジン
 20 決定装置
 21 特徴情報抽出部
 22 ラベル付与部
 23 学習部
 24 予測部
 25 モデル情報
 30 アラートモニタ
 40 IOCチェッカー

Claims (7)

  1.  抽出装置によって実行される抽出方法であって、
     サイバーセキュリティに関する情報に含まれるIOC(Indicator of Compromise)の調査に関して分析者が行った行動の履歴を取得する取得工程と、
     前記取得工程によって取得された行動の履歴から得られる情報を基に、IOCの特徴情報を作成する作成工程と、
     を含むことを特徴とする抽出方法。
  2.  前記作成工程は、前記行動の回数及び前記行動が行われた時間の間隔に関する情報を基に、前記特徴情報を作成することを特徴とする請求項1に記載の抽出方法。
  3.  前記作成工程は、所定のタイムウィンドウの中で前記行動が行われた時点からの経過時間に関する情報を基に、前記特徴情報を作成することを特徴とする請求項1に記載の抽出方法。
  4.  前記作成工程は、前記行動が行われた時の日時、及び前記分析者の勤務形態に関する情報を基に、前記特徴情報を作成することを特徴とする請求項1に記載の抽出方法。
  5.  前記作成工程は、前記行動の履歴から得られる情報、及び前記情報から計算される統計量を基に、前記特徴情報を作成することを特徴とする請求項1から4のいずれか1項に記載の抽出方法。
  6.  サイバーセキュリティに関する情報に含まれるIOC(Indicator of Compromise)の調査に関して分析者が行った行動の履歴を取得する取得部と、
     前記取得部によって取得された行動の履歴から得られる情報を基に、IOCの特徴情報を作成する作成部と、
     を有することを特徴とする抽出装置。
  7.  コンピュータに、
     サイバーセキュリティに関する情報に含まれるIOC(Indicator of Compromise)の調査に関して分析者が行った行動の履歴を取得する取得手順と、
     前記取得手順によって取得された行動の履歴から得られる情報を基に、IOCの特徴情報を作成する作成手順と、
     を実行させることを特徴とする抽出プログラム。
PCT/JP2021/018117 2021-05-12 2021-05-12 抽出方法、抽出装置及び抽出プログラム WO2022239161A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2021/018117 WO2022239161A1 (ja) 2021-05-12 2021-05-12 抽出方法、抽出装置及び抽出プログラム
JP2023520662A JPWO2022239161A1 (ja) 2021-05-12 2021-05-12

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/018117 WO2022239161A1 (ja) 2021-05-12 2021-05-12 抽出方法、抽出装置及び抽出プログラム

Publications (1)

Publication Number Publication Date
WO2022239161A1 true WO2022239161A1 (ja) 2022-11-17

Family

ID=84028045

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/018117 WO2022239161A1 (ja) 2021-05-12 2021-05-12 抽出方法、抽出装置及び抽出プログラム

Country Status (2)

Country Link
JP (1) JPWO2022239161A1 (ja)
WO (1) WO2022239161A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016117132A1 (ja) * 2015-01-23 2016-07-28 株式会社Ubic 電子メール分析システム、電子メール分析システムの制御方法、及び電子メール分析システムの制御プログラム
JP2018521430A (ja) * 2015-05-04 2018-08-02 ハサン・シェド・カムラン コンピュータネットワークにおけるセキュリティを管理する方法及び装置
WO2018235252A1 (ja) * 2017-06-23 2018-12-27 日本電気株式会社 分析装置、ログの分析方法及び記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016117132A1 (ja) * 2015-01-23 2016-07-28 株式会社Ubic 電子メール分析システム、電子メール分析システムの制御方法、及び電子メール分析システムの制御プログラム
JP2018521430A (ja) * 2015-05-04 2018-08-02 ハサン・シェド・カムラン コンピュータネットワークにおけるセキュリティを管理する方法及び装置
WO2018235252A1 (ja) * 2017-06-23 2018-12-27 日本電気株式会社 分析装置、ログの分析方法及び記録媒体

Also Published As

Publication number Publication date
JPWO2022239161A1 (ja) 2022-11-17

Similar Documents

Publication Publication Date Title
JP6916300B2 (ja) セキュリティ脅威検出のための危殆化のインジケータを収集すること
US11792229B2 (en) AI-driven defensive cybersecurity strategy analysis and recommendation system
US11647039B2 (en) User and entity behavioral analysis with network topology enhancement
US10262145B2 (en) Systems and methods for security and risk assessment and testing of applications
Shen et al. {ATTACK2VEC}: Leveraging temporal word embeddings to understand the evolution of cyberattacks
US11245713B2 (en) Enrichment and analysis of cybersecurity threat intelligence and orchestrating application of threat intelligence to selected network security events
US20220224723A1 (en) Ai-driven defensive cybersecurity strategy analysis and recommendation system
US11562064B2 (en) Machine learning-based security alert escalation guidance
EP3192232B1 (en) Dynamic quantification of cyber-security risks in a control system
Mariani et al. Predicting failures in multi-tier distributed systems
JP2018163537A (ja) 情報処理装置、情報処理方法、プログラム
WO2021216163A2 (en) Ai-driven defensive cybersecurity strategy analysis and recommendation system
CN114127720A (zh) 用于多源漏洞管理的系统和方法
Sample et al. An overview of anomaly detection
EP3772006B1 (en) Advance incident scoring
WO2020019063A1 (en) Systems and methods for cybersecurity risk assessment of users of a computer network
US20230412620A1 (en) System and methods for cybersecurity analysis using ueba and network topology data and trigger - based network remediation
Ehis Optimization of Security Information and Event Management (SIEM) Infrastructures, and Events Correlation/Regression Analysis for Optimal Cyber Security Posture
US20200007559A1 (en) Web Threat Investigation Using Advanced Web Crawling
EP3772003B1 (en) Mapping unbounded incident scores to a fixed range
WO2022239161A1 (ja) 抽出方法、抽出装置及び抽出プログラム
WO2022239162A1 (ja) 決定方法、決定装置及び決定プログラム
WO2022239166A1 (ja) 抽出方法、抽出装置及び抽出プログラム
Pandey et al. Malware Analysis in Web Application Security: An Investigation and Suggestion
JP2017182398A (ja) 情報処理装置、情報処理方法、プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21941895

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023520662

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 18290025

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21941895

Country of ref document: EP

Kind code of ref document: A1