WO2016140038A1 - 通信先悪性度算出装置、通信先悪性度算出方法及び通信先悪性度算出プログラム - Google Patents

通信先悪性度算出装置、通信先悪性度算出方法及び通信先悪性度算出プログラム Download PDF

Info

Publication number
WO2016140038A1
WO2016140038A1 PCT/JP2016/054102 JP2016054102W WO2016140038A1 WO 2016140038 A1 WO2016140038 A1 WO 2016140038A1 JP 2016054102 W JP2016054102 W JP 2016054102W WO 2016140038 A1 WO2016140038 A1 WO 2016140038A1
Authority
WO
WIPO (PCT)
Prior art keywords
communication destination
malignancy
target
destination
calculating
Prior art date
Application number
PCT/JP2016/054102
Other languages
English (en)
French (fr)
Inventor
大紀 千葉
毅 八木
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2017503394A priority Critical patent/JP6196008B2/ja
Priority to EP16758732.8A priority patent/EP3252646B1/en
Priority to US15/554,136 priority patent/US10701085B2/en
Publication of WO2016140038A1 publication Critical patent/WO2016140038A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present invention relates to a communication destination malignancy calculation apparatus, a communication destination malignancy calculation method, and a communication destination malignancy calculation program.
  • Measures implemented on the terminal and those implemented on the network are used as cyber attack countermeasures.
  • measures to be implemented on the terminal methods using anti-virus software, methods using host type IDS (Intrusion Detection System) and host type IPS (Intrusion Prevention System) are used. In these methods, software is installed in the terminal to implement countermeasures.
  • IDS Intrusion Detection System
  • IPS Intrusion Prevention System
  • an inspection device is arranged on a communication path of a network.
  • a technique for inspecting communication of a DNS query or a DNS response at a place where communication to a DNS server can be monitored in a communication path of a network has been proposed (see, for example, Non-Patent Document 1 or 2).
  • SIEM Security Information and Event Management
  • malware infection attacks and other cyber attacks are collected on a decoy system called a honeypot.
  • malware is actually operated by a malware analysis system called a sandbox to collect malware communication destinations and communication contents, and communication destinations and communication contents determined to be attacks by spam mail countermeasure systems and DDoS countermeasure systems. Collect information on communications related to attacks.
  • the IP address of the communication destination is blacklisted, and communication with the IP address as a partner is determined as an attack.
  • the information to be blacklisted may be a uniform resource locator (URL: Uniform Resource Locator) or a domain name.
  • URL Uniform Resource Locator
  • the URL or domain name may be blacklisted with a regular expression. .
  • the notation method of each item may differ depending on the device or software, but in recent years SIEM products As a result, a technique for converting log information shown in different notations into a unified notation method and tabulating the information is also widespread.
  • malware when analyzing malware in the sandbox, the malware generates access to benign communication destinations and access to malicious communication destinations that change over time for the purpose of interfering with the analysis and confirming connection to the Internet.
  • it is difficult to comprehensively and accurately identify and blacklist malignant communication destinations simply by collecting communication information related to cyber attacks.
  • Non-Patent Document 1 or 2 proposes a method of blacklisting malicious communication destinations that have not been specified at that time using information collected up to a certain time. There is a problem that it is not possible to identify a malicious communication destination that is used in general and an malicious communication destination secured by an attacker for preparation for an attack.
  • An object of the present invention is to automatically calculate the malignancy level of a communication destination without causing actual communication, and to accurately identify a malignant communication destination that cannot be identified only by referring to the latest blacklist.
  • the communication destination malignancy calculation apparatus includes a target communication destination input unit that inputs a target communication destination that is a target for calculating malignancy, a communication destination that is known to be malignant, and a benign that is known to be benign.
  • a feature extraction unit that extracts changes with time of presence / absence of publication as feature information of the known communication destination and the target communication destination, and the target communication destination based on the feature information of the known communication destination and the target communication destination
  • a malignancy degree calculation unit for calculating the malignancy degree of.
  • the communication destination malignancy calculation method of the present invention includes a target communication destination input step for inputting a target communication destination that is a target for calculating malignancy, a communication destination that is known to be malignant, and a benign that is known to be benign.
  • a known communication destination input step for inputting a communication destination as a known communication destination, and the presence or absence of posting at a predetermined time in a list for communication destination evaluation of the known communication destination and the target communication destination,
  • a malignancy level calculating step for calculating the malignancy level of.
  • the communication destination malignancy calculation program of the present invention is benign to a target communication destination input step for inputting a target communication destination that is a target for calculating malignancy, a communication destination that is known to be malignant, and the like.
  • a malignancy calculating step for calculating a malignancy of the target communication destination.
  • the present invention it is possible to automatically calculate the malignancy level of a communication destination without causing actual communication, and to accurately identify a malignant communication destination that cannot be determined only by referring to the latest blacklist.
  • FIG. 1 is a diagram illustrating an example of a configuration of a communication destination malignancy degree calculation system according to the first embodiment.
  • FIG. 2 is a diagram illustrating an example of a target communication destination in the communication destination malignancy calculation apparatus according to the first embodiment.
  • FIG. 3 is a diagram illustrating an example of a known communication destination in the communication destination malignancy calculation apparatus according to the first embodiment.
  • FIG. 4 is a diagram illustrating an example of communication destination evaluation information in the communication destination malignancy calculation apparatus according to the first embodiment.
  • FIG. 5 is a diagram illustrating an example of communication destination evaluation information in the communication destination malignancy calculation apparatus according to the first embodiment.
  • FIG. 6 is a diagram illustrating an example of communication destination evaluation information in the communication destination malignancy calculation apparatus according to the first embodiment.
  • FIG. 1 is a diagram illustrating an example of a configuration of a communication destination malignancy degree calculation system according to the first embodiment.
  • FIG. 2 is a diagram illustrating an example of a target communication destination in the
  • FIG. 7 is a diagram illustrating an example of a correspondence relationship of communication destinations in the communication destination malignancy calculation apparatus according to the first embodiment.
  • FIG. 8 is a diagram illustrating an example of external information of an IP address in the communication destination malignancy calculation apparatus according to the first embodiment.
  • FIG. 9 is a diagram illustrating an example of a method for extracting an IP address group related to a domain name in the communication destination malignancy calculation apparatus according to the first embodiment.
  • FIG. 10 is a diagram illustrating an example of a list of IP address groups related to domain names in the communication destination malignancy calculation apparatus according to the first embodiment.
  • FIG. 11 is a diagram illustrating an example of feature information extracted from an IP address group related to a domain name in the communication destination malignancy calculation apparatus according to the first embodiment.
  • FIG. 12 is a diagram illustrating an example of external information of a domain name in the communication destination malignancy calculation apparatus according to the first embodiment.
  • FIG. 13 is a diagram illustrating an example of a method for extracting a domain name group related to a domain name in the communication destination malignancy calculation apparatus according to the first embodiment.
  • FIG. 14 is a diagram illustrating an example of a list of domain name groups related to domain names in the communication destination malignancy calculation apparatus according to the first embodiment.
  • FIG. 15 is a diagram illustrating an example of feature information extracted from a domain name group related to a domain name in the communication destination malignancy calculation apparatus according to the first embodiment.
  • FIG. 16 is a diagram illustrating an example of the malignancy calculated by the communication destination malignancy calculation apparatus according to the first embodiment.
  • FIG. 17 is a diagram illustrating an example of integrated feature information in the communication destination malignancy calculation apparatus according to the first embodiment.
  • FIG. 18 is a diagram illustrating an example of the malignancy calculated by the communication destination malignancy calculation apparatus according to the first embodiment.
  • FIG. 19 is a diagram illustrating an example of processing of the communication destination malignancy calculation apparatus according to the first embodiment.
  • FIG. 20 is a diagram illustrating an example of processing performed by the communication destination malignancy calculation apparatus according to the first embodiment.
  • FIG. 21 is a diagram illustrating an example of a computer that functions as a communication destination malignancy calculation apparatus.
  • FIG. 1 is a diagram illustrating an example of a configuration of a communication destination malignancy degree calculation system according to the first embodiment.
  • the communication destination malignancy calculation system 10 includes a communication destination malignancy calculation device 100 and a communication destination information collection device 200.
  • the communication destination malignancy calculation apparatus 100 includes a target communication destination input unit 101, a known communication destination input unit 102, a feature extraction unit 103, and a malignancy calculation unit 104.
  • FIG. 2 is a diagram illustrating an example of a target communication destination in the communication destination malignancy calculation apparatus according to the first embodiment.
  • the type of communication destination includes a domain name, URL, IP address, and the like.
  • the line of serial number 1 in FIG. 2 indicates a communication destination whose domain name is “www.example.com”.
  • the type of communication destination is not limited to that shown in the figure, and may be FQDN (Fully Qualified Domain Name) or the like.
  • evaluation information and external information do not need to be included at this point as communication destination information input to the target communication destination input unit 101.
  • FIG. 3 is a diagram illustrating an example of a known communication destination in the communication destination malignancy calculation apparatus according to the first embodiment.
  • the data of the known communication destination first includes the type of communication destination and the communication destination as in the case of the target communication destination shown in FIG. Furthermore, information indicating malignancy or benign as shown in the label row of FIG. 3 is also required. For example, the line of serial number 1 in FIG. 3 indicates that the label of the communication destination whose domain name is “foo.example.com” is “benign”.
  • the information shown in the label column is a malignant or benign binary value, but is not limited to that shown in FIG. 3, and may be a value indicating the degree of malignancy.
  • the type of communication destination is not limited to that shown in the figure.
  • the feature extraction unit 103 acquires presence / absence of a known communication destination and a target communication destination in a list for communication destination evaluation at a predetermined time point, and changes the presence / absence of the posting with the passage of time in the known communication destination and target. Extracted as feature information of the communication destination. In addition, the feature extraction unit 103 further acquires the external information of the known communication destination and the target communication destination and the correspondence relationship with the related communication destination, and calculates the statistics of the external information of the related communication destination group extracted from the correspondence relationship. Further extracted as feature information. Specific processing in the feature extraction unit 103 will be described later together with description of information collected by the communication destination information collection device 200.
  • the feature extraction unit 103 may acquire the presence / absence of postings collected in a predetermined period at a predetermined cycle from a list for communication destination evaluation.
  • the known communication destination and the target communication destination are domain names
  • the related communication destinations are the known communication destination and the target communication destination, the top-level domain of the known communication destination and the target communication destination, and the known communication destination and the target communication destination.
  • An IP address associated with a domain name possessed as a top level domain, or a domain name having a history associated with an IP address belonging to the same AS number as the known communication destination and the target communication destination may be used.
  • the malignancy calculation unit 104 calculates the malignancy of the target communication destination based on the feature information of the known communication destination and the target communication destination.
  • the malignancy calculation unit 104 is a model for calculating malignancy by supervised machine learning in which feature information of a known communication destination is input data and whether the known communication destination is malignant or benign is output data. And the malignancy of the target communication destination may be calculated using a model.
  • the communication destination information collection device 200 includes an evaluation information collection unit 201, a correspondence relationship collection unit 202, and an external information collection unit 203. Information collected by each unit of the communication destination information collection device 200 is transferred to the feature extraction unit 103 of the communication destination malignancy calculation device 100.
  • the evaluation information collection unit 201 collects communication destination evaluation information.
  • the evaluation information collection unit 201 collects a predefined malignant communication destination list, benign communication destination list, and the like as communication destination evaluation information. Further, collection may be performed in accordance with a predetermined period and period set in advance. As a collection method, for example, the distribution destination of the collection target list is accessed using a known Web crawl technique.
  • the list to be collected is not limited to a list indicating malignancy or benignity such as the above-described malignant communication destination list or benign communication destination list.
  • any kind of evaluation such as a list of communication destinations with a large number of accesses, may be performed as long as the posting is started and ended periodically.
  • FIG. 4 is a diagram illustrating an example of communication destination evaluation information in the communication destination malignancy calculation apparatus according to the first embodiment.
  • the evaluation information collection unit 201 collects a plurality of malignant communication destination lists and benign communication destination lists, and uses the posting status of each list for a predetermined period as evaluation information.
  • t, t ⁇ 1, and t ⁇ 2 indicate the current month, the previous month, and the previous month, respectively, and indicate whether or not they are listed in each list.
  • the line of serial number 1 in FIG. 4 indicates that the communication destination “www.example.com” was listed in the “benign communication destination list 1” from the time t-2 to the time t.
  • the line of serial number 2 is not listed in the “benign communication destination list 2” when the communication destination “www.example.com” is t-2, and “benign communication destination” at the time t-1 and t. It is shown in “List 2”.
  • the evaluation information collection unit 201 may use, for example, all or part of the public blacklist as the malignant communication destination list.
  • the evaluation information collection unit 201 uses all or a part of a popular domain list that is frequently viewed such as published on the Web as a benign communication destination list, or within an arbitrary network. It is possible to use a domain list that can be collected and viewed frequently.
  • the evaluation information collection unit 201 is not limited to the case where each communication destination completely matches the communication destination described in the list. Even if a certain standard is satisfied, the communication destination may be regarded as being listed.
  • the feature extraction unit 103 extracts feature information as shown in FIG. 5 or FIG. 6 based on, for example, the table of FIG. 5 and 6 are diagrams illustrating examples of communication destination evaluation information in the communication destination malignancy calculation apparatus according to the first embodiment.
  • FIG. 5 shows the temporal changes in presence / absence of listing in each communication destination list as feature information.
  • the communication destination “www.example.com” shown in the serial number 1 in FIG. 5 is stably listed in the benign communication destination list 1 at each time point in the range from t-2 to t.
  • the unit 103 extracts feature information “stable posting”.
  • the feature extraction unit 103 “publishing on the way” when posting is started in the middle, “end of posting on the way” when posting is finished on the way, and “no publication” when not posting at any point in time.
  • Such feature information can be extracted.
  • the feature information extraction method is not limited to that shown in FIG. 5.
  • the feature information may be extracted based on a rule such that the feature information is a numerical value, and 1 is added to the numerical value when there is a publication.
  • FIG. 6 is a combination of temporal changes in presence / absence of listing in a plurality of lists of communication destinations.
  • the communication destination “www.example.com” indicated by serial number 1 in FIG. 6 is stably listed in the benign communication destination list 1 at each time point in the range from t-2 to t, and at the same time, benign communication Characteristic information “stable posting & halfway posting started” that the posting has been started in the middle of the previous list 2 is extracted.
  • the feature information extraction method is not limited to that shown in FIG. 6.
  • the feature information extraction method may be expressed by a sum or product of numerical values of temporal changes in presence / absence of publication.
  • the correspondence collection unit 202 collects correspondences and histories of different types of communication destinations.
  • the correspondence relationship collection unit 202 performs collection using, for example, a method called Passive DNS in which a DNS query is collected by a DNS server.
  • Passive DNS a method called Passive DNS in which a DNS query is collected by a DNS server.
  • the correspondence relationship collected by the correspondence relationship collection unit 202 and its history will be described with reference to FIG.
  • FIG. 7 is a diagram illustrating an example of a correspondence relationship of communication destinations in the communication destination malignancy calculation apparatus according to the first embodiment.
  • FIG. 7 shows an example of the correspondence between the domain name and the IP address and its history.
  • the correspondence relationship between the domain name and the IP address can be obtained using, for example, a protocol represented by DNS.
  • the correspondence between domain names and IP addresses may change over time depending on the operation and its form. Therefore, the correspondence collection unit 202 assigns a time stamp to the correspondence between the domain name and the IP address and collects it as a history.
  • the line of serial number 1 in FIG. 7 indicates that the domain name “www.example.com” corresponds to the IP address “192.0.2.1” on January 1, 2015, 00:00:00. .
  • the serial number 2 line corresponds to the domain name “www.example.com” and IP address “192.0.2.2” at 01:00:00 on January 1, 2015, one hour after the serial number 1 line. It shows that.
  • the serial number 201 line is a domain name “example.com” on January 1, 2015, 00:00:00, and DNS round robin, which is a well-known load balancing technique, is used. 192.0.2.201,192.0.2.202 "indicates that it was compatible.
  • the correspondence collection unit 202 When collecting the history of correspondence between domain names and IP addresses, the correspondence collection unit 202 is arranged in, for example, an authoritative DNS server that manages a top level domain or a second level domain, or an arbitrary in-house network A technique of observing DNS communication with a cache DNS server can be used.
  • the external information collection unit 203 collects external information indicating the operation status and usage status of the communication destination. An example of the external information of the IP address collected by the external information collection unit 203 will be described with reference to FIG.
  • FIG. 8 is a diagram illustrating an example of external information of an IP address in the communication destination malignancy calculation apparatus according to the first embodiment.
  • the IP address external information includes the address prefix to which the IP address belongs, AS number, organization name, country, regional Internet registry (RIR), and the address assigned by the RIR. Assignment date etc. are mentioned.
  • the external information for the IP address is not limited to that shown in FIG.
  • the external information collection unit 203 also collects information uniquely collected using the WHOIS protocol, information published by each RIR, and information obtained through published services such as GeoIP (registered trademark) of MaxMind. External information for the IP address can be collected by using it.
  • the address prefix which is the external information of the IP address “192.0.2.1” is “192.0.2.0/24”
  • the AS number is “64501”
  • the organization name is “TEST-NET-1”.
  • the country is” US "
  • the RIR is” ARIN "
  • the address assignment date is" January 1, 2001 ".
  • the feature extraction unit 103 uses the correspondence between the domain name and the IP address shown in FIG. 7 and the history thereof, and the feature information from the external information of the IP address shown in FIG. 8. An example in the case of extracting will be described.
  • the feature extraction unit 103 extracts an IP address group related to the domain name by the method shown in FIG.
  • FIG. 9 is a diagram illustrating an example of a method for extracting an IP address group related to a domain name in the communication destination malignancy calculation apparatus according to the first embodiment.
  • the domain name 300 corresponds to the IP address “192.0.2.1” at t ⁇ 1, that is, January 1, 2015, 00:00:00, and t, that is, January 1, 2015, 01.
  • the IP address “192.0.2.2” was supported.
  • the domain name 350 which is the upper domain, corresponds to the IP addresses “192.0.2.201” and “192.0.2.202” at t ⁇ 1, that is, January 1, 2015, 00:00:00, and t, that is, 2015. It corresponds to the IP addresses “192.0.2.201” and “192.0.2.202” at 01:00:00 on January 1st.
  • four IP addresses “192.0.2.1”, “192.0.2.2”, “192.0.2.201”, and “192.0.2.202” included in the IP address groups 301 and 351 are extracted as IP address groups related to the domain name 300.
  • FIG. 10 is a diagram illustrating an example of a list of IP address groups related to domain names in the communication destination malignancy calculation apparatus according to the first embodiment.
  • the IP addresses related to the domain name “www.example.com” indicated by the serial number 1 are “192.0.2.1”, “192.0.2.2”, “192.0.2.201”, and “192.0.2.202”. I understand.
  • FIG. 11 is a diagram illustrating an example of feature information extracted from an IP address group related to a domain name in the communication destination malignancy calculation apparatus according to the first embodiment.
  • the IP addresses related to the domain name “www.example.com” described in the row of serial number 1 in FIG. 11 are “192.0.2.1”, “192.0.2.2”, “192.0.2.201”, “192.0.2.202”.
  • the feature extraction unit 103 refers to the number of address prefixes, the number of AS numbers, the number of organizations, the number of countries, the number of RIRs, the number of days allocated for addresses, which are statistics that can be calculated for these IP addresses with reference to FIG. Etc. are calculated as feature information. For example, in the row of serial number 1 in FIG.
  • the related IP address calculated from the communication destination “www.example.com” is 4, the number of address prefixes is 1, the number of AS numbers is 1, the number of organization names is 1, the number of countries is 1 indicates that the number of RIRs is 1 and the number of days for address allocation is 1. Note that the statistics item is not limited to that shown in FIG.
  • the feature extraction unit 103 extracts the feature information based on the external information of the related IP address group.
  • As another method of extracting feature information by the feature extraction unit 103 there is a method of extracting feature information based on external information of related domain name groups.
  • the feature extraction unit 103 may employ either a method of extracting feature information based on external information of an IP address group or a method of extracting feature information based on external information of a related domain name group. You can use both.
  • FIG. 12 is a diagram illustrating an example of external information of a domain name in the communication destination malignancy calculation apparatus according to the first embodiment.
  • the domain name external information includes TLD (top level domain) to which the domain name belongs, WHOIS server name, NS server, domain name registration date, domain name update date, domain name expiration date, and the like. It is done.
  • the external information for the domain name is not limited to that shown in FIG.
  • the external information collection unit 203 can collect external information of domain names using information uniquely collected using the WHOIS protocol and information obtained by services published by third parties. .
  • the TLD that is the external information of the domain name “www.example.com” is “.com”
  • the WHOIS server name is “whois.example.com”
  • the NS server is “ns1.
  • the domain name registration date is “2001.1.1”
  • the domain name update date is “2014.1.1”
  • the domain name expiration date is “2015.1.1”.
  • the feature extraction unit 103 extracts the feature information from the correspondence between the domain name and the IP address shown in FIG. 7 and its history, and the external information of the domain name shown in FIG. 12. An example of the case will be described.
  • the feature extraction unit 103 extracts a domain name group related to the domain name by the method shown in FIG.
  • FIG. 13 is a diagram illustrating an example of a method for extracting a domain name group related to a domain name in the communication destination malignancy calculation apparatus according to the first embodiment.
  • a method for extracting a related domain name group of the domain name 400 will be described with reference to FIG.
  • the domain name 400 corresponds to the IP address “192.0.2.1” at t ⁇ 1, that is, January 1, 2015, 00:00:00, and t, that is, January 1, 2015, 01.
  • the IP address “192.0.2.2” was supported.
  • a domain name that may correspond to an IP address group 450 including IP addresses “192.0.2.101” and “192.0.2.201” having the same AS number “64501” as “192.0.2.1” and “192.0.2.2” 410 and 420 are extracted as related domain name groups.
  • FIG. 14 is a diagram illustrating an example of a list of domain name groups related to domain names in the communication destination malignancy calculation apparatus according to the first embodiment.
  • the domain name group related to the domain name “www.example.com” indicated by the serial number 1 may be “www.example.com”, “foo.example.com”, and “example.com”. I understand.
  • the domain name group related to a certain domain name includes the domain name itself.
  • FIG. 15 is a diagram illustrating an example of feature information extracted from a domain name group related to a domain name in the communication destination malignancy calculation apparatus according to the first embodiment.
  • the domain name group related to the domain name “www.example.com” described in the row of serial number 1 in FIG. 15 is “www.example.com”, “foo.example.com”, “example.com”.
  • the feature extraction unit 103 calculates the number of related domain names, the number of TLDs, the number of WHOIS servers, the number of NS servers, and the like, which are statistics that can be calculated for these domain names with reference to FIG.
  • the feature extraction unit 103 may calculate a domain name average, a domain name median, a domain name standard deviation, and the like as the statistic regarding the number of characters of the character string of the related domain name, and may use it as feature information. For example, in the row of serial number 1 in FIG.
  • the statistics item is not limited to that shown in FIG.
  • the malignancy calculation unit 104 calculates the malignancy for each communication destination as shown in FIG.
  • FIG. 16 is a diagram illustrating an example of the malignancy calculated by the communication destination malignancy calculation apparatus according to the first embodiment.
  • the malignancy calculation unit 104 calculates a malignancy of 0.3 for “www.example.com” that is one of the communication destinations for malignancy calculation shown in FIG. It shows that.
  • the grade of malignancy is not only calculated as a continuous value, but when calculated as a discrete value, the grade of malignancy may be converted into an arbitrary value or label according to the result calculated as a continuous value or a discrete value. Yes, it is not limited to that shown in FIG.
  • the malignancy calculation unit 104 applies a predetermined algorithm to the feature information of a known communication destination as shown in FIG. 3 to generate a training model that is a model for malignancy calculation.
  • the characteristic information is based on the evaluation information as shown in FIGS. 5 and 6, and is based on the external information of the communication destination and the correspondence as shown in FIGS. included.
  • the malignancy calculation unit 104 calculates the malignancy by using the generated training model and applying the algorithm when the training model is generated to the target communication destination.
  • the training model is generated so that the known communication destinations with benign labels as shown in FIG. 3 have a low malignancy and the known communication destinations with a malignant label have a high malignancy.
  • the malignancy of the communication destination “foo.example.com” in FIG. 3 is reduced and the malignancy of the communication destination “bar.example.com” is increased as a training model.
  • the malignancy of the target communication destination can be obtained from the obtained regression equation.
  • FIG. 17 is a diagram illustrating an example of integrated feature information in the communication destination malignancy calculation apparatus according to the first embodiment.
  • FIG. 18 is a diagram illustrating an example of the malignancy calculated by the communication destination malignancy calculation apparatus according to the first embodiment.
  • FIGS. 19 and 20 are diagrams illustrating an example of processing of the communication destination malignancy calculation apparatus according to the first embodiment. Specifically, FIG. 19 shows processing up to the above-described training model generation, and FIG. 20 shows processing for calculating a malignancy degree using the generated training model.
  • a known malignant communication destination and a known benign communication destination are input to the known communication destination input unit 102 (step S101).
  • the feature extraction unit 103 refers to whether or not the input known malignant communication destination and known benign communication destination are listed in the communication destination list (step S102). Then, the feature extraction unit 103 extracts, as feature information, a time change (step S103) of presence / absence in the communication destination list and a time change (step S104) of a combination of presence / absence in the communication destination list.
  • the feature extraction unit 103 constructs history information on the correspondence between domain names and IP addresses (step S105). Then, external information indicating the usage status of the IP address is collected (step S106), and the feature extraction unit 103 builds the relationship of the IP address group related to the communication destination (step S107), and is related to the communication destination. The statistics of the IP address group are extracted as feature information (step S108).
  • step S109 external information indicating the usage status of the domain name is collected (step S109), and the feature extraction unit 103 builds a relationship of domain names related to the communication destination (step S110), and relates to the communication destination.
  • the statistic of the domain name group is extracted as feature information (step S111).
  • the malignancy calculation unit 104 integrates the extracted feature information (step S112), applies a malignancy calculation algorithm (step S113), and outputs a training model (step S114).
  • a communication destination and a training model for which malignancy is calculated are input to the target communication destination input unit 101 (step S201).
  • the feature extraction unit 103 extracts, as feature information, a time change (step S202) of presence / absence in the communication destination list and a time change (step S203) of a combination of presence / absence in the communication destination list.
  • the feature extraction unit 103 extracts the statistic of the IP address group related to the communication destination as feature information (step S204), and further extracts the statistic of the domain name group related to the communication destination as feature information (step S205). ).
  • the malignancy calculation unit 104 integrates the extracted feature information (step S206), applies a malignancy calculation algorithm using the training model (step S207), and outputs the malignancy for the communication destination (step S207). S208).
  • the communication destination malignancy calculation apparatus 100 inputs a target communication destination that is a target for calculating malignancy to the target communication destination input unit 101, and a communication destination that is known to be malignant and a communication that is known to be benign. Are input to the known communication destination input unit 102 as known communication destinations. Then, the feature extraction unit 103 changes the known communication destination and the target communication destination with the passage of time of the presence / absence of posting to the malignant communication destination list and the benign communication destination list at a predetermined time. Extracted as feature information. The malignancy calculation unit 104 calculates the malignancy of the target communication destination based on the feature information of the known communication destination and the target communication destination. For this reason, it is possible to accurately calculate a malignant communication destination that cannot be determined simply by referring to the latest blacklist by automatically calculating the malignancy of the communication destination without causing actual communication.
  • the malignancy calculation unit 104 uses the feature information of the known communication destination as input data, and creates a model for malignancy calculation by supervised machine learning using the known communication destination as malignant or benign as output data. And the malignancy of the target communication destination is calculated using the generated model. For this reason, for example, it is possible to automatically calculate the malignancy level of the target communication destination with high accuracy simply by inputting the feature information of the target communication destination into a model that takes into account changes with time of the known communication destination. It is.
  • communication destinations whose malignancy is unknown include communication destinations temporarily used by attackers and communication destinations that attackers are likely to use in the future. These refer to the blacklist. Alone could not determine whether it was malignant or not.
  • a known malignant communication destination list and a benign communication destination list are obtained, and changes (for example, posting start and posting end) of each communication destination with the passage of time are analyzed.
  • Information is extracted and compared with the feature information of the communication destination list to be analyzed, and the malignancy of each communication target is calculated, so actual communication is generated for communication destinations whose malignancy is unknown The degree of malignancy can be calculated without causing it.
  • the feature extraction unit 103 can efficiently compare information of a plurality of lists by acquiring presence / absence of postings collected in a predetermined period at a predetermined period from a list for communication destination evaluation.
  • the feature extraction unit 103 further acquires the history information of the correspondence relationship with the external information of the known communication destination and the target communication destination and the related communication destination, and the external information of the related communication destination group extracted from the history information. Statistics are further extracted as feature information.
  • the related communication destination is the IP address associated with the top level domain of the communication destination, the domain name having the communication destination as the top level domain, or the domain name having the IP address belonging to the same AS number. is there.
  • the malignancy of a wide range of communication destinations including not only target communication destinations and known communication destinations but also communication destinations related to them can be calculated, and more feature information can be obtained. Therefore, the calculation accuracy can be improved.
  • each component of each illustrated apparatus is functionally conceptual, and does not necessarily need to be physically configured as illustrated.
  • the specific form of distribution / integration of each device is not limited to the one shown in the figure, and all or a part of the distribution / integration is functionally or physically distributed in arbitrary units according to various loads or usage conditions.
  • all or any part of each processing function performed by each device is realized by a CPU (Central Processing Unit) and a program analyzed and executed by the CPU, or hardware by wired logic.
  • CPU Central Processing Unit
  • program In addition, a program described in a language that can be executed by a computer can be created for the processing executed by the communication destination malignancy calculation apparatus described in the above embodiment. In this case, the same effect as the above-described embodiment can be obtained by the computer executing the program. Further, such a program may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read by the computer and executed to execute the same processing as in the above embodiment.
  • An example of a computer that executes a program that implements the same function as that of the communication destination malignancy calculation apparatus shown in FIG. 1 will be described below.
  • FIG. 21 is a diagram illustrating an example of a computer that functions as a communication destination malignancy calculation apparatus.
  • the computer 1000 includes, for example, a memory 1010, a CPU 1020, a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. These units are connected by a bus 1080.
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM (Random Access Memory) 1012 as illustrated in FIG.
  • the ROM 1011 stores a boot program such as BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • the hard disk drive interface 1030 is connected to the hard disk drive 1090 as illustrated in FIG.
  • the disk drive interface 1040 is connected to the disk drive 1100 as illustrated in FIG.
  • a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1100.
  • the serial port interface 1050 is connected to, for example, a mouse 1110 and a keyboard 1120 as illustrated in FIG.
  • the video adapter 1060 is connected to a display 1130, for example, as illustrated in FIG.
  • the hard disk drive 1090 stores, for example, an OS 1091, an application program 1092, a program module 1093, and program data 1094. That is, the above program is stored in, for example, the hard disk drive 1090 as a program module in which a command to be executed by the computer 1000 is described.
  • various data described in the above embodiment is stored as program data in, for example, the memory 1010 or the hard disk drive 1090.
  • the CPU 1020 reads the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as necessary, and executes them.
  • the program module 1093 and the program data 1094 related to the program are not limited to being stored in the hard disk drive 1090, but may be stored in, for example, a removable storage medium and read out by the CPU 1020 via the disk drive 1100 or the like. Good.
  • the program module 1093 and the program data 1094 related to the program are stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.), and via the network interface 1070. It may be read by the CPU 1020.
  • LAN Local Area Network
  • WAN Wide Area Network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

 悪性または良性であることが既知の通信先を既知通信先入力部(102)に入力し、悪性度を算出する対象である対象通信先を対象通信先入力部(101)に入力し、既知通信先及び対象通信先の、悪性通信先リスト及び良性通信先リストへの過去の所定の時点における掲載の有無の時間経過に伴う変化を既知通信先及び対象通信先の特徴情報として特徴抽出部(103)により抽出し、既知通信先及び対象通信先の特徴情報に基づいて悪性度算出部(104)により対象通信先の悪性度を算出する。

Description

通信先悪性度算出装置、通信先悪性度算出方法及び通信先悪性度算出プログラム
 本発明は、通信先悪性度算出装置、通信先悪性度算出方法及び通信先悪性度算出プログラムに関する。
 インターネットの普及に伴い、DDoS攻撃やスパムメール送信等のサイバー攻撃が急増している。これらの攻撃のほとんどは、マルウェアと呼ばれる悪意あるソフトウェアに起因している。攻撃者は一般ユーザの端末やサーバ等をマルウェアに感染させ、マルウェアを操作することで端末やサーバを不正に制御し、情報収集や新たな攻撃を実施している。これらの攻撃は近年社会問題化している。このため、マルウェア感染を中心としたサイバー攻撃への対策が急務となっている。
 サイバー攻撃対策としては、端末上で実施する対策とネットワーク上で実施する対策とが利用されている。端末上で実施する対策としては、アンチウィルスソフトを用いる手法や、ホスト型IDS(Intrusion Detection System)やホスト型IPS(Intrusion Prevention System)を用いる手法が利用されている。これらの手法では、端末にソフトウェアをインストールして対策を実施する。
 一方、ネットワーク上で実施する対策としては、ネットワーク型のIDSやIPS、FW(Firewall)やWAF(Web Application Firewall)等を用いる手法が利用されている。これらの手法では、ネットワークの通信経路上に検査装置を配置する。例えば、ネットワークの通信経路のうちDNSサーバへの通信を監視できる箇所で、DNSクエリやDNSレスポンスの通信の検査を行う手法が提案されている(例えば、非特許文献1または2を参照)。また、近年では、端末や装置のログを分析して攻撃の痕跡を発見するSIEM(Security Information and Event Management)サービス等も実施されている。
 これらの手法においては、ハニーポットと呼ばれるおとりのシステム上でマルウェア感染攻撃やその他のサイバー攻撃の通信相手や通信内容を収集する。また、サンドボックスと呼ばれるマルウェア解析システムでマルウェアを実際に動作させてマルウェアの通信先や通信内容を収集したり、スパムメール対策システムやDDoS対策システムで攻撃と判定された通信の通信先や通信内容を収集したりすることで、攻撃に関わる通信の情報を収集する。
 そして、収集した攻撃について、例えば通信先のIPアドレス等をブラックリスト化し、当該IPアドレスを相手とした通信を攻撃と判定する。なお、ブラックリスト化する情報は、統一資源位置指定子(URL:Uniform Resource Locator)やドメイン名とする場合もあるが、この際は、URLやドメイン名を正規表現でブラックリスト化することもある。
 なお、通常異なる装置やソフトウェアからトラヒックログやアラートを収集して通信相手や通信内容の情報を抽出する際、装置やソフトウェアに応じて各項目の表記方法が異なる場合があるが、近年ではSIEM製品として異なる表記で示されたログ情報を統一的な表記方法に変換して集計する技術も普及している。
M. Antonakakis, et al., "Building a Dynamic Reputation System for DNS," Proc. USENIX conference on Security, 2010. L. Bilge, et al., "EXPOSURE: Finding Malicious Domains Using Passive DNS Analysis," Proc. NDSS, 2011.
 しかし、上記の方法では、ハニーポットやサンドボックス等を利用してサイバー攻撃に関わる通信の情報を収集する際に、利用されるすべての悪性通信先を抽出することはできない。例えば、ハニーポットで収集可能な悪性サイトの通信先は無数に存在する上に、時間経過とともに当該悪性サイトの無効化や、別の通信先への移行が発生する。
 また、サンドボックスでマルウェアを解析する場合に、マルウェアは解析の妨害やインターネットへの接続確認を目的として、良性通信先へのアクセスや、時間経過とともに変化する悪性通信先へのアクセスを発生させる。このようにサイバー攻撃に関わる通信の情報を収集するだけでは、悪性通信先を網羅的に、かつ、正確に特定し、ブラックリスト化することは困難である。
 例えば、非特許文献1または2においては、ある時点までに収集した情報を利用して、当該時点で特定されていない悪性通信先をブラックリスト化する手法が提案されているが、攻撃者によって一時的に利用される悪性通信先や攻撃者が攻撃の準備のために確保している悪性通信先を特定することができないという課題がある。
 このため、現在では、サイバー攻撃を発見するために、ある時点で最新のブラックリストを参照しても、攻撃に利用される悪性通信先を特定できない場合があり、このような場合においては、解析者が手動で内容を分析する必要が生じる。この結果、攻撃に利用された通信先の情報を抽出するための時間的なコストと人的なコストが必要となり、攻撃が多種多様化している近年では、これらのコストがセキュリティベンダやサービスプロバイダにおいて大きなボトルネックとなっている。
 本発明の目的は、実通信を発生させることなく自動的に通信先の悪性度を算出し、最新のブラックリストを参照するだけでは判別できない悪性通信先を精度よく特定することにある。
 本発明の通信先悪性度算出装置は、悪性度を算出する対象である対象通信先を入力する対象通信先入力部と、悪性であることが既知の通信先と、良性であることが既知の通信先と、を既知通信先として入力する既知通信先入力部と、前記既知通信先及び前記対象通信先の、通信先評価のためのリストへの所定の時点における掲載の有無を取得し、前記掲載の有無の時間経過に伴う変化を前記既知通信先及び前記対象通信先の特徴情報として抽出する特徴抽出部と、前記既知通信先及び前記対象通信先の前記特徴情報に基づいて前記対象通信先の悪性度を算出する悪性度算出部と、を有することを特徴とする。
 本発明の通信先悪性度算出方法は、悪性度を算出する対象である対象通信先を入力する対象通信先入力工程と、悪性であることが既知の通信先と、良性であることが既知の通信先と、を既知通信先として入力する既知通信先入力工程と、前記既知通信先及び前記対象通信先の、通信先評価のためのリストへの所定の時点における掲載の有無を取得し、前記掲載の有無の時間経過に伴う変化を前記既知通信先及び前記対象通信先の特徴情報として抽出する特徴抽出工程と、前記既知通信先及び前記対象通信先の前記特徴情報に基づいて前記対象通信先の悪性度を算出する悪性度算出工程と、を含んだことを特徴とする。
 本発明の通信先悪性度算出プログラムは、コンピュータに、悪性度を算出する対象である対象通信先を入力する対象通信先入力ステップと、悪性であることが既知の通信先と、良性であることが既知の通信先と、を既知通信先として入力する既知通信先入力ステップと、前記既知通信先及び前記対象通信先の、通信先評価のためのリストへの所定の時点における掲載の有無を取得し、前記掲載の有無の時間経過に伴う変化を前記既知通信先及び前記対象通信先の特徴情報として抽出する特徴抽出ステップと、前記既知通信先及び前記対象通信先の前記特徴情報に基づいて前記対象通信先の悪性度を算出する悪性度算出ステップと、を実行させることを特徴とする。
 本発明によれば、実通信を発生させることなく自動的に通信先の悪性度を算出し、最新のブラックリストを参照するだけでは判別できない悪性通信先を精度よく特定することができる。
図1は、実施形態1に係る通信先悪性度算出システムの構成の一例を示す図である。 図2は、実施形態1に係る通信先悪性度算出装置における対象通信先の一例を示す図である。 図3は、実施形態1に係る通信先悪性度算出装置における既知通信先の一例を示す図である。 図4は、実施形態1に係る通信先悪性度算出装置における通信先の評価情報の一例を示す図である。 図5は、実施形態1に係る通信先悪性度算出装置における通信先の評価情報の一例を示す図である。 図6は、実施形態1に係る通信先悪性度算出装置における通信先の評価情報の一例を示す図である。 図7は、実施形態1に係る通信先悪性度算出装置における通信先の対応関係の一例を示す図である。 図8は、実施形態1に係る通信先悪性度算出装置におけるIPアドレスの外部情報の一例を示す図である。 図9は、実施形態1に係る通信先悪性度算出装置におけるドメイン名に関連するIPアドレス群の抽出方法の一例を示す図である。 図10は、実施形態1に係る通信先悪性度算出装置におけるドメイン名に関連するIPアドレス群のリストの一例を示す図である。 図11は、実施形態1に係る通信先悪性度算出装置におけるドメイン名に関連するIPアドレス群から抽出した特徴情報の一例を示す図である。 図12は、実施形態1に係る通信先悪性度算出装置におけるドメイン名の外部情報の一例を示す図である。 図13は、実施形態1に係る通信先悪性度算出装置におけるドメイン名に関連するドメイン名群の抽出方法の一例を示す図である。 図14は、実施形態1に係る通信先悪性度算出装置におけるドメイン名に関連するドメイン名群のリストの一例を示す図である。 図15は、実施形態1に係る通信先悪性度算出装置におけるドメイン名に関連するドメイン名群から抽出した特徴情報の一例を示す図である。 図16は、実施形態1に係る通信先悪性度算出装置が算出する悪性度の一例を示す図である。 図17は、実施形態1に係る通信先悪性度算出装置における統合された特徴情報の一例を示す図である。 図18は、実施形態1に係る通信先悪性度算出装置が算出する悪性度の一例を示す図である。 図19は、実施形態1に係る通信先悪性度算出装置の処理の一例を示す図である。 図20は、実施形態1に係る通信先悪性度算出装置の処理の一例を示す図である。 図21は、通信先悪性度算出装置として機能するコンピュータの一例を示す図である。
 以下に添付図面を参照して、この発明に係る通信先悪性度算出装置、通信先悪性度算出方法及び通信先悪性度算出プログラムの実施形態を詳細に説明する。なお、この実施形態によりこの発明が限定されるものではない。
[実施形態1に係る通信先悪性度算出装置の構成]
 まず、図1を用いて、通信先悪性度算出システムの構成について説明する。図1は、実施形態1に係る通信先悪性度算出システムの構成の一例を示す図である。図1に示すように、通信先悪性度算出システム10は、通信先悪性度算出装置100及び通信先情報収集装置200を有する。
 図1に示すように、通信先悪性度算出装置100は、対象通信先入力部101と、既知通信先入力部102と、特徴抽出部103と、悪性度算出部104と、を有する。
 対象通信先入力部101には、悪性度を算出する対象である対象通信先を入力する。対象通信先入力部101に入力されるデータの例について、図2を用いて説明する。図2は、実施形態1に係る通信先悪性度算出装置における対象通信先の一例を示す図である。図2に示すように、通信先の種別としては、ドメイン名、URL、IPアドレス等が挙げられる。例えば、図2の通番1の行は、ドメイン名が「www.example.com」である通信先を示している。なお、通信先の種別は図示のものに限られず、FQDN(Fully Qualified Domain Name)等であっても良い。また、対象通信先入力部101に入力される通信先の情報として、評価情報や外部情報はこの時点で含まれている必要はない。
 既知通信先入力部102には、悪性であることが既知の通信先と、良性であることが既知の通信先と、を既知通信先として入力する。既知通信先入力部102に入力されるデータの例について、図3を用いて説明する。図3は、実施形態1に係る通信先悪性度算出装置における既知通信先の一例を示す図である。既知通信先のデータとしては、まず、図2に示す対象通信先と同様に、通信先の種別及び通信先が含まれる。さらに、図3のラベル列に示すような、悪性または良性を示す情報も必要となる。例えば、図3の通番1の行は、ドメイン名が「foo.example.com」である通信先のラベルが「良性」であることを示している。図3の例においては、ラベル列に示される情報は悪性または良性の2値となっているが、図3に示すものに限られず、悪性度を示す値等であっても良い。また、図2と同様に、通信先の種別は図示のものに限られない。
 特徴抽出部103は、既知通信先及び対象通信先の、通信先評価のためのリストへの所定の時点における掲載の有無を取得し、掲載の有無の時間経過に伴う変化を既知通信先及び対象通信先の特徴情報として抽出する。また、特徴抽出部103は、既知通信先及び対象通信先の外部情報及び関連する通信先との対応関係をさらに取得し、対応関係から抽出される関連する通信先群の外部情報の統計量を特徴情報としてさらに抽出する。特徴抽出部103における具体的な処理については通信先情報収集装置200で収集される情報についての説明と共に後述する。
 なお、特徴抽出部103は、通信先評価のためのリストから所定の周期で所定の期間に収集された掲載の有無を取得しても良い。また、既知通信先及び対象通信先をドメイン名とし、関連する通信先は、既知通信先及び対象通信先、及び既知通信先及び対象通信先のトップレベルドメイン、及び既知通信先及び対象通信先をトップレベルドメインとして持つドメイン名と対応付けられたIPアドレス、または、既知通信先及び対象通信先と同じAS番号に所属するIPアドレスに対応付けられた履歴を持つドメイン名としても良い。
 悪性度算出部104は、既知通信先及び対象通信先の特徴情報に基づいて対象通信先の悪性度を算出する。ここで、悪性度算出部104は、既知通信先の特徴情報を入力データとし、既知通信先が悪性であるか良性であるかを出力データとする教師あり機械学習によって悪性度算出のためのモデルを生成し、モデルを用いて対象通信先の悪性度を算出するようにしても良い。
 図1に示すように、通信先情報収集装置200は、評価情報収集部201と、対応関係収集部202と、外部情報収集部203と、を有する。通信先情報収集装置200の各部で収集された情報は、通信先悪性度算出装置100の特徴抽出部103に転送される。
 評価情報収集部201は、通信先の評価情報を収集する。評価情報収集部201は、通信先の評価情報として、予め定義された悪性通信先リストや良性通信先リスト等を収集する。また、予め設定された所定の期間及び周期等に従って収集を行うようにしても良い。収集方法としては、例えば、公知のWebクロール手法を用いて収集対象のリストの配信先へアクセスする。なお、収集するリストとしては、前述の悪性通信先リストや良性通信先リストのように悪性または良性を示すようなものに限られない。例えば、アクセス数が多い通信先のリストといった、何らかの評価が行われており、定期的に掲載の開始や終了が行われているものであれば良い。
 図4を用いて、評価情報収集部201で収集される評価情報について説明する。図4は、実施形態1に係る通信先悪性度算出装置における通信先の評価情報の一例を示す図である。図4に示すように、評価情報収集部201は、複数の悪性通信先リストや良性通信先リストを収集し、それぞれのリストの所定の期間における掲載状況を評価情報としている。図4の表は、例えばt、t-1、t-2がそれぞれ今月、先月、先々月を示すものとし、各期間におけるリストへの掲載の有無を表している。
 例えば、図4の通番1の行は、通信先「www.example.com」がt-2の時点からtの時点まで「良性通信先リスト1」に掲載されていたことを示している。また、通番2の行は、通信先「www.example.com」がt-2の時点では、「良性通信先リスト2」に掲載が無く、t-1及びtの時点においては「良性通信先リスト2」に掲載されていたことを示している。
 なお、評価情報収集部201は、悪性通信先リストとして、例えば公開ブラックリストの全部や一部を利用することが考えられる。また、評価情報収集部201は、良性通信先リストとして、例えばWeb上で公開されているような頻繁に閲覧される人気のドメインリストの全部や一部を利用することや、任意のネットワーク内で収集できる頻繁に閲覧されているようなドメインリストを利用することが考えられる。
 また、評価情報収集部201は、各通信先がリストに記載された通信先と完全に一致している場合だけでなく、部分的に一致している場合や、別途定める通信先の類似性が一定の基準を満たしている場合にも通信先がリストへ掲載されているとみなすようにしても良い。
 特徴抽出部103は、例えば、図4の表を基に、図5または図6に示すような特徴情報を抽出する。図5及び図6は、実施形態1に係る通信先悪性度算出装置における通信先の評価情報の一例を示す図である。
 図5は、通信先の各リストへの掲載有無の時間的な変化を特徴情報として抽出したものである。例えば、図5の通番1に示す通信先「www.example.com」は、t-2からtという範囲の各時点において、良性通信先リスト1に安定的に掲載されていることから、特徴抽出部103は、「安定掲載」という特徴情報を抽出する。同様に、特徴抽出部103は、途中から掲載が開始された場合は「途中掲載開始」、途中で掲載が終了した場合は「途中掲載終了」、どの時点でも掲載されていない場合「掲載無」などの特徴情報を抽出することができる。なお、特徴情報の抽出方法は、図5に示すものに限られず、例えば特徴情報を数値とし、掲載有の場合は数値に1だけ加えるといったルールに基づいて抽出されるようにしても良い。
 図6は、通信先の複数のリストへの掲載有無の時間的変化を組み合わせたものである。例えば、図6の通番1に示す通信先「www.example.com」は、t-2からtという範囲の各時点において、良性通信先リスト1に安定的に掲載されていると同時に、良性通信先リスト2に途中から掲載が開始されたという「安定掲載&途中掲載開始」という特徴情報を抽出する。なお、特徴情報の抽出方法は、図6に示すものに限られず、例えば掲載有無の時間的変化を数値化した値の和や積によって表すようにしても良い。
 対応関係収集部202は、種別の異なる通信先の対応関係及びその履歴を収集する。対応関係収集部202は、例えば、DNSサーバでDNSクエリを収集するPassive DNSと呼ばれる手法を利用して収集を行う。図7を用いて、対応関係収集部202が収集する対応関係及びその履歴について説明する。図7は、実施形態1に係る通信先悪性度算出装置における通信先の対応関係の一例を示す図である。
 図7は、ドメイン名とIPアドレスとの対応関係及びその履歴の例を示している。ドメイン名とIPアドレスとの対応関係は、例えばDNSに代表されるプロトコルを利用して得ることができる。ドメイン名とIPアドレスとの対応関係は、運用やその形態に応じて時間経過とともに変化する場合がある。そのため、対応関係収集部202は、ドメイン名とIPアドレスの対応関係にタイムスタンプを付与し、履歴として収集する。
 例えば、図7の通番1の行は、ドメイン名「www.example.com」が2015年1月1日00:00:00にIPアドレス「192.0.2.1」が対応していたことを示している。通番2の行は、通番1の行の1時間後の2015年1月1日01:00:00にドメイン名「www.example.com」に対し、IPアドレス「192.0.2.2」が対応していたことを示している。また、通番201の行は、2015年1月1日00:00:00にドメイン名「example.com」に対し、公知の負荷分散技術であるDNSラウンドロビン等が利用され、複数のIPアドレス「192.0.2.201,192.0.2.202」が対応していたことを示している。
 対応関係収集部202は、ドメイン名とIPアドレスとの対応関係の履歴を収集する際には、例えばトップレベルドメインやセカンドレベルドメインを管理する権威DNSサーバや、任意の組織内ネットワークに配置されたキャッシュDNSサーバでDNS通信を観測する手法を利用することができる。
 外部情報収集部203は、通信先の運用状況や利用状況等を示す外部情報を収集する。図8を用いて、外部情報収集部203が収集するIPアドレスの外部情報の例について説明する。図8は、実施形態1に係る通信先悪性度算出装置におけるIPアドレスの外部情報の一例を示す図である。
 図8に示すように、IPアドレスの外部情報としては、IPアドレスの属するアドレスプレフィックスやAS番号、組織名、国、地域インターネットレジストリ(RIR:Regional Internet Registry)、当該アドレスがRIRから割り当てられたアドレス割当日等が挙げられる。なお、IPアドレスに対する外部情報は図8に示すものに限られない。また、外部情報収集部203は、WHOISプロトコルを利用して独自に収集した情報、各RIRが公開している情報や、MaxMind社のGeoIP(登録商標)等の公開されたサービスにより得られる情報を利用してIPアドレスに対する外部情報を収集することができる。
 例えば、図8の通番1の行では、IPアドレス「192.0.2.1」の外部情報であるアドレスプレフィックスが「192.0.2.0/24」、AS番号が「64501」、組織名が「TEST-NET-1」、国が「US」、RIRが「ARIN」、アドレス割当日が「2001年1月1日」であることを示している。
 ここで、図9、10及び11を用いて、特徴抽出部103が、図7に示すドメイン名とIPアドレスとの対応関係及びその履歴と、図8に示すIPアドレスの外部情報とから特徴情報を抽出する場合の例を説明する。まず、特徴抽出部103は、図9に示す方法でドメイン名に関連するIPアドレス群を抽出する。図9は、実施形態1に係る通信先悪性度算出装置におけるドメイン名に関連するIPアドレス群の抽出方法の一例を示す図である。
 図9を用いて、ドメイン名300の関連IPアドレス群を抽出する方法を説明する。図7に示すように、ドメイン名300は、t-1即ち2015年1月1日00:00:00にIPアドレス「192.0.2.1」と対応しており、t即ち2015年1月1日01:00:00にはIPアドレス「192.0.2.2」と対応していた。さらに、上位ドメインであるドメイン名350は、t-1即ち2015年1月1日00:00:00にIPアドレス「192.0.2.201」及び「192.0.2.202」と対応しており、t即ち2015年1月1日01:00:00にもIPアドレス「192.0.2.201」及び「192.0.2.202」と対応している。これより、ドメイン名300に関連するIPアドレス群として、IPアドレス群301及び351に含まれる「192.0.2.1」「192.0.2.2」「192.0.2.201」「192.0.2.202」の4つが抽出される。
 このようにして、図10に示すように、各ドメイン名に関連するIPアドレス群のリストを抽出することができる。図10は、実施形態1に係る通信先悪性度算出装置におけるドメイン名に関連するIPアドレス群のリストの一例を示す図である。例えば、通番1で示されるドメイン名「www.example.com」に関連するIPアドレス群は、「192.0.2.1」「192.0.2.2」「192.0.2.201」「192.0.2.202」の4つであることが分かる。
 次に、特徴抽出部103は、各ドメイン名に関連するIPアドレス群に含まれるIPアドレスの外部情報から図11に示すような統計量を算出したものを特徴量として抽出する。図11は、実施形態1に係る通信先悪性度算出装置におけるドメイン名に関連するIPアドレス群から抽出した特徴情報の一例を示す図である。
 例えば、図11の通番1の行に記載されているドメイン名「www.example.com」に関連するIPアドレス群は、「192.0.2.1」「192.0.2.2」「192.0.2.201」「192.0.2.202」であり、特徴抽出部103は、図8を参照してこれらのIPアドレスについての算出可能な統計量であるアドレスプレフィックス数、AS番号数、組織名数、国数、RIR数、アドレス割当日数等を算出し、特徴情報とする。例えば図11の通番1の行は、通信先「www.example.com」から算出した関連するIPアドレスが4、アドレスプレフィックス数が1、AS番号数が1、組織名数が1、国数が1、RIR数が1、アドレス割当日数が1であることを示している。なお、統計量の項目は、図11に示すものに限られない。
 ここまで、特徴抽出部103が関連するIPアドレス群の外部情報に基づいて特徴情報を抽出する場合の例について説明した。特徴抽出部103が特徴情報を抽出する他の方法として、関連するドメイン名群の外部情報に基づいて特徴情報を抽出する方法がある。なお、特徴抽出部103は、IPアドレス群の外部情報に基づいて特徴情報を抽出する方法と、関連するドメイン名群の外部情報に基づいて特徴情報を抽出する方法のいずれかを採用しても良いし、両方を採用しても良い。
 特徴抽出部103が関連するドメイン群の外部情報に基づいて特徴情報を抽出する場合は、外部情報収集部203は、ドメイン名の外部情報を収集する。図12を用いて、外部情報収集部203が収集するドメイン名の外部情報の例について説明する。図12は、実施形態1に係る通信先悪性度算出装置におけるドメイン名の外部情報の一例を示す図である。
 図12に示すように、ドメイン名の外部情報としては、ドメイン名の属するTLD(トップレベルドメイン)やWHOISサーバ名、NSサーバ、ドメイン名登録日、ドメイン名更新日、ドメイン名失効日等が挙げられる。なお、ドメイン名に対する外部情報は図12に示すものに限られない。また、外部情報収集部203は、WHOISプロトコルを利用して独自に収集した情報や、第3者が公開しているサービスにより得られる情報を利用してドメイン名の外部情報を収集することができる。
 例えば、図12の通番1の行では、ドメイン名「www.example.com」の外部情報であるTLDが「.com」、WHOISサーバ名が「whois.example.com」、NSサーバが「ns1.example.com」、ドメイン名登録日が「2001.1.1」、ドメイン名更新日が「2014.1.1」、ドメイン名失効日が「2015.1.1」であることを示している。
 図13、14及び15を用いて、特徴抽出部103が、図7に示すドメイン名とIPアドレスとの対応関係及びその履歴と、図12に示すドメイン名の外部情報とから特徴情報を抽出する場合の例を説明する。まず、特徴抽出部103は、図13に示す方法でドメイン名に関連するドメイン名群を抽出する。図13は、実施形態1に係る通信先悪性度算出装置におけるドメイン名に関連するドメイン名群の抽出方法の一例を示す図である。
 図13を用いて、ドメイン名400の関連ドメイン名群を抽出する方法を説明する。図7に示すように、ドメイン名400は、t-1即ち2015年1月1日00:00:00にIPアドレス「192.0.2.1」と対応しており、t即ち2015年1月1日01:00:00にはIPアドレス「192.0.2.2」と対応していた。そして、「192.0.2.1」及び「192.0.2.2」と同じAS番号「64501」を持つIPアドレス「192.0.2.101」や「192.0.2.201」が含まれるIPアドレス群450と対応したことがあるドメイン名410及び420が関連するドメイン名群として抽出される。
 このようにして、図14に示すように、各ドメイン名について関連するドメイン名群のリストを抽出することができる。図14は、実施形態1に係る通信先悪性度算出装置におけるドメイン名に関連するドメイン名群のリストの一例を示す図である。例えば、通番1で示されるドメイン名「www.example.com」に関連するドメイン名群は、「www.example.com」「foo.example.com」「example.com」の3つであることが分かる。なお、統計量を計算する際の便宜上、あるドメイン名に関連するドメイン名群にはそのドメイン名自身も含まれるものとする。
 次に、特徴抽出部103は、各ドメイン名に関連するドメイン群に含まれるドメインの外部情報から図15に示すような統計量を算出したものを特徴量として抽出する。図15は、実施形態1に係る通信先悪性度算出装置におけるドメイン名に関連するドメイン名群から抽出した特徴情報の一例を示す図である。
 例えば、図15の通番1の行に記載されているドメイン名「www.example.com」に関連するドメイン名群は、「www.example.com」「foo.example.com」「example.com」であり、特徴抽出部103は、図12を参照してこれらのドメイン名についての算出可能な統計量である関連するドメイン名数、TLD数、WHOISサーバ数、NSサーバ数等を算出する。また、特徴抽出部103は、関連するドメイン名の文字列の文字数に関する統計量として、ドメイン名平均、ドメイン名中央値、ドメイン名標準偏差等を算出し、特徴情報としても良い。例えば図15の通番1の行は、通信先「www.example.com」から算出した関連するドメイン名数が3、ドメイン名平均が13.7、ドメイン名中央値が15、ドメイン名標準偏差が2.31、TLD数が1、WHOISサーバ数が1、NSサーバ数が3であることを示している。なお、統計量の項目は、図15に示すものに限られない。
 悪性度算出部104は、図16に示すような通信先毎の悪性度を算出する。図16は、実施形態1に係る通信先悪性度算出装置が算出する悪性度の一例を示す図である。図16の通番1の行は、例えば、図2に示す悪性度算出の対象となる通信先の1つである「www.example.com」について、悪性度算出部104が0.3という悪性度を算出したことを示している。
 悪性度の算出方法としては、公知の外れ値発見等の統計分析手法や、サポートベクターマシンやランダムフォレストやロジスティック回帰に代表される機械学習手法が利用できる。なお、悪性度は連続値で算出する場合だけでなく、離散値で算出する場合、連続値や離散値で算出した結果に応じて悪性度を任意の値やラベルに変換して出力する場合があり、図16に示すものに限られない。
 具体的に、まず、悪性度算出部104は、図3に示すような既知通信先の特徴情報に所定のアルゴリズムを適用して、悪性度算出のためのモデルである訓練モデルを生成する。特徴情報としては、これまで説明してきたように、図5及び6に示すような評価情報に基づくもの、また、図11及び図15に示すような通信先の外部情報や対応関係に基づくものが含まれる。そして、悪性度算出部104は、生成された訓練モデルを利用して、訓練モデルを生成した際のアルゴリズムを対象通信先に適用することで、悪性度を算出する。なお、訓練モデルは、図3に示すような良性ラベルが付された既知通信先は悪性度が小さくなり、悪性ラベルが付された既知通信先は悪性度が大きくなるように生成される。例えば、所定のアルゴリズムをロジスティック回帰とすると、訓練モデルとして、図3の通信先「foo.example.com」の悪性度を小さくし、通信先「bar.example.com」の悪性度を大きくするような回帰式が得られ、得られた回帰式から対象通信先の悪性度を得ることができる。
 さらに、図17に示すような未知の通信先についても、各種情報を収集し、統合された特徴情報を抽出することで、図18に示すような悪性度を算出することが可能である。なお、図17は、実施形態1に係る通信先悪性度算出装置における統合された特徴情報の一例を示す図である。また、図18は、実施形態1に係る通信先悪性度算出装置が算出する悪性度の一例を示す図である。
[実施形態1に係る通信先悪性度算出装置の処理]
 図19及び図20を用いて、通信先悪性度算出装置100の処理について説明する。図19及び図20は、実施形態1に係る通信先悪性度算出装置の処理の一例を示す図である。詳しくは、図19は、前述の訓練モデル生成までの処理を示しており、図20は生成された訓練モデルを利用して悪性度を算出する処理を示している。
 図19を用いて、訓練モデル生成までの処理を説明する。図19に示すように、まず、既知通信先入力部102に、既知悪性通信先と既知良性通信先が入力される(ステップS101)。次に、特徴抽出部103は、入力された既知悪性通信先と既知良性通信先の、通信先リストへの掲載有無を参照する(ステップS102)。そして、特徴抽出部103は、通信先リストへの掲載有無の時間変化(ステップS103)及び通信先リストへの掲載有無の組合せの時間変化(ステップS104)を特徴情報として抽出する。
 特徴抽出部103は、ドメイン名とIPアドレスの対応関係の履歴情報の構築を行う(ステップS105)。そして、IPアドレスの利用状況を示す外部情報の収集が行われ(ステップS106)、特徴抽出部103は、通信先に関連するIPアドレス群の関係を構築し(ステップS107)、通信先に関連するIPアドレス群の統計量を特徴情報として抽出する(ステップS108)。
 また、ドメイン名の利用状況を示す外部情報の収集が行われ(ステップS109)、特徴抽出部103は、通信先に関連するドメイン名群の関係を構築し(ステップS110)、通信先に関連するドメイン名群の統計量を特徴情報として抽出する(ステップS111)。
 そして、悪性度算出部104は、抽出した特徴情報を統合し(ステップS112)、悪性度算出のアルゴリズムを適用し(ステップS113)、訓練モデルを出力する(ステップS114)。
 図20を用いて、訓練モデルを利用して悪性度を算出する処理を説明する。図20に示すように、まず、対象通信先入力部101に、悪性度算出対象の通信先と訓練モデルが入力される(ステップS201)。そして、特徴抽出部103は、通信先リストへの掲載有無の時間変化(ステップS202)及び通信先リストへの掲載有無の組合せの時間変化(ステップS203)を特徴情報として抽出する。
 特徴抽出部103は、通信先に関連するIPアドレス群の統計量を特徴情報として抽出し(ステップS204)、さらに、通信先に関連するドメイン名群の統計量を特徴情報として抽出する(ステップS205)。そして、悪性度算出部104は、抽出した特徴情報を統合し(ステップS206)、訓練モデルを利用して悪性度算出のアルゴリズムを適用し(ステップS207)、通信先に対する悪性度を出力する(ステップS208)。
[実施形態1の効果]
 通信先悪性度算出装置100は、悪性度を算出する対象である対象通信先を対象通信先入力部101へ入力し、悪性であることが既知の通信先と、良性であることが既知の通信先と、を既知通信先として既知通信先入力部102へ入力する。そして、特徴抽出部103は、既知通信先及び対象通信先の、悪性通信先リスト及び良性通信先リストへの所定の時点における掲載の有無の時間経過に伴う変化を既知通信先及び対象通信先の特徴情報として抽出する。悪性度算出部104は、既知通信先及び対象通信先の特徴情報に基づいて対象通信先の悪性度を算出する。このため、実通信を発生させることなく自動的に通信先の悪性度を算出し、最新のブラックリストを参照するだけでは判別できない悪性通信先を精度よく特定することが可能である。
 また、悪性度算出部104は、既知通信先の特徴情報を入力データとし、既知通信先が悪性であるか良性であるかを出力データとする教師あり機械学習によって悪性度算出のためのモデルを生成し、生成したモデルを用いて対象通信先の悪性度を算出する。このため、例えば、既知通信先の時間経過に伴う変化等を加味したモデルに、対象通信先の特徴情報を入力するだけで、精度よく対象通信先の悪性度を自動的に算出することが可能である。
 また、従来では、悪性度が未知である通信先には、攻撃者が一時的に利用する通信先や攻撃者が今後利用する可能性の高い通信先が含まれ、これらはブラックリストを参照するだけでは悪性であるか否かを判別できなかった。これに対して、実施形態1によれば、既知の悪性通信先リストと良性通信先リストを入手し、各通信先の時間経過に伴う変化(例えば、掲載開始や掲載終了)を解析して特徴情報として抽出し、解析対象の通信先リストの特徴情報と比較分析して、各解析対象の通信先の悪性度を算出しているので、悪性度が未知である通信先について、実通信を発生させることなく悪性度を算出することができる。さらに、特徴抽出部103は、通信先評価のためのリストから所定の周期で所定の期間に収集された掲載の有無を取得することで、複数のリストの情報を効率良く比較することができる。
 また、特徴抽出部103は、既知通信先及び対象通信先の外部情報及び関連する通信先との対応関係の履歴情報をさらに取得し、履歴情報から抽出される関連する通信先群の外部情報の統計量を特徴情報としてさらに抽出する。なお、関連する通信先は、通信先のトップレベルドメインや、通信先をトップレベルドメインとして持つドメイン名等と対応付けられたIPアドレスや、同じAS番号に所属するIPアドレスを持つドメイン名等である。
 これにより、対象通信先や既知通信先だけでなく、それらに関連する通信先も含めた幅広い範囲の通信先の悪性度を算出することができ、また、より多くの特徴情報を得ることができるため、算出の精度を向上させることができる。
 なお、実施形態の説明においては、モデルを生成する処理と生成したモデルによって対象通信先の悪性度を算出する処理を別々に行う場合について説明したが、本発明はこれに限定されるものではない。例えば、モデルを生成することなく、既知通信先と対象通信先とに関する情報を同時に入力し、既知通信先の特徴情報と対象通信先の特徴情報とを比較分析して、悪性度を算出するようにしても良い。
[システム構成等]
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU(Central Processing Unit)及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
 また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
 また、上記実施形態において説明した通信先悪性度算出装置が実行する処理について、コンピュータが実行可能な言語で記述したプログラムを作成することもできる。この場合、コンピュータがプログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかるプログラムをコンピュータが読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。以下に、図1に示した通信先悪性度算出装置と同様の機能を実現するプログラムを実行するコンピュータの一例を説明する。
 図21は、通信先悪性度算出装置として機能するコンピュータの一例を示す図である。図21に例示するように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有し、これらの各部はバス1080によって接続される。
 メモリ1010は、図21に例示するように、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、図21に例示するように、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、図21に例示するように、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、図21に例示するように、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、図21に例示するように、例えばディスプレイ1130に接続される。
 ここで、図21に例示するように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記のプログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュールとして、例えばハードディスクドライブ1090に記憶される。
 また、上記実施形態で説明した各種データは、プログラムデータとして、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出し、実行する。
 なお、プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 10 通信先悪性度算出システム
 100 通信先悪性度算出装置
 101 対象通信先入力部
 102 既知通信先入力部
 103 特徴抽出部
 104 悪性度算出部
 200 通信先情報収集装置
 201 評価情報収集部
 202 対応関係収集部
 203 外部情報収集部

Claims (8)

  1.  悪性度を算出する対象である対象通信先を入力する対象通信先入力部と、
     悪性であることが既知の通信先と、良性であることが既知の通信先と、を既知通信先として入力する既知通信先入力部と、
     前記既知通信先及び前記対象通信先の、通信先評価のためのリストへの所定の時点における掲載の有無を取得し、前記掲載の有無の時間経過に伴う変化を前記既知通信先及び前記対象通信先の特徴情報として抽出する特徴抽出部と、
     前記既知通信先及び前記対象通信先の前記特徴情報に基づいて前記対象通信先の悪性度を算出する悪性度算出部と、
     を有することを特徴とする通信先悪性度算出装置。
  2.  前記悪性度算出部は、前記既知通信先の特徴情報を入力データとし、前記既知通信先が悪性であるか良性であるかを出力データとする教師あり機械学習によって悪性度算出のためのモデルを生成し、前記モデルを用いて前記対象通信先の悪性度を算出することを特徴とする請求項1に記載の通信先悪性度算出装置。
  3.  前記特徴抽出部は、前記通信先評価のためのリストから所定の周期で所定の期間に収集された掲載の有無を取得することを特徴とする請求項1に記載の通信先悪性度算出装置。
  4.  前記特徴抽出部は、前記既知通信先及び前記対象通信先の外部情報及び関連する通信先との対応関係の履歴情報をさらに取得し、前記履歴情報から抽出される関連する通信先群の前記外部情報の統計量を前記特徴情報としてさらに抽出することを特徴とする請求項1に記載の通信先悪性度算出装置。
  5.  前記既知通信先及び前記対象通信先はドメイン名であり、
     前記関連する通信先は、前記既知通信先及び前記対象通信先、及び前記既知通信先及び前記対象通信先のトップレベルドメイン、及び前記既知通信先及び前記対象通信先をトップレベルドメインとして持つドメイン名と対応付けられたIPアドレスであることを特徴とする請求項4に記載の通信先悪性度算出装置。
  6.  前記既知通信先及び前記対象通信先はドメイン名であり、
     前記関連する通信先は、前記既知通信先及び前記対象通信先と同じAS番号に所属するIPアドレスに対応付けられた履歴を持つドメイン名であることを特徴とする請求項4に記載の通信先悪性度算出装置。
  7.  悪性度を算出する対象である対象通信先を入力する対象通信先入力工程と、
     悪性であることが既知の通信先と、良性であることが既知の通信先と、を既知通信先として入力する既知通信先入力工程と、
     前記既知通信先及び前記対象通信先の、通信先評価のためのリストへの所定の時点における掲載の有無を取得し、前記掲載の有無の時間経過に伴う変化を前記既知通信先及び前記対象通信先の特徴情報として抽出する特徴抽出工程と、
     前記既知通信先及び前記対象通信先の前記特徴情報に基づいて前記対象通信先の悪性度を算出する悪性度算出工程と、
     を含んだことを特徴とする通信先悪性度算出方法。
  8.  コンピュータに、
     悪性度を算出する対象である対象通信先を入力する対象通信先入力ステップと、
     悪性であることが既知の通信先と、良性であることが既知の通信先と、を既知通信先として入力する既知通信先入力ステップと、
     前記既知通信先及び前記対象通信先の、通信先評価のためのリストへの所定の時点における掲載の有無を取得し、前記掲載の有無の時間経過に伴う変化を前記既知通信先及び前記対象通信先の特徴情報として抽出する特徴抽出ステップと、
     前記既知通信先及び前記対象通信先の前記特徴情報に基づいて前記対象通信先の悪性度を算出する悪性度算出ステップと、
     を実行させることを特徴とする通信先悪性度算出プログラム。
PCT/JP2016/054102 2015-03-05 2016-02-12 通信先悪性度算出装置、通信先悪性度算出方法及び通信先悪性度算出プログラム WO2016140038A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017503394A JP6196008B2 (ja) 2015-03-05 2016-02-12 通信先悪性度算出装置、通信先悪性度算出方法及び通信先悪性度算出プログラム
EP16758732.8A EP3252646B1 (en) 2015-03-05 2016-02-12 Device for calculating maliciousness of communication destination, method for calculating maliciousness of communication destination, and program for calculating maliciousness of communication destination
US15/554,136 US10701085B2 (en) 2015-03-05 2016-02-12 Communication partner malignancy calculation device, communication partner malignancy calculation method, and communication partner malignancy calculation program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015-043940 2015-03-05
JP2015043940 2015-03-05

Publications (1)

Publication Number Publication Date
WO2016140038A1 true WO2016140038A1 (ja) 2016-09-09

Family

ID=56849255

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/054102 WO2016140038A1 (ja) 2015-03-05 2016-02-12 通信先悪性度算出装置、通信先悪性度算出方法及び通信先悪性度算出プログラム

Country Status (4)

Country Link
US (1) US10701085B2 (ja)
EP (1) EP3252646B1 (ja)
JP (1) JP6196008B2 (ja)
WO (1) WO2016140038A1 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018163464A1 (ja) * 2017-03-09 2018-09-13 日本電信電話株式会社 攻撃対策決定装置、攻撃対策決定方法及び攻撃対策決定プログラム
WO2019142399A1 (ja) * 2018-01-17 2019-07-25 日本電信電話株式会社 収集装置、収集方法及び収集プログラム
WO2019225381A1 (ja) * 2018-05-23 2019-11-28 日本電信電話株式会社 信頼度算出装置、信頼度算出方法及びプログラム
WO2020070916A1 (ja) * 2018-10-02 2020-04-09 日本電信電話株式会社 算出装置、算出方法及び算出プログラム
WO2021024532A1 (ja) * 2019-08-07 2021-02-11 株式会社日立製作所 計算機システム及び情報の共有方法
JP2021111802A (ja) * 2020-01-06 2021-08-02 富士通株式会社 検知プログラム、検知方法および情報処理装置
KR20210117852A (ko) * 2020-03-20 2021-09-29 엘아이지넥스원 주식회사 악성 도메인 탐지 장치 및 방법
JP2021185449A (ja) * 2020-05-25 2021-12-09 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
JP2021189721A (ja) * 2020-05-29 2021-12-13 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
US11503046B2 (en) 2019-01-25 2022-11-15 Fujitsu Limited Cyber attack evaluation method and information processing apparatus
JP7468298B2 (ja) 2020-10-28 2024-04-16 富士通株式会社 情報処理プログラム、情報処理方法、および情報処理装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2019181005A1 (ja) * 2018-03-19 2021-03-11 日本電気株式会社 脅威分析システム、脅威分析方法および脅威分析プログラム
JP7501642B2 (ja) 2020-08-31 2024-06-18 日本電信電話株式会社 判定装置、判定方法、および、判定プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012175296A (ja) * 2011-02-18 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 通信分類装置及び方法
US20140298460A1 (en) * 2013-03-26 2014-10-02 Microsoft Corporation Malicious uniform resource locator detection

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004135868A (ja) * 2002-10-17 2004-05-13 Fuji Photo Film Co Ltd 異常陰影候補検出処理システム
US7272853B2 (en) * 2003-06-04 2007-09-18 Microsoft Corporation Origination/destination features and lists for spam prevention
US8191149B2 (en) * 2006-11-13 2012-05-29 Electronics And Telecommunications Research Institute System and method for predicting cyber threat
US8041710B2 (en) * 2008-11-13 2011-10-18 Microsoft Corporation Automatic diagnosis of search relevance failures
KR101122650B1 (ko) * 2010-04-28 2012-03-09 한국전자통신연구원 정상 프로세스에 위장 삽입된 악성코드 탐지 장치, 시스템 및 방법
US8521667B2 (en) * 2010-12-15 2013-08-27 Microsoft Corporation Detection and categorization of malicious URLs
US8762298B1 (en) * 2011-01-05 2014-06-24 Narus, Inc. Machine learning based botnet detection using real-time connectivity graph based traffic features
US9455993B2 (en) * 2013-03-13 2016-09-27 Lookingglass Cyber Solutions, Inc. Computer network attribute bilateral inheritance
US9972041B2 (en) * 2015-02-18 2018-05-15 Go Daddy Operating Company, LLC Earmarking a short list of favorite domain names or searches

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012175296A (ja) * 2011-02-18 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 通信分類装置及び方法
US20140298460A1 (en) * 2013-03-26 2014-10-02 Microsoft Corporation Malicious uniform resource locator detection

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2018163464A1 (ja) * 2017-03-09 2019-07-04 日本電信電話株式会社 攻撃対策決定装置、攻撃対策決定方法及び攻撃対策決定プログラム
US11652845B2 (en) 2017-03-09 2023-05-16 Nippon Telegraph And Telephone Corporation Attack countermeasure determination apparatus, attack countermeasure determination method, and attack countermeasure determination program
WO2018163464A1 (ja) * 2017-03-09 2018-09-13 日本電信電話株式会社 攻撃対策決定装置、攻撃対策決定方法及び攻撃対策決定プログラム
JPWO2019142399A1 (ja) * 2018-01-17 2020-04-30 日本電信電話株式会社 収集装置、収集方法及び収集プログラム
WO2019142399A1 (ja) * 2018-01-17 2019-07-25 日本電信電話株式会社 収集装置、収集方法及び収集プログラム
US11556819B2 (en) 2018-01-17 2023-01-17 Nippon Telegraph And Telephone Corporation Collection apparatus, collection method, and collection program
WO2019225381A1 (ja) * 2018-05-23 2019-11-28 日本電信電話株式会社 信頼度算出装置、信頼度算出方法及びプログラム
JP2019204264A (ja) * 2018-05-23 2019-11-28 日本電信電話株式会社 信頼度算出装置、信頼度算出方法及びプログラム
WO2020070916A1 (ja) * 2018-10-02 2020-04-09 日本電信電話株式会社 算出装置、算出方法及び算出プログラム
JPWO2020070916A1 (ja) * 2018-10-02 2021-04-30 日本電信電話株式会社 算出装置、算出方法及び算出プログラム
US11928208B2 (en) 2018-10-02 2024-03-12 Nippon Telegraph And Telephone Corporation Calculation device, calculation method, and calculation program
JP7006805B2 (ja) 2018-10-02 2022-01-24 日本電信電話株式会社 算出装置、算出方法及び算出プログラム
US11503046B2 (en) 2019-01-25 2022-11-15 Fujitsu Limited Cyber attack evaluation method and information processing apparatus
JP2021026597A (ja) * 2019-08-07 2021-02-22 株式会社日立製作所 計算機システム及び情報の共有方法
JP7297249B2 (ja) 2019-08-07 2023-06-26 株式会社日立製作所 計算機システム及び情報の共有方法
WO2021024532A1 (ja) * 2019-08-07 2021-02-11 株式会社日立製作所 計算機システム及び情報の共有方法
JP2021111802A (ja) * 2020-01-06 2021-08-02 富士通株式会社 検知プログラム、検知方法および情報処理装置
KR102361513B1 (ko) * 2020-03-20 2022-02-10 엘아이지넥스원 주식회사 악성 도메인 탐지 장치 및 방법
KR20210117852A (ko) * 2020-03-20 2021-09-29 엘아이지넥스원 주식회사 악성 도메인 탐지 장치 및 방법
JP2021185449A (ja) * 2020-05-25 2021-12-09 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
JP7413924B2 (ja) 2020-05-25 2024-01-16 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
JP2021189721A (ja) * 2020-05-29 2021-12-13 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
JP7468298B2 (ja) 2020-10-28 2024-04-16 富士通株式会社 情報処理プログラム、情報処理方法、および情報処理装置

Also Published As

Publication number Publication date
EP3252646A4 (en) 2018-09-26
US20180270254A1 (en) 2018-09-20
EP3252646B1 (en) 2019-06-05
US10701085B2 (en) 2020-06-30
EP3252646A1 (en) 2017-12-06
JPWO2016140038A1 (ja) 2017-07-27
JP6196008B2 (ja) 2017-09-13

Similar Documents

Publication Publication Date Title
JP6196008B2 (ja) 通信先悪性度算出装置、通信先悪性度算出方法及び通信先悪性度算出プログラム
Singh et al. Issues and challenges in DNS based botnet detection: A survey
US10237283B2 (en) Malware domain detection using passive DNS
US10740363B2 (en) Domain classification based on domain name system (DNS) traffic
Kührer et al. Going wild: Large-scale classification of open DNS resolvers
Passerini et al. Fluxor: Detecting and monitoring fast-flux service networks
US8745737B2 (en) Systems and methods for detecting similarities in network traffic
US11652845B2 (en) Attack countermeasure determination apparatus, attack countermeasure determination method, and attack countermeasure determination program
JP6315640B2 (ja) 通信先対応関係収集装置、通信先対応関係収集方法及び通信先対応関係収集プログラム
Korczynski et al. Reputation metrics design to improve intermediary incentives for security of TLDs
US20240259427A1 (en) Domain squatting detection
US10432646B2 (en) Protection against malicious attacks
Leita et al. HARMUR: Storing and analyzing historic data on malicious domains
US20240039890A1 (en) Detecting shadowed domains
Marchal DNS and semantic analysis for phishing detection
Han et al. A real-time android malware detection system based on network traffic analysis
Lee et al. DGA-based malware detection using DNS traffic analysis
Wickramasinghe et al. Uncovering ip address hosting types behind malicious websites
Dube et al. An analysis of the use of DNS for malicious payload distribution
US20240179164A1 (en) Strategically aged domain detection
Chen et al. An improvement for fast-flux service networks detection based on data mining techniques
van Zyl A longitudinal study of DNS traffic: Understanding current DNS practice and abuse
Müller SIDekICk-Detecting Malicious Domain Names in the. nl Zone
Pa et al. Finding malicious authoritative DNS servers

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16758732

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017503394

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15554136

Country of ref document: US

REEP Request for entry into the european phase

Ref document number: 2016758732

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE