WO2019142399A1 - 収集装置、収集方法及び収集プログラム - Google Patents

収集装置、収集方法及び収集プログラム Download PDF

Info

Publication number
WO2019142399A1
WO2019142399A1 PCT/JP2018/034625 JP2018034625W WO2019142399A1 WO 2019142399 A1 WO2019142399 A1 WO 2019142399A1 JP 2018034625 W JP2018034625 W JP 2018034625W WO 2019142399 A1 WO2019142399 A1 WO 2019142399A1
Authority
WO
WIPO (PCT)
Prior art keywords
search
search query
keyword
web page
unit
Prior art date
Application number
PCT/JP2018/034625
Other languages
English (en)
French (fr)
Inventor
駿 小出
大紀 千葉
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to EP18901520.9A priority Critical patent/EP3722974B1/en
Priority to US16/958,158 priority patent/US11556819B2/en
Priority to JP2019565704A priority patent/JP6823205B2/ja
Publication of WO2019142399A1 publication Critical patent/WO2019142399A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/145Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0236Filtering by address, protocol, port number or service, e.g. IP-address or URL
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1491Countermeasures against malicious traffic using deception as countermeasure, e.g. honeypots, honeynets, decoys or entrapment

Definitions

  • the present invention relates to a collection device, a collection method and a collection program.
  • DBD Drive-By Download attacks
  • the DBD attack is an attack that uses a web browser to automatically transfer a user connected to a web page to the attack page and infect it with malware.
  • DBD attacks infect users with malware by exploiting vulnerabilities in Web browsers and plug-ins introduced to them.
  • a web client type honeypot which is a decoy system containing vulnerability to analyze a web page which generates DBD attack.
  • the URL Uniform Resource Locator
  • domain name domain name
  • IP address IP address of the web page
  • the communication destination information represented by is set as a black list. Then, each security device prevents the user from being infected with malware by blocking Web access to this blacklist.
  • a button may be displayed that makes popular digital content (video, music, software, etc.) seemingly available irregularly for free. Then, by causing the user to click this button, it is conceivable to cause the web page of the terminal screen to transition to another web page, or to cause the terminal to download malware or a malicious browser extension function.
  • the Web page in which this "user operation inducing attack" occurs is not a tampered regular Web page, but a Web page or an advertisement prepared by an attacker. For this reason, it is difficult to efficiently collect the URL of the Web page where this attack occurs, in the method of performing a search by a search engine using the characteristic of the Web page having vulnerability.
  • Web pages in which “attacks that induce user operations” occur tend to use domain names of Web pages for a long time. For this reason, it is difficult to extract the domain name of the Web page which is the starting point of this attack by the method of extracting the domain name based on the characteristic that the domain name is disposable in the short term.
  • the present invention has been made in view of the above, and it is an object of the present invention to provide a collection device, collection method and collection program for efficiently collecting the URL of a web page that guides user operations to malware infection.
  • a collection device for collecting a URL of a Web page, which is a digital content name that is a digital content name, and the digital content
  • a search query generation unit that generates a search query of a search engine by combining with accompanying keywords, and a user operation when a search is performed using the generated search query based on the feature information of the search query generated by the search query generation unit Search the Web page by the search query in the search order based on the degree prediction unit that predicts the degree of outputting the Web page that leads the search result as a search result and the degree predicted by the degree prediction unit, and the URL of the searched Web page Is a Web page that guides the user's operation based on the degree of search query and the search result information.
  • a determination unit that determines an analysis priority, which is a priority when analyzing whether or not, a URL of a Web page searched by the determination unit, and an analysis priority of the URL are output in association with each other
  • an output unit that determines an analysis priority, which is a priority when analyzing whether or not
  • FIG. 1 is a diagram showing an example of the configuration of an analysis system according to the embodiment.
  • FIG. 2 is a diagram showing an example of the configuration of the collection device shown in FIG.
  • FIG. 3 is a view showing an example of the data configuration of category data stored in the category database (DB) shown in FIG.
  • FIG. 4 is a diagram showing an example of data stored in the known search query DB shown in FIG.
  • FIG. 5 is a view showing an example of the data configuration of the white list.
  • FIG. 6 is a diagram showing the first keyword and additional information collected by the first keyword collection unit shown in FIG.
  • FIG. 7 is a diagram showing an example of a second keyword collected by the second keyword collecting unit shown in FIG.
  • FIG. 8 is a diagram illustrating an example of a search query generated by the generation unit illustrated in FIG.
  • FIG. 9 is a diagram showing an example of the feature information of the search query extracted by the feature information extraction unit shown in FIG.
  • FIG. 10 is a diagram showing an example of analysis priority for the URL calculated by the analysis priority calculator shown in FIG.
  • FIG. 11 is a flowchart of a process procedure of the process of constructing the goodness-of-fit prediction model shown in FIG.
  • FIG. 12 is a flowchart showing the processing procedure of the web page collection process executed by the collection device shown in FIG.
  • FIG. 13 is a flowchart of the search query generation process shown in FIG.
  • FIG. 14 is a flow chart showing a processing procedure of the matching degree prediction processing shown in FIG.
  • FIG. 15 is a flowchart of the analysis priority determination process shown in FIG.
  • FIG. 16 is a diagram illustrating an example of a computer in which a collection device is realized by execution of a program.
  • FIG. 1 is a diagram showing an example of the configuration of an analysis system according to the embodiment.
  • the analysis system 1 includes an analysis device 3 and a collection device 4 provided between the network 2 and the analysis device 3.
  • the collecting device 4 is connected to an external device (not shown) via the network 2.
  • the collection device 4 collects the URL of the web page that guides the user operation.
  • the collection device 4 preferentially collects the URLs of web pages that are highly likely to be web pages where "attack for inducing user operation" occurs, and an analysis device Output to 3.
  • the attack that induces the user's operation is an attack that strikes the user's psychological gap by attracting, warning, or fooling the user and causing the user to install malware.
  • the analysis device 3 analyzes a Web page having a high possibility of being a Web page on which a “attack for guiding a user operation” generated by the collection device 4 occurs, and analyzes whether there is an attack. Then, the analysis device 3 generates a blacklist based on the analysis result. Then, each security device (not shown) prevents the user from being infected with malware by blocking Web access to this blacklist.
  • the collection device 4 focuses on this point, and preferentially collects the URL of the Web page which is highly likely to be the Web page on which the “attack for guiding the user operation” occurs.
  • the collection device 4 performs URL extraction using a search query generated by combining the digital content name and its associated keyword. Then, the collecting device 4 includes the “attack for guiding the user operation” in the search result by the search query based on the newly extracted search query and the feature information of the known search query (including the rank information of the digital content). Predict the degree of fitness (fitness). Subsequently, the collection device 4 determines the analysis priority of the extracted URL using the predicted adaptability, associates the extracted URL with the analysis priority of the URL, and outputs the URL to the analysis device 3 .
  • FIG. 2 is a diagram showing an example of the configuration of the collection device 4 shown in FIG.
  • the collection device 4 includes a communication unit 10, a storage unit 20, and a control unit 30. Further, the collection device 4 has an input interface (not shown) for receiving various operations from the operator, and an output device (not shown) realized by a display device, a printing device, an information communication device and the like.
  • the communication unit 10 is a communication interface that transmits and receives various information to and from another device connected via the network 2 or the like.
  • the communication unit 10 is realized by an NIC (Network Interface Card) or the like, and performs communication between the control unit 30 (described later) and another device via a telecommunication line such as a LAN (Local Area Network) or the Internet.
  • the communication unit 10 collects web pages via the network 2.
  • the communication unit 10 associates the URL of the Web page having a high possibility of being a Web page on which the “attack inducing a user operation” generated by the control unit 30 occurs with the analysis priority of the URL. , Output to the analysis device 3.
  • the storage unit 20 is a storage device such as a hard disk drive (HDD), a solid state drive (SSD), or an optical disk.
  • the storage unit 20 may be a semiconductor memory capable of rewriting data such as a random access memory (RAM), a flash memory, and a non volatile static random access memory (NV SRAM).
  • the storage unit 20 stores an operating system (OS) executed by the collection device 4 and various programs. Furthermore, the storage unit 20 stores various information used in the execution of the program.
  • the storage unit 20 includes a category DB 21, a known keyword DB 22, a known search query DB 23, a relevance prediction model 24 (prediction model), and a white list DB 25.
  • the category DB 21 stores category data indicating categories of digital data whose category input unit 311 (described later) receives an input, and Web pages of collection destinations corresponding to the respective categories.
  • FIG. 3 is a view showing an example of the data configuration of category data stored in the category DB 21 shown in FIG.
  • category data as shown in FIG. 3, a digital data category and a Web page of a collection destination corresponding to each category are associated with each other, and a serial number is given to each.
  • the first keyword collection unit 312 (described later) makes reference to the category DB 21 to go around the collection destination Web page corresponding to the category of the input digital data, and collects the first keyword.
  • each category shown in FIG. 3 is a category of digital data that is expected to be input in the category input unit 311.
  • categories are not limited to these.
  • the collection destination Web page corresponding to each category is a Web page on which the content name of digital data is posted.
  • the collection destination Web page is preset for each category and stored in the category DB 21.
  • the first keyword collection unit 312 collects the content name of digital data posted on the Web page as a first keyword which is an arbitrary digital content name belonging to the category of digital data.
  • a content name of digital data there are a product name of PC software, a product name of a movie or a book, a video name posted, and the like.
  • the content name is not limited to these.
  • the known keyword DB 22 stores a known second keyword previously obtained for each category.
  • the second keyword is an incidental keyword attached to the first keyword when the search query of the search engine includes the first keyword. Then, among the second keywords, a character string for outputting many Web pages for guiding the user operation is obtained in advance as a known second keyword and stored in the known keyword DB 22.
  • the known keyword DB 22 stores “free” as a known second keyword of the category “Movie”. Also, the known keyword DB 22 stores “download” as a known second keyword of the category “Game”.
  • the known search query DB 23 associates and stores a search query whose search result is known and the relevance of the search query.
  • the search query for which these search results are known and the relevance of the search query are obtained in advance.
  • the matching degree of the search query is the degree to which the “attack for inducing the user operation” is included in the search result by the search query.
  • the degree of relevance is an index indicating how well the web site that guides the user's operation matches the purpose of outputting a search result.
  • a search query whose search result is known is a known search query (malignant search query) that includes a web page that guides a user operation in the search result and a search page that does not include a web page that guides a user operation in the search result. It is a search query (benign search query).
  • FIG. 4 is a diagram showing an example of data stored in the known search query DB 23 shown in FIG.
  • the known search query DB 23 stores, as shown in FIG. 4, a search query whose search result is known, and the matching degree of the search query.
  • this search query is treated as a malignant search query.
  • the search query “MovieA online” of the serial number “101” whose matching degree is “0” is a benign search query.
  • Other search queries whose relevance is greater than 0 are malignant queries.
  • the matching degree of the search query whose search result is known is previously obtained and stored in the known search query DB 23 in a state associated with each search query.
  • the degree of matching is determined, for example, using equation (1).
  • the search query “Movie A free download” the case where the number of output results of the search result is 10 and the number of web pages for guiding the user operation is 7 will be described as an example.
  • the matching degree “0.7” can be obtained for the search query “Movie A free download”.
  • the degree of fitness may be calculated using not only the equation (1) but also another equation.
  • the known search query DB 23 may store a set of known search queries and output results of search results in association with a set of Web pages for guiding a user operation.
  • the matching degree prediction model 24 is a model that outputs the matching degree according to the input feature information when the feature information of the search query is input.
  • the fitness prediction model 24 is a known search query based on the known malignant search query fitness and the known malignant search query, and the known benign search query fitness and the known benign search query feature information. And the various parameters of the model obtained by learning the features possessed by the matching degree of and the feature information of the known search query.
  • Various parameters of the fitness prediction model 24 are optimized by prior learning by the model construction unit 323 (described later) before web page collection processing.
  • the white list DB 25 stores a white list in which Web page groups not to be analyzed by the analysis device 3 are preset for each category.
  • FIG. 5 is a view showing an example of the data configuration of the white list.
  • the white list has a data configuration in which communication destination information such as a domain name and a URL is associated with a category, and a serial number is assigned to each.
  • communication destination information such as a domain name and a URL is associated with a category, and a serial number is assigned to each.
  • Web page groups not to be analyzed by the analysis device 3 are set in advance for each category.
  • FIG. 5 exemplifies the domain name and the URL of the web page as the type of the communication destination set as the white list, the present invention is not limited to these items.
  • This whitelist is referred to by the whitelist exclusion unit 333 (described later).
  • the control unit 30 controls the entire collecting device 4.
  • the control unit 30 is, for example, an integrated circuit such as an electronic circuit such as a central processing unit (CPU) or a micro processing unit (MPU), an application specific integrated circuit (ASIC), or a field programmable gate array (FPGA).
  • the control unit 30 also has an internal memory for storing programs and control data that define various processing procedures, and executes each processing using the internal memory.
  • the control unit 30 also functions as various processing units when various programs operate.
  • the control unit 30 includes a search query generation unit 31, a matching degree prediction unit 32 (degree prediction unit), and an analysis priority determination unit 33 (determination unit).
  • the search query generation unit 31 generates a search query of the search engine by combining the digital content name, which is the name of the digital content, and the associated keyword of the digital content.
  • the matching degree prediction unit 32 predicts the matching degree of the search query based on the feature information of the search query generated by the search query generation unit 31.
  • the degree of matching is a degree of outputting a Web page that guides a user operation as a search result when a search is performed using the generated search query.
  • the analysis priority determination unit 33 executes the search of the Web page by the search query in the search order based on the matching degree predicted by the matching degree prediction unit 32. Then, the analysis priority determination unit 33 determines the analysis priority based on the matching degree of the search query and the search result information with respect to the URL of the searched Web page.
  • the analysis priority is a priority at the time of analyzing whether or not it is a Web page that guides a user operation.
  • the communication unit 10 associates the URL of the Web page searched by the analysis priority determination unit 33 with the analysis priority of the URL, and outputs the URL to the analysis device 3.
  • the search query generation unit 31 includes a category input unit 311, a first keyword collection unit 312, a second keyword collection unit 313, and a generation unit 314.
  • the category input unit 311 receives an input of a category of digital data.
  • the category input unit 311 accepts a category for collecting the first keyword as an input.
  • the first keyword is an arbitrary digital content name belonging to a category.
  • the first keyword collection unit 312 collects an arbitrary digital content name belonging to a category as a first keyword from a website set in advance as a collection destination.
  • the first keyword collection unit 312 selects a web page for each category of digital data input from the category input unit 311.
  • the first keyword collection unit 312 refers to the category DB 21 and selects a collection destination Web page corresponding to the input category.
  • the first keyword collecting unit 312 collects the first keyword by accessing the selected Web page and extracting the digital content name indicating the product and the distribution data as the first keyword.
  • the first keyword collection unit 312 also collects additional information of the first keyword together with the first keyword.
  • FIG. 6 is a diagram showing the first keyword and additional information collected by the first keyword collection unit 312 shown in FIG.
  • the first keyword collection unit 312 When a category is input in the category input unit 311, the first keyword collection unit 312 performs Web access to a collection destination Web page set for each category shown in FIG. Then, as shown in FIG. 3, the first keyword collecting unit 312 collects arbitrary digital content names belonging to the category as the first keyword from each Web page to which the Web access has been made.
  • the first keyword collection unit 312 extracts additional information together with the first keyword.
  • the additional information is, as illustrated in FIG. 6, a category associated with the first keyword, a collection destination Web page, and order information.
  • the order information includes the order of the number of purchases, the order of recommendation, the post date and time order of the video, and the order of popularity by user evaluation.
  • the additional information is not limited to these items.
  • the first keyword collection unit 312 selects the URL "http://movie1.example.com” corresponding to the category "Movie” (see FIG. 3). To access the web page of). In this case, when the movie name "Movie A" is posted on this Web page, the first keyword collecting unit 312 collects this "Movie A" as the first keyword (see FIG. 3). In addition, the first keyword collection unit 312 extracts additional information included in the Web page. For example, from the Web page, the first keyword collection unit 312 sets the category "Movie” associated with the first keyword "Movie A", the collection destination Web page "http://movie1.example.com", and the ranking information "1". Are extracted as additional information. This additional information may be used to calculate the analysis priority.
  • the first keyword collection unit 312 can describe the browser operation by, for example, a browser operation automation tool or a programming language as Web page circulation processing and character string extraction processing for collecting the first keyword and additional information from each Web page. Using a web browser.
  • the first keyword collection unit 312 can also use another method.
  • the processing procedure of the web page circulation and the character string extraction executed by the first keyword collection unit 312 is preset for each web page.
  • the second keyword collecting unit 313 collects the second keyword.
  • the second keyword is an incidental keyword attached to the first keyword when the search query of the search engine includes the first keyword.
  • the second keyword is a character string often added to the first keyword as a search query of a search engine.
  • the second keyword collection unit 313 collects a new second keyword using the first keyword collected by the first keyword collection unit 312. Specifically, the second keyword collection unit 313 extracts a character string including the first keyword using the search suggestion function of the search engine and the related search function, and extracts character strings other than the first keyword from the character string. Extract as the second keyword.
  • This known second keyword is a character string that outputs a large number of web pages for guiding the user operation when added to any first keyword and searched.
  • FIG. 7 is a diagram showing an example of the second keyword collected by the second keyword collecting unit 313 shown in FIG.
  • the second keyword collection unit 313 collects the second keyword using the first keyword collected by the first keyword collection unit 312.
  • the second keyword is a character string often added to the first keyword as a search query of a search engine.
  • the second keyword collection unit 313 uses a known second keyword that outputs many Web pages that induce user operations when added to the first keyword, and uses the second search keyword of the search engine and the related search function. Perform keyword extraction.
  • the second keyword collecting unit 313 refers to the known keyword DB 22 to acquire a known second keyword.
  • the second keyword collecting unit 313 adds a known second keyword "free" to the first keyword "Movie A" belonging to the category “Movie” as shown by the serial number "1" in FIG. Configure "Movie A free”.
  • the second keyword collection unit 313 inputs the character string "MovieA free” to the search suggestion function, and obtains the character string "MovieA free download” output from the search suggestion function.
  • the second keyword collection unit 313 extracts a newly obtained character string “download” among the outputted character strings “Movie A free download” as a second keyword belonging to the category “Movie”.
  • the second keyword is not limited to that shown in FIG. 7, and other extraction methods may be applied.
  • the generation unit 314 generates a search query by combining the first keyword and the second keyword.
  • the generation unit 314 generates a search query by combining the first keyword collected by the first keyword collection unit 312 and the second keyword collected by the second keyword collection unit 313.
  • the generation unit 314 outputs the generated search query to the relevance prediction unit 32.
  • FIG. 8 is a diagram illustrating an example of the search query generated by the generation unit 314 illustrated in FIG.
  • the generation unit 314 constructs a search query by linking the first keyword and the second known keyword whose category matches the first keyword.
  • the generation unit 314 constructs a search query by linking the first keyword and the second keyword collected using the first keyword.
  • the generation unit 314 links the first keyword “Movie A” with the first keyword “Movie A” and the known second keyword “free” having the same category “Movie” as a search query “Movie A free”. (See serial number “1” in FIG. 8).
  • the generation unit 314 includes a first keyword “Movie A”, a known second keyword “free” in the same category “Movie” as the first keyword “Movie A”, and a second keyword collected by the second keyword collection unit 313. 2. Concatenate two keywords “download” to generate a search query "Movie A free download” (see serial number "2" in FIG. 8).
  • the generation unit 314 may configure a search query by concatenating the first keyword and the known second keyword whose category is different from the first keyword, or the collected second keyword.
  • the combination of a 1st keyword and a 2nd keyword is not restricted to what was shown in FIG.
  • the fitness prediction unit 32 includes a fitness acquisition unit 321, a feature information extraction unit 322, a model construction unit 323, and a prediction unit 324.
  • the matching degree acquisition unit 321 acquires the matching degree of the search query whose search result is known.
  • the matching degree acquisition unit 321 refers to the known search query DB 23 to obtain the matching degree of the search query whose search result is known. Further, when the known search query DB 23 stores a set of known search queries and output results of search results in association with a set of Web pages for guiding a user operation, the matching degree acquisition unit 321
  • the data of the search query for which the matching degree is to be acquired is obtained from the known search query DB 23, and the degree of matching is calculated using the equation (1) to obtain the matching degree.
  • the fitness degree acquisition unit 321 may calculate the fitness degree using not only the equation (1) but also another computing equation.
  • the feature information extraction unit 322 extracts feature information of the search query.
  • the feature information extraction unit 322 extracts feature information of a search query whose search result is known. Further, the feature information of the search query generated by the search query generation unit 31 is extracted.
  • the feature information of the search query includes, for example, a category to which a character string constituting the search query belongs, the number of all other words in the search query, and the number of characters.
  • FIG. 9 is a diagram showing an example of the feature information of the search query extracted by the feature information extraction unit 322 shown in FIG.
  • the characteristic information of the search query is, for example, as shown in each item of FIG. 9, the rank or category of additional information of the first keyword used by the search query generation unit 31 for generating the search query, and the number of second keywords. (Number of second keywords), Bag of Words model, the number of words in the entire search query, or the number of characters can be considered.
  • the search information feature information is not limited to the items shown in FIG.
  • the feature information extraction unit 322 extracts feature information from the search query “Movie A free”, for example, from the search query generated by the search query generation unit 31.
  • the feature information extraction unit 322 extracts “1” as feature information corresponding to the “free” column of the Bag of Words model because “free” appears once in the search query “Movie A free”.
  • the feature information extraction unit 322 extracts “1” as the corresponding feature information of the second keyword number.
  • the feature information extraction unit 322 extracts the number of words “2” and the number of characters “1” of the search query “Movie A free”. Furthermore, the feature information extraction unit 322 extracts the rank "1" from the additional information of the first keyword "Movie A" in the search query "Movie A free”, and extracts "Movie” as a category.
  • the model construction unit 323 causes the fitness prediction model 24 to learn the feature information and the fitness of the search query for which the search result is known.
  • the matching degree of the search query whose search result is known is the one obtained by the matching degree acquisition unit 321.
  • the feature information of the search query whose search result is known is extracted by the feature information extraction unit 322 from the search query whose search result is known.
  • the fitness prediction model 24 is stored in the storage unit 20.
  • the model construction unit 323 employs, for example, a supervised machine learning method, and causes the fitness prediction model 24 to learn the feature information and the fitness of the search query whose search results are known as training data.
  • supervised machine learning methods there are support vector machines and random forests, but it is not limited to these methods.
  • the prediction unit 324 predicts the matching degree of the search query generated by the search query generation unit 31 using the feature information of the search query generated by the search query generation unit 31.
  • the prediction unit 324 inputs the feature information of the search query generated by the search query generation unit 31 to the fitness prediction model 23, and acquires the fitness of the search query output by the fitness prediction model 23.
  • the analysis priority determination unit 33 includes a search order determination unit 331, a search execution unit 332, a white list exclusion unit 333 and an analysis priority calculation unit 334.
  • the search order determination unit 331 determines the search order of the search query generated by the search query generation unit 11 based on the matching degree predicted by the matching degree prediction unit 32.
  • the search order determination unit 331 uses, among the search queries generated by the search query generation unit 11, the search query used for the search performed by the search execution unit 332 using the matching degree predicted by the matching degree prediction unit 32, Determine the search order. For example, from the search query generated by the search query generation unit 11, the search order determination unit 31 extracts a search query that exceeds the threshold of the degree of matching set in advance, and searches the extracted search query in descending order of the degree of matching. Determine the search order to be done.
  • the search execution unit 332 executes the search of the Web page by the search query in the search order determined by the search order determination unit 331. Then, the search execution unit 332 extracts the URL of the Web page as a search result using the search query.
  • the whitelist exclusion unit 333 excludes, from the URLs of the web pages searched by the search execution unit 332, the URLs of the web pages which are previously obtained for each category and which are not to be analyzed in the analysis device 3.
  • the URLs of web pages not to be analyzed are indicated in advance in the whitelist stored in the whitelist DB 25.
  • the whitelist exclusion unit 333 refers to the whitelist of the whitelist DB 25 and excludes the URL of the web page not to be analyzed from the URL of the web page searched by the search execution unit 332.
  • the analysis priority calculation unit 334 calculates the analysis priority of the URLs excluded by the whitelist exclusion unit 333 based on the search query suitability, the search query search order, and the search result information.
  • the URL after the exclusion and the analysis priority of the URL are output from the communication unit 10 to the analysis device 3. For example, from the communication unit 10, the URLs are output in descending order of analysis priority.
  • analysis efficiency is achieved by using the analysis priority of this URL as an index for preferentially analyzing a web page that guides a user operation.
  • the analysis priority calculation unit 334 sets the set of output results of the search engine, the search order of the search query at the time of the URL search, and the matching degree of the search query at the time of the search of the URL 2) Apply to the equation to calculate the analysis priority.
  • the matching degree of the search query is predicted by the matching degree prediction unit 32.
  • the search order of the URL is determined by the search order determination unit 331 based on the matching degree predicted by the matching degree prediction unit 32.
  • FIG. 10 is a diagram showing an example of analysis priority for the URL calculated by the analysis priority calculator 334 shown in FIG.
  • FIG. 10 shows an example of analysis priority for the URL output from the whitelist removing unit 333.
  • the analysis priority calculation unit 334 calculates the analysis priority of the URL “http://movie.example.com/” as “0.9” using the equation (2). Further, the analysis priority calculation unit 334 calculates the analysis priority of the URL “http://game.example.com/” as “0.8” using the equation (2).
  • the communication unit 10 outputs data in which the URL shown in FIG. 10 is associated with the analysis priority of the URL to the analysis device 3 as data indicating the collected URL.
  • analysis priority calculation unit 334 may calculate the analysis priority using another method instead of the equation (2).
  • the analysis priority calculation unit 334 may calculate the analysis priority using the first keyword order that is the additional information of the first keyword using Expression (3).
  • FIG. 11 is a flowchart of a process procedure of the process of constructing the goodness-of-fit prediction model shown in FIG.
  • the matching degree acquisition unit 321 refers to the known search query DB 23 to obtain a search query whose search result is known (step S1) and calculates the matching degree of the known search query (step S2). .
  • the feature information extraction unit 322 obtains the feature information of the search query acquired by the matching degree acquisition unit 321 and for which the search result is known (step S3).
  • the model construction unit 323 applies the supervised machine learning (step S4), and causes the fitness prediction model 24 to learn the feature information and the fitness of the search query for which the search result is known. Then, the model construction unit 323 updates the fitness prediction model 24 in which various parameters are optimized by learning (step S5), and ends the processing for constructing the fitness prediction model. This process is performed at least before the web page collection process. Also, this process may be performed in parallel with the web page collection process.
  • FIG. 12 is a flowchart showing the processing procedure of the collection process of the Web page which the collection device 4 shown in FIG. 2 executes.
  • the search query generation unit 31 generates a search query of a search engine by combining the digital content name, which is the name of the digital content, and the associated keyword of the digital content.
  • a query generation process is performed (step S11).
  • the fitness prediction unit 32 performs a compatibility prediction process of predicting the search query fitness (step S12).
  • the analysis priority determination unit 33 performs analysis priority determination processing of determining the analysis priority based on the matching degree of the search query and the search result information (step S13).
  • the communication unit 10 performs output processing of associating the URL of the Web page searched by the analysis priority determination unit 33 with the analysis priority of the URL and outputting the URL to the analysis device 3 (step S14), and the processing ends Do.
  • FIG. 13 is a flowchart of the search query generation process shown in FIG.
  • the category input unit 311 receives an input of a category of digital data (step S21).
  • the first keyword collection unit 312 accesses the collection destination Web page with the URL group set in advance for each of the input categories as the URL of the collection destination Web page, and an arbitrary digital content name belonging to the category A first keyword collection process of collecting the first keyword is performed (step S22).
  • the first keyword collection unit 312 accesses the collection destination Web page, automatically operates the Web browser using software capable of describing the operation of the Web browser, and performs preset Web page circulation processing and character string extraction Based on the processing, the first keyword and its additional information as shown in FIG. 3 are extracted.
  • the second keyword collecting unit 313 performs a second keyword collecting process of collecting the second keyword (step S23).
  • the second keyword is an accompanying keyword attached to the first keyword.
  • the generation unit 314 performs search query generation processing of generating a search query by combining the first keyword and the second keyword (step S24).
  • the search query generation unit 31 outputs the search query generated by the generation unit 314 to the matching degree prediction unit 32 (step S25), and ends the search query generation process.
  • FIG. 14 is a flow chart showing a processing procedure of the matching degree prediction processing shown in FIG.
  • the feature information extraction unit 322 extracts feature information of the search query generated by the search query generation unit 31 (step S31).
  • the prediction unit 324 inputs the feature information of the search query extracted by the feature information extraction unit 322 into the fitness prediction model (step S32), and acquires the fitness of the search query output by the fitness prediction model 24.
  • the degree prediction process is performed (step S33).
  • the matching degree prediction unit 32 associates the search query with the matching degree predicted by the prediction unit 324 with respect to the search query, and outputs the search query to the analysis priority determination unit 33 (step S34), and ends the process. .
  • FIG. 15 is a flowchart of the analysis priority determination process shown in FIG.
  • the search order determination unit 331 determines the search order of the search query generated by the search query generation unit 31 based on the matching degree predicted by the matching degree prediction unit 32. (Step S41).
  • the search execution unit 332 searches the Web page by the search query in the search order determined by the search order determination unit 331 (step S42).
  • the whitelist exclusion unit 333 excludes the URL of the web page not to be analyzed shown in the whitelist from the URL of the web page searched by the search execution unit 332 (step S43). Subsequently, the analysis priority calculation unit 334 calculates an analysis priority for the URLs after exclusion by the whitelist exclusion unit 333 based on the search query suitability, the search query search order, and the search result information (step S44), the process ends.
  • the collection device 4 combines the digital content name, which is the name of the digital content, and the associated keyword of the digital content to generate a search query of the search engine. Then, in the collecting device 4, based on the generated feature information of the search query, when the search is performed with the generated search query, the matching degree, which is the degree of outputting the Web page that guides the user operation as the search result Predict.
  • the search of the web page by the search query is performed in the search order based on the predicted degree of matching, and the matching degree of the search query and the search result information are Based on the analysis priority, which is a priority at the time of analyzing whether it is a Web page that guides the user operation, is determined. Furthermore, the collection device 4 associates the URL of the retrieved Web page with the analysis priority of the URL, and outputs the URL to the analysis device 3.
  • a digital content name and an accompanying keyword of the digital content are combined to generate a search query for outputting a Web page for guiding a user operation as a search result. Then, according to the present embodiment, by predicting the matching degree of the search query based on the feature information of the generated search query, a Web page that guides the user operation to malware infection is output as the search result. Can be preferentially extracted. Further, according to the present embodiment, by performing the search of the Web page by the search query in the search order based on the predicted degree of matching, the search in the search query can be efficiently performed.
  • the analysis device 3 guides the user operation to the malware infection by determining the analysis priority with respect to the Web page of the search result searched by the search query extracted preferentially.
  • the URL of the Web page can be used as an index for analyzing preferentially, and efficient analysis can be realized.
  • the search query generation unit 31 when the search query generation unit 31 receives an input of a category of digital data, the search query generation unit 31 collects an arbitrary digital content name belonging to the category as a first keyword. In this case, the search query generation unit 31 selects a Web page for each category of digital data, accesses the selected Web page, and extracts a digital content name indicating a product and distribution data as a first keyword. Therefore, according to the present embodiment, the first keyword can be extracted efficiently.
  • the search query generation unit 31 collects the accompanying keyword attached to the first keyword as the second keyword.
  • the search query generation unit 31 extracts a character string including the first keyword using the search suggestion function of the search engine and the related search function, and a character string other than the first keyword is extracted from the character string as the second keyword. Extract as Therefore, according to the present embodiment, it is possible to efficiently collect the first keyword and the second keyword selected as the search query by the user reaching the Web page that guides the user operation.
  • the search query generation unit 31 generates a search query by combining the first keyword and the second keyword. For this reason, according to the present embodiment, it is possible to preferentially generate a search query that outputs a Web page that guides a user operation as a search result.
  • the matching degree prediction unit 32 includes, in the search results, a known search query including a Web page that guides the user operation in the search result and a Web page that guides the user operation.
  • the fitness prediction model 24 is trained on the feature information and the degree of matching with no known search query. Then, using the fitness prediction model 24, the fitness prediction unit 32 predicts the fitness of the search query based on the feature information of the search query generated by the search query generation unit 31.
  • the fitness prediction model 24 by using the fitness prediction model 24, the fitness of the search query generated by the search query generation unit 31 can be appropriately predicted. Further, the matching degree is an index for efficiently selecting a search query that outputs a Web page that guides a user operation as a search result. Therefore, according to the present embodiment, the analysis priority determination unit 33 in the subsequent stage can collect web pages for guiding the user operation appropriately and efficiently.
  • the analysis priority determination unit 33 carries out the search of the Web page by the search query in the search order based on the predicted degree of matching. After that, the analysis priority determination unit 33 excludes the URL of the web page of the whitelist not to be analyzed in the analysis device 3 from the URL of the web page searched, and thereby the cost of analyzing the web page not to be analyzed is It is reducing.
  • the analysis priority determination unit 33 calculates, for the URLs after exclusion, the analysis priority based on the relevance of the search query, the search order of the search query, and the search result information.
  • This analysis priority is an index for efficiently selecting a Web page that is likely to be a starting point of an attack that induces a user operation when analyzing a Web page in the analysis device 3, and the efficiency in the analysis device 3 Analysis can be realized.
  • each device is functionally conceptual and do not necessarily have to be physically configured as illustrated. That is, the specific form of the dispersion and integration of each device is not limited to that shown in the drawings, and all or a part thereof is functionally or physically dispersed in any unit depending on various loads, usage conditions, etc. It can be integrated and configured. Furthermore, all or any part of each processing function performed by each device may be realized by a CPU and a program analyzed and executed by the CPU, or may be realized as wired logic hardware.
  • FIG. 16 is a diagram illustrating an example of a computer in which the collection device 4 is realized by executing a program.
  • the computer 1000 includes, for example, a memory 1010 and a CPU 1020.
  • the computer 1000 also includes a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. These units are connected by a bus 1080.
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012.
  • the ROM 1011 stores, for example, a boot program such as a BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • the hard disk drive interface 1030 is connected to the hard disk drive 1090.
  • Disk drive interface 1040 is connected to disk drive 1100.
  • a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1100.
  • the serial port interface 1050 is connected to, for example, a mouse 1110 and a keyboard 1120.
  • the video adapter 1060 is connected to, for example, the display 1130.
  • the hard disk drive 1090 stores, for example, an OS 1091, an application program 1092, a program module 1093, and program data 1094. That is, a program defining each process of the collection device 4 is implemented as a program module 1093 in which a computer-executable code is described.
  • the program module 1093 is stored, for example, in the hard disk drive 1090.
  • a program module 1093 for executing the same processing as the functional configuration of the collection device 4 is stored in the hard disk drive 1090.
  • the hard disk drive 1090 may be replaced by an SSD.
  • the setting data used in the process of the above-described embodiment is stored as program data 1094 in, for example, the memory 1010 or the hard disk drive 1090. Then, the CPU 1020 reads out the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as needed, and executes them.
  • the program module 1093 and the program data 1094 are not limited to being stored in the hard disk drive 1090, and may be stored in, for example, a removable storage medium and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program module 1093 and the program data 1094 may be stored in another computer connected via a network (LAN, WAN (Wide Area Network), etc.). The program module 1093 and the program data 1094 may be read by the CPU 1020 from another computer via the network interface 1070.
  • LAN Local Area Network
  • WAN Wide Area Network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Bioethics (AREA)
  • Virology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

収集装置(4)は、ユーザ操作を誘導するWebページのURLを収集する収集装置であって、デジタルコンテンツ名と該デジタルコンテンツの付随キーワードとを組み合わせて検索クエリを生成する検索クエリ生成部(31)と、生成した検索クエリの特徴情報を基に、該検索クエリで検索を行った場合にユーザ操作を誘導するWebページを検索結果として出力する度合いを予測する適合度予測部(32)と、予測した度合いに基づいた検索順で検索クエリによるWebページの検索を実施し、度合いと検索結果情報とを基に、WebページのURLの解析優先度を決定する決定部(33)と、検索したWebページのURLと該URLの解析優先度とを出力する通信部(10)とを有する。

Description

収集装置、収集方法及び収集プログラム
 本発明は、収集装置、収集方法及び収集プログラムに関する。
 悪意のあるソフトウェアの総称であるマルウェアの感染は、ユーザのWebページ閲覧に起因することが多い。このマルウェアのユーザへの侵入の際に、ドライブ・バイ・ダウンロード(Drive-By Download:DBD)攻撃が用いられる。DBD攻撃は、Webブラウザを用いて、Webページに接続したユーザを、自動で攻撃ページに転送し、マルウェアに感染させる攻撃である。DBD攻撃は、Webブラウザやそれに導入されるプラグインの脆弱性を悪用してユーザにマルウェアを感染させる。
 DBD攻撃を発生させるWebページを分析するために、脆弱性を内包するおとりのシステムであるWebクライアント型ハニーポットを使用する方法がある。この方法では、Webクライアント型ハニーポットを用いてWebページを分析し、DBD攻撃を発生する悪性なWebページであると判明した場合、そのWebページのURL(Uniform Resource Locator)、ドメイン名、IPアドレスを代表とする通信先情報をブラックリストとして設定する。そして、各セキュリティ装置は、このブラックリストに対するWebアクセスを遮断することによって、ユーザがマルウェアに感染することを防止する。
L. Invernizzi, P. M. Comparetti, S. Benvenuti, C. Kruegel, M. Cova, and G. Vigna, "EVILSEED: A Guided Approach to Finding Malicious Web Pages", IEEE S&P., pp.428-442, 2012. T. Nelms, R. Perdisci, M. Antonakakis, and M. Ahamad, "Towards Measuring and Mitigating Social Engineering Software Download Attacks", USENIX Security Symposium, pp.773-789, 2016.
 悪性Webページの通信先情報を示すブラックリストを生成するためには、Webページを解析して、Webページを経由した攻撃の発生の有無を分析する必要がある。このWebページの解析時間の大部分は、配信元サーバの処理時間及びデータ転送時間である。すなわち、Webページの解析においては、配信元サーバの処理時間とデータ転送時間とに長時間を要するため、Webページの解析の高速化が難しく、解析時間の短縮には限界がある。
 また、Web空間には10億件以上のWebページが存在し、その数は日々増大しているため、全てのWebページを順次解析し、そのWebページが有効な期間内にブラックリスト化することは困難である。
 したがって、悪性である可能性が高いWebページを優先的に収集し、解析の入力とすることが必要である。
 DBD攻撃が発生するWebページの多くは、攻撃者が改ざんした正規のWebページである。従来では、DBD攻撃が発生するWebページを効率的に収集するために、Webページの改ざんに使われた脆弱性の特徴を用いて検索エンジンによって収集する方法、及び、ドメイン名が短期的に使い捨てられる特徴を基にドメイン名登録情報からWebページのドメイン名を収集する方法などが提案されている。
 一方、近年では、DBD攻撃のようにシステムの脆弱性を悪用する攻撃とは異なる「ユーザ操作を誘導する攻撃」が増加している。「ユーザ操作を誘導する攻撃」は、ユーザの興味を引いたり、警告したり、欺いたりすることによって、ユーザの心理的な隙を突き、ユーザ自らにマルウェアをインストールさせる攻撃である。
 「ユーザ操作を誘導する攻撃」の具体的な攻撃方法として、例えば、人気のあるデジタルコンテンツ(映像、音楽、ソフトウェア等)を非正規に無料で入手可能に見せかけるボタンを表示する場合がある。そして、このボタンをユーザにクリックさせることによって、端末画面のWebページを別のWebページに遷移させたり、端末にマルウェアや悪性なブラウザ拡張機能をダウンロードさせたりすることが考えられる。
 この「ユーザ操作を誘導する攻撃」が発生するWebページは、改ざんされた正規のWebページではなく、攻撃者が用意したWebページや広告が起点となることが多い。このため、脆弱性を持つWebページの特徴を用いて検索エンジンによる検索を行う方法では、この攻撃が発生するWebページのURLを効率的に収集することが難しい。また、「ユーザ操作を誘導する攻撃」が発生するWebページは、Webページのドメイン名が長期間使用される傾向がある。このため、ドメイン名が短期的に使い捨てられる特徴を基にドメイン名を抽出する方法では、この攻撃の起点となるWebページのドメイン名を抽出することが難しい。
 このように、DBD攻撃が発生するURLの収集に用いられた従来の手法は、「ユーザ操作を誘導する攻撃」に対して有用であるとは言い難い。また、「ユーザ操作を誘導する攻撃」の特徴を捉え、効率的にURLを収集する方法は、従来提案されていなかった。
 本発明は、上記に鑑みてなされたものであって、ユーザ操作をマルウェア感染に誘導するWebページのURLを効率的に収集する収集装置、収集方法及び収集プログラムを提供することを目的とする。
 上述した課題を解決し、目的を達成するために、本発明に係る収集装置は、WebページのURLを収集する収集装置であって、デジタルコンテンツの名称であるデジタルコンテンツ名と、該デジタルコンテンツの付随キーワードとを組み合わせて、検索エンジンの検索クエリを生成する検索クエリ生成部と、検索クエリ生成部が生成した検索クエリの特徴情報を基に、生成した検索クエリで検索を行った場合にユーザ操作を誘導するWebページを検索結果として出力する度合いを予測する度合い予測部と、度合い予測部が予測した度合いに基づいた検索順で検索クエリによるWebページの検索を実施し、検索したWebページのURLに対して、検索クエリの度合いと検索結果情報とを基に、ユーザ操作を誘導するWebページであるか否かを解析する際の優先度である解析優先度を決定する決定部と、決定部が検索したWebページのURLと、該URLの解析優先度とを対応付けて、解析装置に出力する出力部と、を有することを特徴とする。
 本発明によれば、ユーザ操作をマルウェア感染に誘導するWebページのURLを効率的に収集できる。
図1は、実施の形態における解析システムの構成の一例を示す図である。 図2は、図1に示す収集装置の構成の一例を示す図である。 図3は、図2に示すカテゴリデータベース(DB)が記憶するカテゴリデータのデータ構成の一例を示す図である。 図4は、図2に示す既知検索クエリDBが記憶するデータの一例を示す図である。 図5は、ホワイトリストのデータ構成の一例を示す図である。 図6は、図2に示す第1キーワード収集部が収集した第1キーワードと付加情報とを示す図である。 図7は、図2に示す第2キーワード収集部が収集する第2キーワードの一例を示す図である。 図8は、図2に示す生成部が生成した検索クエリの一例を示す図である。 図9は、図2に示す特徴情報抽出部が抽出する検索クエリの特徴情報の一例を示す図である。 図10は、図2に示す解析優先度算出部が算出したURLに対する解析優先度の一例を示す図である。 図11は、図2に示す適合度予測モデルの構築処理の処理手順を示すフローチャートである。 図12は、図2に示す収集装置が実行するWebページの収集処理の処理手順を示すフローチャートである。 図13は、図12に示す検索クエリ生成処理の処理手順を示すフローチャートである。 図14は、図12に示す適合度予測処理の処理手順を示すフローチャートである。 図15は、図12に示す解析優先度決定処理の処理手順を示すフローチャートである。 図16は、プログラムが実行されることにより、収集装置が実現されるコンピュータの一例を示す図である。
 以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[実施の形態]
 本発明の実施の形態について説明する。図1は、実施の形態における解析システムの構成の一例を示す図である。
 図1に示すように、実施の形態に係る解析システム1は、解析装置3と、ネットワーク2と解析装置3との間に設けられた収集装置4とを有する。収集装置4は、ネットワーク2を介して、外部装置(不図示)と接続する。
 収集装置4は、ユーザ操作を誘導するWebページのURLを収集する。収集装置4は、ネットワーク2を介して収集したWebページのうち、「ユーザ操作を誘導する攻撃」が発生するWebページである可能性が高いWebページのURLを優先的に収集して、解析装置3に出力する。なお、「ユーザ操作を誘導する攻撃」は、ユーザの興味を引いたり、警告したり、欺いたりすることによって、ユーザの心理的な隙を突き、ユーザ自らにマルウェアをインストールさせる攻撃である。
 解析装置3は、収集装置4が出力した「ユーザ操作を誘導する攻撃」が発生するWebページである可能性が高いWebページを入力として、解析を行い、攻撃発生の有無を分析する。そして、解析装置3は、分析結果を基にブラックリストを生成する。そして、各セキュリティ装置(不図示)は、このブラックリストに対するWebアクセスを遮断することによって、ユーザがマルウェアに感染することを防止する。
 ここで、攻撃者にとって、「ユーザ操作を誘導する攻撃」は、攻撃を発動させるユーザ操作をどれだけ発生させるかが重要である。この観点で、デジタルデータのダウンロードボタンを表示することによる誘導は広く行われていると考えられる。中でもWebページに掲載される順位情報(購入数順位やおすすめ順位等)が高く、人気があるデジタルコンテンツはダウンロードボタンへの多数のクリックが期待されることから、「ユーザ操作を誘導する攻撃」で多く利用されることが推測される。収集装置4は、この点に着目し、「ユーザ操作を誘導する攻撃」が発生するWebページである可能性が高いWebページのURLを優先的に収集する。
 具体的には、収集装置4は、デジタルコンテンツ名とその付随キーワードとを組み合わせて生成した検索クエリによりURL抽出を行う。そして、収集装置4は、新たに抽出した検索クエリおよび既知の検索クエリの特徴情報(デジタルコンテンツの順位情報を含む)に基づいて、検索クエリによる検索結果に「ユーザ操作を誘導する攻撃」が含まれる度合い(適合度)を予測する。続いて、収集装置4は、予測した適合度を用いて、抽出したURLの解析優先度を決定し、抽出したURLと、該URLの解析優先度とを対応付けて、解析装置3に出力する。
[収集装置の構成]
 そこで、収集装置4の構成について説明する。図2は、図1に示す収集装置4の構成の一例を示す図である。図2に示すように、収集装置4は、通信部10、記憶部20及び制御部30を有する。また、収集装置4は、操作者からの各種操作を受け付ける入力インタフェース(不図示)や、表示装置、印刷装置、情報通信装置等によって実現された出力装置(不図示)を有する。
 通信部10は、ネットワーク2等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースである。通信部10は、NIC(Network Interface Card)等で実現され、LAN(Local Area Network)やインターネットなどの電気通信回線を介した他の装置と制御部30(後述)との間の通信を行う。例えば、通信部10は、ネットワーク2を介して、Webページを収集する。また、通信部10は、制御部30によって抽出された「ユーザ操作を誘導する攻撃」が発生するWebページである可能性が高いWebページのURLと、該URLの解析優先度とを対応付けて、解析装置3に出力する。
 記憶部20は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、光ディスク等の記憶装置である。なお、記憶部20は、RAM(Random Access Memory)、フラッシュメモリ、NVSRAM(Non Volatile Static Random Access Memory)等のデータを書き換え可能な半導体メモリであってもよい。記憶部20は、収集装置4で実行されるOS(Operating System)や各種プログラムを記憶する。さらに、記憶部20は、プログラムの実行で用いられる各種情報を記憶する。記憶部20は、カテゴリDB21、既知キーワードDB22、既知検索クエリDB23、適合度予測モデル24(予測モデル)及びホワイトリストDB25を有する。
 カテゴリDB21は、カテゴリ入力部311(後述)が入力を受け付けるデジタルデータのカテゴリと、各カテゴリに対応する収集先のWebページとを示すカテゴリデータを記憶する。
 図3は、図2に示すカテゴリDB21が記憶するカテゴリデータのデータ構成の一例を示す図である。カテゴリデータは、図3に示すように、デジタルデータカテゴリと、各カテゴリに対応する収集先のWebページとが対応付けられており、それぞれに通番が付されている。第1キーワード収集部312(後述)は、カテゴリDB21を参照して、入力されたデジタルデータのカテゴリに対応する収集先Webページを巡回して、第1キーワードを収集する。
 ここで、図3に示す各カテゴリは、カテゴリ入力部311において入力が期待されるデジタルデータのカテゴリである。具体的には、図3に示すように、カテゴリ入力部311において入力が期待されるデジタルデータのカテゴリとして、「Movie」、「Game」、「Software」、「Book」、「Music」等がある。カテゴリは、これらに限るものではない。
 また、各カテゴリに対応する収集先Webページは、デジタルデータのコンテンツ名を掲載するWebページである。収集先Webページは、カテゴリごとに予め設定され、カテゴリDB21に記憶される。なお、Webページが掲載するデジタルデータのコンテンツ名は、第1キーワード収集部312が、デジタルデータのカテゴリに属する任意のデジタルコンテンツ名である第1キーワードとして収集するものである。例えば、デジタルデータのコンテンツ名として、PCソフトウェアの製品名、映画や書籍の商品名、投稿された動画名等がある。コンテンツ名は、これらに限るものではない。
 例えば、通番「1」のカテゴリ「Movie」については、映画の名称「Movie1」をコンテンツ名として掲載するWebページのURL「http://movie1.example.com」が対応付けられている。また、通番「2」のカテゴリ「Game」については、ゲームの名称「Game1」をコンテンツ名として掲載するWebページのURL「http://game1.example.org」が対応付けられている。
 既知キーワードDB22は、予めカテゴリごとに求められた既知の第2キーワードを記憶する。第2キーワードは、検索エンジンの検索クエリに第1キーワードが含まれる場合に、第1キーワードに付随する付随キーワードである。そして、この第2のキーワードのうち、ユーザ操作を誘導するWebページを多く出力する文字列が、既知の第2キーワードとして、予め求められ、既知キーワードDB22に格納される。例えば、既知キーワードDB22は、カテゴリ「Movie」の既知の第2キーワードとして「free」を記憶する。また、既知キーワードDB22は、カテゴリ「Game」の既知の第2キーワードとして「download」を記憶する。
 既知検索クエリDB23は、検索結果が既知である検索クエリと、その検索クエリの適合度とを対応付けて記憶する。これらの検索結果が既知である検索クエリと、その検索クエリの適合度とは、予め求められたものである。検索クエリの適合度は、前述したように、検索クエリによる検索結果に「ユーザ操作を誘導する攻撃」が含まれる度合である。言い換えると、適合度は、ユーザ操作を誘導するWebサイトを検索結果として出力するという目的にどれくらい適合しているかを表す指標である。
 また、検索結果が既知である検索クエリは、ユーザ操作を誘導するWebページを検索結果に含む既知の検索クエリ(悪性検索クエリ)と、ユーザ操作を誘導するWebページを検索結果に含まない既知の検索クエリ(良性検索クエリ)とである。
 図4は、図2に示す既知検索クエリDB23が記憶するデータの一例を示す図である。既知検索クエリDB23は、図4に示すように、検索結果が既知である検索クエリと、該検索クエリの適合度とを記憶する。ここで、ユーザ操作を誘導するWebページが1件でも検索結果に含まれると、この検索クエリは、悪性検索クエリとして扱われる。図4の例では、適合度が「0」である通番「101」の検索クエリ「MovieA online」は、良性検索クエリである。それ以外の適合度が0より大の検索クエリは、悪性クエリである。
 検索結果が既知である検索クエリの適合度は、予め求められ、各検索クエリに対応付けられた状態で、既知検索クエリDB23に格納される。この適合度は、例えば、(1)式を用いて求められる。
Figure JPOXMLDOC01-appb-M000001
 例えば、検索クエリ「MovieA free download」について、検索結果の出力結果数が10件であり、ユーザ操作を誘導するWebページ数が7件である場合を例に説明する。この場合には、(1)式に、これらの件数を適用することによって、検索クエリ「MovieA free download」に対し、適合度「0.7」が求められる。なお、適合度は、(1)式に限らず、他の演算式を用いて算出されてもよい。また、既知検索クエリDB23は、既知である検索クエリと検索結果の出力結果の集合と、ユーザ操作を誘導するWebページの集合とを対応付けて記憶していてもよい。
 適合度予測モデル24は、検索クエリの特徴情報が入力されると、入力された特徴情報に応じた適合度を出力するモデルである。適合度予測モデル24は、既知の悪性検索クエリの適合度及び既知の悪性検索クエリと、既知の良性検索クエリの適合度及び既知の良性検索クエリの特徴情報と、を基に、既知の検索クエリの適合度と、既知の検索クエリの特徴情報とが有する特徴を学習したモデルの各種パラメータを含む。適合度予測モデル24は、モデル構築部323(後述)によって、Webページ収集処理前に、事前学習によって各種パラメータが最適化されている。
 ホワイトリストDB25は、解析装置3の解析対象外のWebページ群が、カテゴリごとに予め設定されたホワイトリストを記憶する。図5は、ホワイトリストのデータ構成の一例を示す図である。
 ホワイトリストは、図5に示すように、ドメイン名およびURL等の通信先情報と、カテゴリとが対応付けられ、それぞれに通番が付されたデータ構成を有する。このホワイトリストは、解析装置3の解析対象外のWebページ群が、カテゴリごとに予め設定されたものである。なお、図5では、ホワイトリストとして設定する通信先の種別として、Webページのドメイン名やURLを例示したが、これらの項目に限るものではない。このホワイトリストは、ホワイトリスト除外部333(後述)により参照される。
 制御部30は、収集装置4全体を制御する。制御部30は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等の電子回路や、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等の集積回路である。また、制御部30は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部30は、各種のプログラムが動作することにより各種の処理部として機能する。制御部30は、検索クエリ生成部31、適合度予測部32(度合い予測部)及び解析優先度決定部33(決定部)を有する。
 検索クエリ生成部31は、デジタルコンテンツの名称であるデジタルコンテンツ名と、該デジタルコンテンツの付随キーワードとを組み合わせて、検索エンジンの検索クエリを生成する。
 適合度予測部32は、検索クエリ生成部31が生成した検索クエリの特徴情報を基に、検索クエリの適合度を予測する。適合度は、生成した検索クエリで検索を行った場合にユーザ操作を誘導するWebページを検索結果として出力する度合いである。
 解析優先度決定部33は、適合度予測部32が予測した適合度に基づいた検索順で検索クエリによるWebページの検索を実施する。そして、解析優先度決定部33は、検索したWebページのURLに対して、検索クエリの適合度と検索結果情報とを基に、解析優先度を決定する。解析優先度は、ユーザ操作を誘導するWebページであるか否かを解析する際の優先度である。なお、通信部10は、解析優先度決定部33が検索したWebページのURLと、該URLの解析優先度とを対応付けて、解析装置3に出力する。
[検索クエリ生成部]
 次に、検索クエリ生成部の構成について説明する。検索クエリ生成部31は、カテゴリ入力部311、第1キーワード収集部312、第2キーワード収集部313及び生成部314を有する。
 カテゴリ入力部311は、デジタルデータのカテゴリの入力を受付ける。カテゴリ入力部311は、第1キーワードを収集するためのカテゴリを入力として許容する。第1キーワードは、カテゴリに属する任意のデジタルコンテンツ名である。
 第1キーワード収集部312は、予め収集先として設定されたWebサイトから、カテゴリに属する任意のデジタルコンテンツ名を第1キーワードとして収集する。第1キーワード収集部312は、カテゴリ入力部311から入力されたデジタルデータのカテゴリごとにWebページを選択する。第1キーワード収集部312は、カテゴリDB21を参照して、入力されたカテゴリに対応する収集先Webページを選択する。第1キーワード収集部312は、選択したWebページにアクセスして製品及び配信データを示すデジタルコンテンツ名を第1キーワードとして抽出することによって、第1キーワードを収集する。第1キーワード収集部312は、第1キーワードとともに、第1キーワードの付加情報も収集する。
 図6は、図2に示す第1キーワード収集部312が収集した第1キーワードと付加情報とを示す図である。第1キーワード収集部312は、カテゴリ入力部311においてカテゴリが入力されると、図6に示すカテゴリごとに設定された収集先WebページにWebアクセスを行う。そして、図3に示すように、第1キーワード収集部312は、Webアクセスを行った各Webページから、カテゴリに属する任意のデジタルコンテンツ名を、第1キーワードとして収集する。
 さらに、第1キーワード収集部312は、第1キーワードとともに付加情報を抽出する。付加情報は、図6に例示するように、第1キーワードに紐づくカテゴリ、収集先Webページ、順位情報である。順位情報は、購入数順位、おすすめ順位、動画の投稿日時順位、ユーザ評価による人気順位等である。付加情報は、これらの項目に限るものではない。
 具体的には、第1キーワード収集部312は、入力されたカテゴリが「Movie」である場合には、カテゴリ「Movie」に対応するURL「http://movie1.example.com」(図3参照)のWebページにアクセスする。この場合、第1キーワード収集部312は、このWebページに映画の名称「MovieA」が掲載されている場合には、この「MovieA」を第1キーワードとして収集する(図3参照)。また、第1キーワード収集部312は、このWebページに含まれる付加情報を抽出する。例えば、第1キーワード収集部312は、このWebページから、第1キーワード「MovieA」に紐づくカテゴリ「Movie」、収集先Webページ「http://movie1.example.com」、順位情報「1」を、付加情報として抽出する。この付加情報は、解析優先度の算出のために用いられる場合がある。
 第1キーワード収集部312は、各Webページから第1キーワード及び付加情報を収集するためのWebページ巡回処理と文字列抽出処理として、例えば、ブラウザ操作自動化ツールや、プログラミング言語によりブラウザ操作を記述可能なWebブラウザを用いて実行する。第1キーワード収集部312は、他の方法を用いることもできる。また、第1キーワード収集部312が実行するWebページ巡回及び文字列抽出の処理手順は、Webページごとに予め設定される。
 第2キーワード収集部313は、第2キーワードを収集する。第2キーワードは、検索エンジンの検索クエリに第1キーワードが含まれる場合に、第1キーワードに付随する付随キーワードである。言い換えると、第2キーワードは、検索エンジンの検索クエリとして第1キーワードに付加されることが多い文字列である。
 第2キーワード収集部313は、第1キーワード収集部312によって収集された第1キーワードを用いて、新たな第2のキーワードを収集する。具体的には、第2キーワード収集部313は、検索エンジンの検索サジェスト機能と関連検索機能とを用いて第1キーワードを含む文字列を抽出し、該文字列から第1キーワード以外の文字列を第2キーワードとして抽出する。
 なお、一部の第2キーワードについては、予めカテゴリごとに求められており、既知の第2キーワードとして既知キーワードDB22に格納される。この既知の第2キーワードは、任意の第1キーワードに付加して検索すると、ユーザ操作を誘導するWebページを多く出力する文字列である。
 図7は、図2に示す第2キーワード収集部313が収集する第2キーワードの一例を示す図である。第2キーワード収集部313は、第1キーワード収集部312が収集した第1キーワードを用いて第2キーワードの収集を行う。前述したように第2キーワードは、検索エンジンの検索クエリとして第1キーワードに付加されることが多い文字列である。
 第2キーワード収集部313は、第1キーワードに付加して検索するとユーザ操作を誘導するWebページを多く出力する既知の第2キーワードを用いて、検索エンジンの検索サジェスト機能と関連検索機能による第2キーワードの抽出を行う。第2キーワード収集部313は、既知キーワードDB22を参照して、既知の第2キーワードを取得する。
 例えば、第2キーワード収集部313は、図7の通番「1」に示すように、カテゴリ「Movie」に属する第1キーワード「MovieA」に、既知の第2キーワード「free」を付加して文字列「MovieA free」を構成する。
 続いて、第2キーワード収集部313は、文字列「MovieA free」を検索サジェスト機能に入力し、検索サジェスト機能から出力された文字列「MovieA free download」を得る。第2キーワード収集部313は、出力された文字列「MovieA free download」のうち新たに得られた文字列「download」を、カテゴリ「Movie」に属する第2キーワードとして抽出する。なお、第2キーワードは図7に示すものに限らず、また、その抽出方法も他の方法を適用可能である。
 生成部314は、第1キーワードと第2キーワードとを組み合わせて検索クエリを生成する。生成部314は、第1キーワード収集部312が収集した第1キーワードと、第2キーワード収集部313が収集した第2キーワードとを組み合わせて、検索クエリを生成する。生成部314は、生成した検索クエリを、適合度予測部32に出力する。
 図8は、図2に示す生成部314が生成した検索クエリの一例を示す図である。生成部314は、第1キーワードと、該第1キーワードとカテゴリが一致する既知の第2キーワードとを連結して検索クエリを構成する。または、生成部314は、第1キーワードと、該第1キーワードを用いて収集した第2キーワードとを連結して検索クエリを構成する。
 例えば、生成部314は、第1キーワード「MovieA」と、該第1キーワード「MovieA」と同カテゴリ「Movie」である既知の第2キーワード「free」とを連結して、検索クエリ「MovieA free」を生成する(図8の通番「1」参照)。また、生成部314は、第1キーワード「MovieA」と、該第1キーワード「MovieA」と同カテゴリ「Movie」である既知の第2キーワード「free」と、第2キーワード収集部313が収集した第2キーワード「download」を連結して、検索クエリ「MovieA free download」を生成する(図8の通番「2」参照)。
 生成部314は、第1キーワードと、該第1キーワードとカテゴリが異なる既知の第2キーワード、または、収集した第2キーワードとを連結して検索クエリを構成してもよい。なお、第1キーワードと第2キーワードとの組み合わせは、図8に示したものに限るものではない。
[適合度予測部]
 次に、適合度予測部32の構成について説明する。適合度予測部32は、適合度取得部321、特徴情報抽出部322、モデル構築部323及び予測部324を有する。
 適合度取得部321は、検索結果が既知である検索クエリの適合度を取得する。適合度取得部321は、既知検索クエリDB23を参照して、検索結果が既知である検索クエリの適合度を取得する。また、既知検索クエリDB23が、既知である検索クエリと検索結果の出力結果の集合と、ユーザ操作を誘導するWebページの集合とが対応付けて記憶する場合には、適合度取得部321は、既知検索クエリDB23から、適合度取得対象の検索クエリのデータを取得し、(1)式を用いて適合度を算出して、適合度を取得する。適合度取得部321は、(1)式に限らず、他の演算式を用いて適合度を算出してもよい。
 特徴情報抽出部322は、検索クエリの特徴情報を抽出する。特徴情報抽出部322は、検索結果が既知である検索クエリの特徴情報を抽出する。また、検索クエリ生成部31が生成した検索クエリの特徴情報を抽出する。検索クエリの特徴情報は、例えば、検索クエリを構成する文字列が属するカテゴリ、検索クエリ全他の単語数や文字数などがある。
 図9は、図2に示す特徴情報抽出部322が抽出する検索クエリの特徴情報の一例を示す図である。検索クエリの特徴情報は、例えば、図9の各項目に示すように、検索クエリ生成部31が検索クエリの生成に使用した第1のキーワードの付加情報である順位やカテゴリ、第2キーワードの個数(第2キーワード数)、Bag of Wordsモデル、検索クエリ全体の単語数、或いは、文字数が考えられる。検索情報特徴情報は、図9に示す項目に限るものではない。
 特徴情報抽出部322が、検索クエリ生成部31が生成した検索クエリのうち、例えば、検索クエリ「MovieA free」から特徴情報を抽出する場合について説明する。この場合、特徴情報抽出部322は、検索クエリ「MovieA free」に、「free」が1回出現するため、Bag of Wordsモデルの「free」欄に対応する特徴情報として「1」を抽出する。続いて、特徴情報抽出部322は、検索クエリ「MovieA free」に既知の第2キーワード「free」があるため、第2キーワード数の対応する特徴情報として「1」を抽出する。特徴情報抽出部322は、検索クエリ「MovieA free」の単語数「2」、文字数「1」を抽出する。さらに、特徴情報抽出部322は、検索クエリ「MovieA free」のうちの第1のキーワード「MovieA」の付加情報から順位「1」を抽出し、カテゴリとして「Movie」を抽出する。
 モデル構築部323は、検索結果が既知である検索クエリの特徴情報及び適合度を、適合度予測モデル24に学習させる。検索結果が既知である検索クエリの適合度は、適合度取得部321が取得した物である。検索結果が既知である検索クエリの特徴情報は、特徴情報抽出部322が、検索結果が既知である検索クエリから抽出したものである。なお、適合度予測モデル24は、記憶部20に記憶されている。
 モデル構築部323は、例えば、教師あり機械学習手法を採用し、検索結果が既知である検索クエリの特徴情報及び適合度を教師データとして、適合度予測モデル24に学習させる。なお、適用可能な教師あり機械学習手法として、サポートベクターマシンやランダムフォレストがあるが、これらの手法に限るものではない。
 予測部324は、検索クエリ生成部31が生成した検索クエリの特徴情報を用いて、検索クエリ生成部31が生成した検索クエリの適合度を予測する。予測部324は、適合度予測モデル23に、検索クエリ生成部31が生成した検索クエリの特徴情報を入力し、適合度予測モデル23が出力した検索クエリの適合度を取得する。
[解析優先度決定部]
 次に、解析優先度決定部33の構成について説明する。解析優先度決定部33は、検索順決定部331、検索実施部332、ホワイトリスト除外部333及び解析優先度算出部334を有する。
 検索順決定部331は、適合度予測部32が予測した適合度に基づいて検索クエリ生成部11が生成した検索クエリの検索順を決定する。検索順決定部331は、適合度予測部32が予測した適合度を用いて、検索クエリ生成部11が生成した検索クエリのうち、検索実施部332が実施する検索に使用する検索クエリと、その検索順を決定する。例えば、検索順決定部31は、検索クエリ生成部11が生成した検索クエリから、予め設定した適合度の閾値を超える検索クエリを抽出し、該抽出した検索クエリに対し、適合度が高い順に検索されるように検索順を決定する。
 検索実施部332は、検索順決定部331が決定した検索順で検索クエリによるWebページの検索を実施する。そして、検索実施部332は、検索クエリを用いた検索結果として、WebページのURLを抽出する。
 ホワイトリスト除外部333は、予めカテゴリごとに求められたURLであって解析装置3における解析対象外のWebページのURLを、検索実施部332が検索したWebページのURLから除外する。解析対象外のWebページのURLは、ホワイトリストDB25が記憶するホワイトリストに予め示されている。ホワイトリスト除外部333は、ホワイトリストDB25のホワイトリストを参照して、解析対象外のWebページのURLを、検索実施部332が検索したWebページのURLから除外する。
 解析優先度算出部334は、ホワイトリスト除外部333による除外後のURLについて、検索クエリの適合度と検索クエリの検索順位と検索結果情報とを基に解析優先度を算出する。この除外後のURLと、該URLの解析優先度は、通信部10から、解析装置3に出力される。例えば、通信部10からは、解析優先度が高い順に、URLが出力される。解析装置3では、このURLの解析優先度を、ユーザ操作を誘導するWebページを優先的に解析するための指標として用いることによって、解析の効率化を図る。
 具体的に、解析優先度の算出方法について説明する。解析優先度算出部334は、除外後のURLに対し、検索エンジンの出力結果の集合、URLの検索時の検索クエリの検索順位、及び、このURLの検索時の検索クエリの適合度を、(2)式に適用して、解析優先度を算出する。なお、検索クエリの適合度は、適合度予測部32によって予測される。また、URLの検索順位は、検索順決定部331によって、適合度予測部32が予測した適合度を基に決定される。
Figure JPOXMLDOC01-appb-M000002
 図10は、図2に示す解析優先度算出部334が算出したURLに対する解析優先度の一例を示す図である。図10には、ホワイトリスト除外部333から出力されたURLに対する解析優先度の一例を示す。
 図10に示すように、解析優先度算出部334は、(2)式を用いて、URL「http://movie.example.com/」の解析優先度を「0.9」と算出する。また、解析優先度算出部334は、(2)式を用いて、URL「http://game.example.com/」の解析優先度を「0.8」と算出する。通信部10は、図10に示すURLと該URLの解析優先度とを対応付けたデータを、収集したURLを示すデータとして解析装置3に出力する。
 なお、解析優先度算出部334は、(2)式に限らず、他の方法を用いて解析優先度を算出してもよい。例えば、解析優先度算出部334は、(3)式を用いて、第1キーワードの付加情報である第1キーワード順位を用いて、解析優先度を算出してもよい。
Figure JPOXMLDOC01-appb-M000003
[適合度予測モデルの構築処理の処理手順]
 次に、適合度予測モデルの構築処理について説明する。図11は、図2に示す適合度予測モデルの構築処理の処理手順を示すフローチャートである。
 まず、適合度取得部321は、既知検索クエリDB23を参照して、検索結果が既知である検索クエリを取得する(ステップS1)とともに、既知である検索クエリの適合度を算出する(ステップS2)。特徴情報抽出部322は、適合度取得部321が取得した、検索結果が既知である検索クエリの特徴情報を取得する(ステップS3)。
 モデル構築部323は、教師あり機械学習を適用して(ステップS4)、検索結果が既知である検索クエリの特徴情報及び適合度を、適合度予測モデル24に学習させる。そして、モデル構築部323は、学習により各種パラメータが最適化された適合度予測モデル24を更新し(ステップS5)、適合度予測モデルの構築処理を終了する。この処理は、少なくとも、Webページ収集処理前に実行される。また、この処理は、Webページの収集処理と並行して実行されてもよい。
[Webページの収集処理の処理手順]
 次に、収集装置4が実行するWebページの収集処理の処理手順について説明する。図12は、図2に示す収集装置4が実行するWebページの収集処理の処理手順を示すフローチャートである。
 図12に示すように、収集装置4では、検索クエリ生成部31が、デジタルコンテンツの名称であるデジタルコンテンツ名と、該デジタルコンテンツの付随キーワードとを組み合わせて、検索エンジンの検索クエリを生成する検索クエリ生成処理を行う(ステップS11)。そして、適合度予測部32が、検索クエリ生成部31が生成した検索クエリの特徴情報を基に、検索クエリの適合度を予測する適合度予測処理を行う(ステップS12)。
 続いて、解析優先度決定部33が、検索クエリの適合度と検索結果情報とを基に、解析優先度を決定する解析優先度決定処理を行う(ステップS13)。通信部10は、解析優先度決定部33が検索したWebページのURLと、該URLの解析優先度とを対応付けて解析装置3に出力する出力処理を行って(ステップS14)、処理を終了する。
[検索クエリ生成処理の処理手順]
 次に、検索クエリ生成処理(ステップS11)の処理手順について説明する。図13は、図12に示す検索クエリ生成処理の処理手順を示すフローチャートである。
 図13に示すように、検索クエリ生成部11では、まず、カテゴリ入力部311が、デジタルデータのカテゴリの入力を受付ける(ステップS21)。続いて、第1キーワード収集部312は、入力されたカテゴリごとに予め設定されたURL群を収取先WebページのURLとして、収集先Webページにアクセスし、カテゴリに属する任意のデジタルコンテンツ名を第1キーワードとして収集する第1キーワード収集処理を行う(ステップS22)。この際、第1キーワード収集部312は、収集先Webページにアクセスし、Webブラウザの操作を記述可能なソフトウェアを用いてWebブラウザを自動操作し、予め設定されたWebページ巡回処理や文字列抽出処理に基づき、図3に示すような第1キーワードとその付加情報を抽出する。
 そして、第2キーワード収集部313は、第2キーワードを収集する第2キーワード収集処理を行う(ステップS23)。第2キーワードは、前述したように、検索エンジンの検索クエリに第1キーワードが含まれる場合に、第1キーワードに付随する付随キーワードである。
 続いて、生成部314は、第1キーワードと第2キーワードとを組み合わせて検索クエリを生成する検索クエリ生成処理を行う(ステップS24)。検索クエリ生成部31は、生成部314が生成した検索クエリを適合度予測部32に出力して(ステップS25)、検索クエリ生成処理を終了する。
[適合度予測処理の処理手順]
 次に、適合度予測処理(ステップS12)の処理手順について説明する。図14は、図12に示す適合度予測処理の処理手順を示すフローチャートである。
 図14に示すように、適合度予測部32では、特徴情報抽出部322が、検索クエリ生成部31が生成した検索クエリの特徴情報を抽出する(ステップS31)。予測部324は、適合度予測モデルに、特徴情報抽出部322が抽出した検索クエリの特徴情報を入力して(ステップS32)、適合度予測モデル24が出力した検索クエリの適合度を取得する適合度予測処理を行う(ステップS33)。適合度予測部32は、検索クエリと、該検索クエリに対して予測部324が予測した適合度とを対応付けて、解析優先度決定部33に出力して(ステップS34)、処理を終了する。
[解析優先度決定処理の処理手順]
 次に、解析優先度決定処理(ステップS13)の処理手順について説明する。図15は、図12に示す解析優先度決定処理の処理手順を示すフローチャートである。
 図15に示すように、解析優先度決定部33では、検索順決定部331は、適合度予測部32が予測した適合度に基づいて検索クエリ生成部31が生成した検索クエリの検索順を決定する(ステップS41)。検索実施部332は、検索順決定部331が決定した検索順で検索クエリによるWebページの検索を実施する(ステップS42)。
 そして、ホワイトリスト除外部333は、ホワイトリストに示された解析対象外のWebページのURLを、検索実施部332が検索したWebページのURLから除外する(ステップS43)。続いて、解析優先度算出部334は、ホワイトリスト除外部333による除外後のURLについて、検索クエリの適合度と検索クエリの検索順位と検索結果情報とを基に解析優先度を算出し(ステップS44)、処理を終了する。
[実施の形態の効果]
 このように、本実施の形態に係る収集装置4では、デジタルコンテンツの名称であるデジタルコンテンツ名と、該デジタルコンテンツの付随キーワードとを組み合わせて、検索エンジンの検索クエリを生成する。そして、収集装置4では、生成された検索クエリの特徴情報を基に、生成された検索クエリで検索を行った場合にユーザ操作を誘導するWebページを検索結果として出力する度合いである適合度を予測する。そして、収集装置4では、予測された適合度に基づいた検索順で検索クエリによるWebページの検索を実施し、検索したWebページのURLに対して、検索クエリの適合度と検索結果情報とを基に、ユーザ操作を誘導するWebページであるか否かを解析する際の優先度である解析優先度を決定する。さらに、収集装置4では、検索されたWebページのURLと、該URLの解析優先度とを対応付けて、解析装置3に出力する。
 したがって、本実施の形態によれば、デジタルコンテンツ名と、該デジタルコンテンツの付随キーワードとを組み合わせて、ユーザ操作を誘導するWebページを検索結果に出力する検索クエリを生成している。そして、本実施の形態によれば、生成された検索クエリの特徴情報を基に、この検索クエリの適合度を予測することによって、ユーザ操作をマルウェア感染に誘導するWebページが検索結果に出力される検索クエリを優先的に抽出することができる。また、本実施の形態によれば、予測された適合度に基づいた検索順で検索クエリによるWebページの検索を実施することによって、検索クエリでの検索を効率的に行うことができる。そして、本実施の形態によれば、優先的に抽出した検索クエリで検索した検索結果のWebページに対し、解析優先度を決定することによって、解析装置3において、ユーザ操作をマルウェア感染に誘導するWebページのURLを優先的に解析するための指標にすることができ、効率的な解析を実現することができる。
 以上のように、本実施の形態によれば、ユーザ操作をマルウェア感染に誘導するWebページのURLを効率的に収集できる。
 また、本実施の形態に係る収集装置4では、検索クエリ生成部31は、デジタルデータのカテゴリの入力を受付けると、該カテゴリに属する任意のデジタルコンテンツ名を第1キーワードとして収集する。この場合、検索クエリ生成部31は、デジタルデータのカテゴリごとにWebページを選択し、該選択したWebページにアクセスして製品及び配信データを示すデジタルコンテンツ名を第1キーワードとして抽出する。したがって、本実施の形態によれば、第1キーワードを効率よく抽出することができる。
 そして、検索クエリ生成部31は、検索エンジンの検索クエリに第1キーワードが含まれる場合に、第1キーワードに付随する付随キーワードを第2キーワードとして収集する。この場合、検索クエリ生成部31は、検索エンジンの検索サジェスト機能と関連検索機能とを用いて第1キーワードを含む文字列を抽出し、該文字列から第1キーワード以外の文字列を第2キーワードとして抽出する。したがって、本実施の形態によれば、ユーザ操作を誘導するWebページに到達するユーザが、検索クエリとして選択する第1キーワードと第2キーワードとを効率的に収集することができる。
 また、検索クエリ生成部31は、第1キーワードと第2キーワードとを組み合わせて検索クエリを生成する。このため、本実施の形態によれば、ユーザ操作を誘導するWebページを検索結果に出力する検索クエリを優先的に生成することができる。
 そして、本実施の形態に係る収集装置4では、適合度予測部32は、ユーザ操作を誘導するWebページを検索結果に含む既知の検索クエリと、ユーザ操作を誘導するWebページを検索結果に含まない既知の検索クエリとにおける特徴情報及び適合度を、適合度予測モデル24に学習させる。そして、適合度予測部32は、この適合度予測モデル24を用いて、検索クエリ生成部31が生成した検索クエリの特徴情報を基に該検索クエリの適合度を予測する。
 このため、本実施の形態によれば、この適合度予測モデル24を用いることによって、検索クエリ生成部31が生成した検索クエリの適合度を適切に予測することができる。また、適合度は、ユーザ操作を誘導するWebページを検索結果に出力する検索クエリを効率的に選出する指標である。このため、本実施の形態によれば、後段の解析優先度決定部33において、適切かつ効率的にユーザ操作を誘導するWebページを収集することができる。
 本実施の形態に係る収集装置4では、解析優先度決定部33は、予測された適合度に基づいた検索順で検索クエリによるWebページの検索を実施する。その後、解析優先度決定部33は、解析装置3における解析対象外のホワイトリストのWebページのURLを、検索したWebページのURLから除外することによって、解析対象外のWebページを解析するコストを削減している。
 そして、解析優先度決定部33は、除外後のURLについて、検索クエリの適合度と検索クエリの検索順位と検索結果情報とを基に解析優先度を算出している。この解析優先度は、解析装置3において、Webページを解析する際に、ユーザ操作を誘導する攻撃の起点となる可能性の高いWebページを効率的に選出する指標であり、解析装置3における効率的な解析を実現することができる。
[システム構成等]
 図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
 また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
 図16は、プログラムが実行されることにより、収集装置4が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
 ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、収集装置4の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、収集装置4における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。
 また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。
 1 解析システム
 2 ネットワーク
 3 解析装置
 4 収集装置
 10 通信部
 20 記憶部
 21 カテゴリDB
 22 既知キーワードDB
 23 既知検索クエリDB
 24 適合度予測モデル
 25 ホワイトリストDB
 30 制御部
 31 検索クエリ生成部
 32 適合度予測部
 33 解析優先度決定部
 311 カテゴリ入力部
 312 第1キーワード収集部
 313 第2キーワード収集部
 314 生成部
 321 適合度取得部
 322 特徴情報抽出部
 323 モデル構築部
 324 予測部
 331 検索順決定部
 332 検索実施部
 333 ホワイトリスト除外部
 334 解析優先度算出部

Claims (7)

  1.  WebページのURL(Uniform Resource Locator)を収集する収集装置であって、
     デジタルコンテンツの名称であるデジタルコンテンツ名と、該デジタルコンテンツの付随キーワードとを組み合わせて、検索エンジンの検索クエリを生成する検索クエリ生成部と、
     前記検索クエリ生成部が生成した検索クエリの特徴情報を基に、前記生成した検索クエリで検索を行った場合にユーザ操作を誘導するWebページを検索結果として出力する度合いを予測する度合い予測部と、
     前記度合い予測部が予測した前記度合いに基づいた検索順で検索クエリによるWebページの検索を実施し、検索したWebページのURLに対して、前記検索クエリの度合いと検索結果情報とを基に、前記ユーザ操作を誘導するWebページであるか否かを解析する際の優先度である解析優先度を決定する決定部と、
     前記決定部が検索したWebページのURLと、該URLの解析優先度とを対応付けて、解析装置に出力する出力部と、
     を有することを特徴とする収集装置。
  2.  前記検索クエリ生成部は、
     デジタルデータのカテゴリの入力を受付けるカテゴリ入力部と、
     前記カテゴリに属する任意のデジタルコンテンツ名を第1キーワードとして収集する第1キーワード収集部と、
     検索エンジンの検索クエリに前記第1キーワードが含まれる場合に、前記第1キーワードに付随する付随キーワードを第2キーワードとして収集する第2キーワード収集部と、
     前記第1キーワードと前記第2キーワードとを組み合わせて前記検索クエリを生成する生成部と、
     を有することを特徴とする請求項1に記載の収集装置。
  3.  前記第1キーワード収集部は、前記デジタルデータのカテゴリごとにWebページを選択し、該選択したWebページにアクセスして製品及び配信データを示すデジタルコンテンツ名を第1キーワードとして抽出し、
     前記第2キーワード収集部は、検索エンジンの検索サジェスト機能と関連検索機能とを用いて前記第1キーワードを含む文字列を抽出し、該文字列から前記第1キーワード以外の文字列を前記第2キーワードとして抽出することを特徴とする請求項2に記載の収集装置。
  4.  前記度合い予測部は、
     前記ユーザ操作を誘導するWebページを検索結果に含む既知の検索クエリと、前記ユーザ操作を誘導するWebページを検索結果に含まない既知の検索クエリとにおける前記特徴情報及び前記度合いを、予測モデルに学習させるモデル構築部と、
     前記予測モデルを用いて、前記検索クエリ生成部が生成した検索クエリの特徴情報を基に該検索クエリの前記度合いを予測する予測部と、
     を有することを特徴とする請求項1に記載の収集装置。
  5.  前記決定部は、
     前記度合い予測部が予測した前記度合いに基づいて前記検索クエリ生成部が生成した検索クエリの検索順を決定する検索順決定部と、
     前記検索順決定部が決定した検索順で前記検索クエリによるWebページの検索を実施する検索実施部と、
     予めカテゴリごとに求められたURLであって前記解析装置における解析対象外のWebページのURLを、前記検索実施部が検索したWebページのURLから除外する除外部と、
     前記除外部による除外後のURLについて、前記検索クエリの度合いと前記検索クエリの検索順位と前記検索結果情報とを基に前記解析優先度を算出する解析優先度算出部と、
     を有することを特徴とする請求項1に記載の収集装置。
  6.  WebページのURL(Uniform Resource Locator)を収集する収集装置が実行する収集方法であって、
     デジタルコンテンツの名称であるデジタルコンテンツ名と、該デジタルコンテンツの付随キーワードとを組み合わせて、検索エンジンの検索クエリを生成する工程と、
     生成された検索クエリの特徴情報を基に、前記生成された検索クエリで検索を行った場合にユーザ操作を誘導するWebページを検索結果として出力する度合いでを予測する工程と、
     予測された前記度合いに基づいた検索順で検索クエリによるWebページの検索を実施し、検索したWebページのURLに対して、前記検索クエリの度合いと検索結果情報とを基に、前記ユーザ操作を誘導するWebページであるか否かを解析する際の優先度である解析優先度を決定する工程と、
     前記決定する工程において検索されたWebページのURLと、該URLの解析優先度とを対応付けて、解析装置に出力する工程と、
     を含んだことを特徴とする収集方法。
  7.  デジタルコンテンツの名称であるデジタルコンテンツ名と、該デジタルコンテンツの付随キーワードとを組み合わせて、検索エンジンの検索クエリを生成するステップと、
     生成された検索クエリの特徴情報を基に、前記生成された検索クエリで検索を行った場合にユーザ操作を誘導するWebページを検索結果として出力する度合いを予測するステップと、
     予測された前記度合いに基づいた検索順で検索クエリによるWebページの検索を実施し、検索したWebページのURL(Uniform Resource Locator)に対して、前記検索クエリの度合いと検索結果情報とを基に、前記ユーザ操作を誘導するWebページであるか否かを解析する際の優先度である解析優先度を決定するステップと、
     前記決定するステップにおいて検索されたWebページのURLと、該URLの解析優先度とを対応付けて、解析装置に出力するステップと、
     をコンピュータに実行させるための収集プログラム。
PCT/JP2018/034625 2018-01-17 2018-09-19 収集装置、収集方法及び収集プログラム WO2019142399A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP18901520.9A EP3722974B1 (en) 2018-01-17 2018-09-19 Collecting apparatus, collection method, and collection program
US16/958,158 US11556819B2 (en) 2018-01-17 2018-09-19 Collection apparatus, collection method, and collection program
JP2019565704A JP6823205B2 (ja) 2018-01-17 2018-09-19 収集装置、収集方法及び収集プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018005694 2018-01-17
JP2018-005694 2018-01-17

Publications (1)

Publication Number Publication Date
WO2019142399A1 true WO2019142399A1 (ja) 2019-07-25

Family

ID=67301231

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/034625 WO2019142399A1 (ja) 2018-01-17 2018-09-19 収集装置、収集方法及び収集プログラム

Country Status (4)

Country Link
US (1) US11556819B2 (ja)
EP (1) EP3722974B1 (ja)
JP (1) JP6823205B2 (ja)
WO (1) WO2019142399A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7030296B1 (ja) 2021-05-26 2022-03-07 株式会社エス・ケイ通信 プログラム、方法、情報処理装置
WO2022219792A1 (ja) * 2021-04-15 2022-10-20 日本電信電話株式会社 収集装置、収集方法、および、収集プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004046739A (ja) * 2002-07-15 2004-02-12 Fujitsu Ltd データ送信方法、データ送信システム、中継装置、コンピュータプログラム、及び記録媒体
WO2016132992A1 (ja) * 2015-02-20 2016-08-25 日本電信電話株式会社 ブラックリスト生成装置、ブラックリスト生成システム、ブラックリスト生成方法及びブラックリスト生成プログラム
WO2016140038A1 (ja) * 2015-03-05 2016-09-09 日本電信電話株式会社 通信先悪性度算出装置、通信先悪性度算出方法及び通信先悪性度算出プログラム
JP2016170524A (ja) * 2015-03-11 2016-09-23 エヌ・ティ・ティ・コミュニケーションズ株式会社 悪性url候補取得装置、悪性url候補取得方法、及びプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7499940B1 (en) * 2004-11-11 2009-03-03 Google Inc. Method and system for URL autocompletion using ranked results
US8484740B2 (en) * 2010-09-08 2013-07-09 At&T Intellectual Property I, L.P. Prioritizing malicious website detection
US8521667B2 (en) * 2010-12-15 2013-08-27 Microsoft Corporation Detection and categorization of malicious URLs
US20120158705A1 (en) * 2010-12-16 2012-06-21 Microsoft Corporation Local search using feature backoff
US8997220B2 (en) * 2011-05-26 2015-03-31 Microsoft Technology Licensing, Llc Automatic detection of search results poisoning attacks
CN103902889A (zh) * 2012-12-26 2014-07-02 腾讯科技(深圳)有限公司 一种恶意消息云检测方法和服务器
US11062226B2 (en) * 2017-06-15 2021-07-13 Microsoft Technology Licensing, Llc Determining a likelihood of a user interaction with a content element

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004046739A (ja) * 2002-07-15 2004-02-12 Fujitsu Ltd データ送信方法、データ送信システム、中継装置、コンピュータプログラム、及び記録媒体
WO2016132992A1 (ja) * 2015-02-20 2016-08-25 日本電信電話株式会社 ブラックリスト生成装置、ブラックリスト生成システム、ブラックリスト生成方法及びブラックリスト生成プログラム
WO2016140038A1 (ja) * 2015-03-05 2016-09-09 日本電信電話株式会社 通信先悪性度算出装置、通信先悪性度算出方法及び通信先悪性度算出プログラム
JP2016170524A (ja) * 2015-03-11 2016-09-23 エヌ・ティ・ティ・コミュニケーションズ株式会社 悪性url候補取得装置、悪性url候補取得方法、及びプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
L. INVERNIZZIP. M. COMPARETTIS. BENVENUTIC. KRUEGELM. COVAG. VIGNA: "EVILSEED: A Guided Approach to Finding Malicious Web Pages", 2012, IEEE S P., pages: 428 - 442
See also references of EP3722974A4
T. NELMSR. PERDISCIM. ANTONAKAKISM. AHAMAD: "Towards Measuring and Mitigating Social Engineering Software Download Attacks", USENIX SECURITY SYMPOSIUM, 2016, pages 773 - 789

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022219792A1 (ja) * 2021-04-15 2022-10-20 日本電信電話株式会社 収集装置、収集方法、および、収集プログラム
JP7030296B1 (ja) 2021-05-26 2022-03-07 株式会社エス・ケイ通信 プログラム、方法、情報処理装置
WO2022249676A1 (ja) * 2021-05-26 2022-12-01 株式会社エス・ケイ通信 プログラム、方法、情報処理装置
JP2022181236A (ja) * 2021-05-26 2022-12-08 株式会社エス・ケイ通信 プログラム、方法、情報処理装置

Also Published As

Publication number Publication date
US20200364589A1 (en) 2020-11-19
JP6823205B2 (ja) 2021-01-27
US11556819B2 (en) 2023-01-17
EP3722974B1 (en) 2022-12-21
EP3722974A4 (en) 2021-09-15
EP3722974A1 (en) 2020-10-14
JPWO2019142399A1 (ja) 2020-04-30

Similar Documents

Publication Publication Date Title
Chen et al. Automated behavioral analysis of malware: A case study of wannacry ransomware
US9614862B2 (en) System and method for webpage analysis
US10789366B2 (en) Security information management system and security information management method
US9544316B2 (en) Method, device and system for detecting security of download link
JP6499380B2 (ja) ログ分析装置、ログ分析方法およびログ分析プログラム
WO2016201819A1 (zh) 检测恶意文件的方法和装置
CN104579773B (zh) 域名系统分析方法及装置
JP6503141B2 (ja) アクセス分類装置、アクセス分類方法及びアクセス分類プログラム
JP6823205B2 (ja) 収集装置、収集方法及び収集プログラム
He et al. Malicious domain detection via domain relationship and graph models
CN107786529B (zh) 网站的检测方法、装置及系统
US11423099B2 (en) Classification apparatus, classification method, and classification program
CN106021252A (zh) 使用公共因特网搜索确定基于因特网的对象信息
JP6666475B2 (ja) 解析装置、解析方法及び解析プログラム
EP3977323A1 (en) Privacy-preserving data collection
JP6478730B2 (ja) 悪性url候補取得装置、悪性url候補取得方法、及びプログラム
CN110825976A (zh) 网站页面的检测方法、装置、电子设备及介质
Oh et al. A study for classification of web browser log and timeline visualization
Zachara et al. Comparison of text-similarity metrics for the purpose of identifying identical web pages during automated web application testing
WO2022079822A1 (ja) 検知装置、検知方法および検知プログラム
WO2022079824A1 (ja) 収集装置、収集方法および収集プログラム
Hansen The study of keyword search in open source search engines and digital forensics tools with respect to the needs of cyber crime investigations
Dong et al. An Information Extracting Scheme for Netdisk
CN115883258A (zh) Ip信息处理方法、装置、电子设备和存储介质
Lokhande et al. Social media data sensitivity and privacy scanning an experimental analysis with hadoop

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2019565704

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018901520

Country of ref document: EP

Effective date: 20200710

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18901520

Country of ref document: EP

Kind code of ref document: A1