WO2021229786A1 - 学習装置、検出装置、学習方法、検出方法、学習プログラムおよび検出プログラム - Google Patents
学習装置、検出装置、学習方法、検出方法、学習プログラムおよび検出プログラム Download PDFInfo
- Publication number
- WO2021229786A1 WO2021229786A1 PCT/JP2020/019390 JP2020019390W WO2021229786A1 WO 2021229786 A1 WO2021229786 A1 WO 2021229786A1 JP 2020019390 W JP2020019390 W JP 2020019390W WO 2021229786 A1 WO2021229786 A1 WO 2021229786A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- feature amount
- information
- web page
- amount related
- image
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000001514 detection method Methods 0.000 title claims description 53
- 238000004891 communication Methods 0.000 claims abstract description 86
- 238000012549 training Methods 0.000 claims abstract description 47
- 241000700605 Viruses Species 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims description 80
- 239000000284 extract Substances 0.000 claims description 20
- 230000003211 malignant effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 36
- 239000013598 vector Substances 0.000 description 27
- 230000002155 anti-virotic effect Effects 0.000 description 17
- 238000012545 processing Methods 0.000 description 8
- 208000015181 infectious disease Diseases 0.000 description 4
- 238000013106 supervised machine learning method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 230000009385 viral infection Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004800 psychological effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1483—Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/562—Static detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2119—Authenticating web pages, e.g. with suspicious links
Definitions
- the present invention relates to a learning device, a detection device, a learning method, a detection method, a learning program, and a detection program.
- Fake anti-virus software is a type of malware disguised as anti-virus software that removes malware (a general term for malicious software) from user terminals.
- attackers psychologically guide users and install fake anti-virus software by displaying false virus infection warnings on web pages and displaying web advertisements that claim to speed up terminals. Let me.
- fake removal information introduction site targets users who have already suffered security damage, such as being infected with malware or accessing a malicious site.
- the fake removal information introduction site deceives users by introducing fake methods to deal with those security damages.
- the fake removal information introduction site proposes the installation of fake anti-virus software, and the deceived user downloads and installs the fake anti-virus software by himself.
- the malicious web page to be detected by the method is a web page that attacks a vulnerability existing in the user's system or a web page that deceives the user by displaying a fake infection warning.
- Non-Patent Document 2 Non-Patent Document 2, 3
- a malicious Web page that displays a fake infection warning and distributes fake anti-virus software may be reached.
- the above-mentioned existing technology is a malicious Web page that installs fake anti-virus software on the user's system by targeting system vulnerabilities, or displays a fake infection warning and tricks the user into installing the fake anti-virus software. It is a technology to detect and collect viruses efficiently.
- the fake removal information introduction site does not install fake anti-virus software by targeting system vulnerabilities, but tricks users into installing fake anti-virus software using psychological guidance techniques.
- the psychological guidance technique is not the conventional method of displaying a fake infection warning to deceive the user, but introduces a solution targeting the user who is actually suffering from security damage such as malware infection. By deceiving the user. Therefore, since the fake removal information introduction site is different from the malicious Web pages targeted by the existing technology from the viewpoint of the attack method, the existing technology that detects the malicious Web page by capturing the characteristics peculiar to those attack methods. Cannot be specified.
- the present invention has been made in view of the above, and introduces fake removal information for a user who has already suffered security damage by using the Web page information when accessing the Web page using a Web browser.
- the purpose is to detect a fake removal information introduction site, which is a malicious Web page that tricks people into installing fake anti-virus software.
- the learning device of the present invention is an input unit that accepts input of information about a Web page for which it is known whether or not it is a malicious site that introduces a fake virus removal method. And, one or more of the feature amount related to the phrase, the feature amount related to the image, the feature amount related to the HTML source code, and the feature amount related to the communication log included in the information about the Web page are trained data. It is characterized by having a learning unit that generates a training model.
- the detection device of the present invention has an input unit that accepts input of information related to a Web page, a feature amount related to words and phrases, a feature amount related to an image, a feature amount related to an HTML source code, and communication included in the information related to the Web page.
- One or more of the feature quantities related to the log is input to the training model learned in advance as input data, and the Web page is a fake virus removal method according to the output result of the training model. It is characterized by having a detection unit that detects that it is a malignant site that introduces.
- FIG. 1 is a diagram showing an example of a configuration of a detection system according to an embodiment.
- FIG. 2 is a diagram showing an example of the configuration of the learning device shown in FIG.
- FIG. 3 is a diagram showing an example of the configuration of the detection device shown in FIG.
- FIG. 4 is a diagram showing an example of Web page information that can be acquired from a Web browser when the Web page is accessed using the Web browser.
- FIG. 5 is a diagram showing an example of communication log information which is a part of Web page information.
- FIG. 6 is a diagram showing an example of an object for measuring the frequency of appearance of words.
- FIG. 7 is a diagram showing an example of a phrase for measuring the frequency of appearance.
- FIG. 8 is a diagram showing an example of a feature vector of phrase appearance frequency.
- FIG. 1 is a diagram showing an example of a configuration of a detection system according to an embodiment.
- FIG. 2 is a diagram showing an example of the configuration of the learning device shown in FIG.
- FIG. 9 is a diagram showing an example of an image of a Web page of a fake removal information introduction site.
- FIG. 10 is a diagram showing an example of a category of image data for measuring the appearance frequency.
- FIG. 11 is a diagram showing an example of a feature vector of image appearance frequency.
- FIG. 12 is a diagram showing an example of a feature vector of HTML tag appearance frequency.
- FIG. 13 is a diagram showing an example of a feature vector of the appearance frequency of the link destination URL.
- FIG. 14 is a diagram showing an example of a feature vector of the frequency of appearance of the communication destination URL.
- FIG. 15 is a diagram showing an example of a feature vector in which feature quantities are integrated.
- FIG. 16 is a diagram showing a flowchart of the training model generation process.
- FIG. 17 is a diagram showing a flowchart of the detection process.
- FIG. 18 is a diagram showing a computer that executes a program.
- FIG. 1 is a diagram showing an example of a configuration of a detection system according to an embodiment.
- the detection system 1 includes a learning device 10 and a detection device 20.
- the learning device 10 generates a training model for detecting that the Web page is a false removal information introduction site.
- the learning device 10 accepts input of information about a web page (hereinafter referred to as web page information) when the web page is accessed using a web browser.
- web page information information about a web page
- the learning device 10 trains one or more of the feature amount of the phrase appearance frequency, the feature amount of the image appearance frequency, the feature amount of HTML, and the feature amount of the communication log extracted from the Web page information. To generate a training model.
- the detection device 20 receives the training model generated by the learning device 10 and detects that the Web page is a false removal information introduction site by using the training model. Specifically, the detection device 20 accepts input of Web page information when accessing a Web page using a Web browser. The detection device 20 inputs one or more of the feature amount of the phrase appearance frequency, the feature amount of the image appearance frequency, the feature amount of HTML, and the feature amount of the communication log extracted from the Web page information. It is input to the training model learned in advance, and it is detected that the Web page is a false removal information introduction site according to the output result of the training model.
- FIG. 2 is a diagram showing an example of the configuration of the learning device shown in FIG.
- the learning device 10 includes a Web page information input unit 11, a phrase appearance frequency feature amount extraction unit (first feature amount extraction unit) 12, an image appearance frequency feature amount extraction unit (second feature amount extraction unit) 13, and an HTML feature. It has an amount extraction unit (third feature amount extraction unit) 14, a communication log feature amount extraction unit (fourth feature amount extraction unit) 15, a learning unit 16, and a storage unit 17.
- FIG. 3 is a diagram showing an example of the configuration of the detection device shown in FIG.
- the detection device 20 includes a Web page information input unit 21, a phrase appearance frequency feature amount extraction unit 22, an image appearance frequency feature amount extraction unit 23, an HTML feature amount extraction unit 24, a communication log feature amount extraction unit 25, a detection unit 26, and an output. It has a unit 27 and a storage unit 28.
- the Web page information input unit 11 accepts input of information about a Web page whose whether or not it is a fake removal information introduction site that introduces a fake virus removal method. Specifically, the web page information input unit 11 accesses the web page using the web browser and accepts the input of the web page information acquired from the web browser. For example, the Web page information input unit 11 inputs Web page information of a plurality of known false removal information introduction sites and Web page information other than the plurality of false removal information introduction sites.
- the web page information is information that can be acquired from the web browser when the web page is accessed by the web browser.
- FIG. 4 is a diagram showing an example of Web page information that can be acquired from a Web browser when the Web page is accessed using the Web browser.
- FIG. 4 shows an example of items constituting Web page information. Examples of the items of the Web page information are the image of the Web page acquired from the Web browser, the HTML source code, and the communication log when the Web page is accessed using the Web browser.
- Web page information can be obtained by operating the access of the Web browser by using a browser extension function introduced in the Web browser, a debugging tool for developers of the Web browser, and the like.
- FIG. 5 is a diagram showing an example of communication log information which is a part of Web page information.
- Examples of communication log items are a time stamp that is the time when communication occurred, a communication destination URL, a communication destination IP address, an HTML referrer that indicates the communication destination that was accessed immediately before, and an HTML status code that indicates the communication content of HTML. ..
- the word / phrase appearance frequency feature amount extraction unit 12 extracts the communication destination information and the text information from the Web page information as the feature amount related to the word / phrase, and measures the number of appearances of the communication destination information and the word / phrase included in the text information. That is, for the purpose of capturing the linguistic features peculiar to the false removal information introduction site included in the Web page information, the phrase appearance frequency feature amount extraction unit 12 sets the feature amount of the Web page included in the Web page information as the feature amount.
- the frequency of appearance of words is measured and a feature vector is generated.
- FIG. 6 shows an example of the object to be measured.
- FIG. 6 is a diagram showing an example of an object for measuring the frequency of appearance of words.
- the phrase appearance frequency feature amount extraction unit 12 measures the appearance frequency of words and phrases from any one or more of the title, text, domain name, and URL path.
- the phrase appearance frequency feature amount extraction unit 12 extracts the title and text displayed on the Web page from the HTML source code of the Web page.
- the title can be obtained by extracting the character string enclosed in the title tag.
- the character string enclosed in each HTML tag is extracted, and the character string enclosed in the script tag representing the Javascript (registered trademark) source code for processing by the Web browser and the meta tag representing the meta information of the Web page. Can be obtained by excluding.
- the phrase appearance frequency feature amount extraction unit 12 acquires the communication destination URL from the communication log, and acquires the domain name and the URL path from the communication destination URL.
- the words and phrases for which the frequency of appearance is to be measured are preset for each category of words and phrases having the same role.
- FIG. 7 is a diagram showing an example of a phrase for measuring the frequency of appearance. In the example of FIG. 7, an example of a phrase and its category is shown.
- Phrase appearance frequency The feature amount extraction unit 12 frequently appears from a known false removal information introduction site for each one or more categories of "method", "removal”, “threat”, and "device”. Is extracted in advance, and the frequency of appearance of words in each category is measured.
- FIG. 8 shows an example of the feature vector of the feature amount extracted by the phrase appearance frequency feature amount extraction unit 12.
- FIG. 8 is a diagram showing an example of a feature vector of phrase appearance frequency.
- the phrase appearance frequency feature amount extraction unit 12 measures the appearance frequency of words and phrases set in each category for each measurement target, and generates a feature vector by vectorizing the numerical values.
- the image appearance frequency feature amount extraction unit 13 extracts image information from the Web page information as a feature amount related to the image, and measures the number of appearances of the image included in the image information. That is, for the purpose of capturing the image-like features peculiar to the fake removal information introduction site included in the Web page information, the image appearance frequency feature amount extraction unit 13 sets the feature amount of the Web page included in the Web page information as the feature amount. The frequency of appearance of images is measured and a feature vector is generated. The image appearance frequency feature amount extraction unit 13 measures the appearance frequency of image data included in the image of the Web page drawn by the Web browser.
- FIG. 9 shows an example of an image of a Web page of a false removal information introduction site.
- FIG. 9 is a diagram showing an example of an image of a Web page of a fake removal information introduction site.
- FIG. 10 is a diagram showing an example of a category of image data for measuring the appearance frequency.
- the fake authentication logo is a logo image of a security vendor company or an OS vendor company that is abused by a fake removal information introduction site in order to claim the safety of a Web page.
- the fake anti-virus software package is a package image of the fake anti-virus software product.
- the download button is a download button that encourages the download of fake anti-virus software.
- the image appearance frequency feature amount extraction unit 13 extracts an image area of an HTML element that matches the a tag and the img tag of the HTML source code from the Web page, and measures the degree of similarity with the preset image data. As a method for measuring the degree of similarity, an image hashing algorithm such as perceptual hash can be used.
- FIG. 11 shows an example of the feature vector of the feature amount extracted by the image appearance frequency feature amount extraction unit 13.
- FIG. 11 is a diagram showing an example of a feature vector of image appearance frequency.
- the image appearance frequency feature amount extraction unit 13 measures the appearance frequency of an image for each category of image data and vectorizes the numerical value to generate a feature vector.
- the HTML feature amount extraction unit 14 extracts HTML source code information from Web page information as a feature amount related to the HTML source code, and measures the number of appearances of link destinations included in the HTML information and structural information. That is, for the purpose of capturing the structural features of HTML unique to the fake removal information introduction site included in the Web page information, the HTML feature amount extraction unit 14 sets the feature amount of the Web page included in the Web page information as the feature amount of the Web page. The frequency of appearance of HTML tags and linked URLs is measured, and feature vectors are generated. The HTML feature amount extraction unit 14 measures the appearance frequency of any one or a plurality of HTML tags among the HTML tags normally used from the HTML source code.
- the HTML feature amount extraction unit 14 measures the appearance frequency of the URL of the link destination in the Web page included in the a tag. In advance, set the link destination URL of the external site that frequently appears on the fake removal information introduction site.
- FIG. 12 shows an example of the feature vector of the feature amount of the appearance frequency of the HTML tag extracted by the HTML feature amount extraction unit 14.
- FIG. 12 is a diagram showing an example of a feature vector of HTML tag appearance frequency.
- FIG. 13 shows an example of the feature vector of the feature amount of the appearance frequency of the link destination URL extracted by the HTML feature amount extraction unit 14.
- FIG. 13 is a diagram showing an example of a feature vector of the appearance frequency of the link destination URL.
- the HTML feature amount extraction unit 14 measures the appearance frequency of the HTML tag and the appearance frequency of the link destination URL, and vectorizes the numerical values to generate a feature vector.
- the communication log feature amount extraction unit 15 extracts the communication log information from the Web page information as the feature amount related to the communication log, and measures the number of appearances of the communication destination included in the communication log information. That is, for the purpose of capturing the communication characteristics peculiar to the fake removal information introduction site included in the Web page information, the communication log feature amount extraction unit 15 communicates as the feature amount of the Web page included in the Web page information. The frequency of appearance of the destination URL is measured and a feature vector is generated. The communication log feature amount extraction unit measures the appearance frequency of the communication destination URL from the communication content to the external site among the communications generated when the Web page is accessed using the Web browser. In advance, set the URL of the external site that is frequently included in the communication when accessing the fake removal information introduction site.
- FIG. 14 shows an example of a feature vector of the feature amount of the appearance frequency of the communication destination URL extracted by the HTML feature amount extraction unit.
- FIG. 14 is a diagram showing an example of a feature vector of the frequency of appearance of the communication destination URL.
- the communication log feature amount extraction unit 15 measures the appearance frequency of the communication destination URL and vectorizes the numerical value to generate a feature vector.
- the learning unit 16 determines one or more of the feature amount related to words, the feature amount related to the image, the feature amount related to the HTML source code, and the feature amount related to the communication log included in the information related to the Web page. Generate a training model by using it as training data. For example, the learning unit 16 determines one or more of the feature amount of the phrase appearance frequency, the feature amount of the image appearance frequency, the feature amount of the HTML, and the feature amount of the communication log extracted from the Web page information. A training model is generated using the integrated feature vector as training data.
- FIG. 15 shows an example of training data that integrates the feature amount of the phrase appearance frequency, the feature amount of the image appearance frequency, the feature amount of HTML, and the feature amount of the communication log extracted from the Web page information.
- FIG. 15 is a diagram showing an example of a feature vector in which feature quantities are integrated.
- the learning unit 16 generates a training model using a supervised machine learning method capable of performing two-class classification, and records the training model in the storage unit 17.
- Support vector machines and random forests are examples of supervised machine learning methods that can perform two-class classification, but are not limited to these.
- the learning unit 16 extracts feature quantities from known false removal information introduction sites and other Web pages, creates training data, and generates a training model using a supervised machine learning method.
- the Web page information input unit 21, the phrase appearance frequency feature amount extraction unit 22, the image appearance frequency feature amount extraction unit 23, the HTML feature amount extraction unit 24, and the communication log feature amount extraction unit 25 are each described above as the Web page information. Since the same processing as the input unit 11, the phrase appearance frequency feature amount extraction unit 12, the image appearance frequency feature amount extraction unit 13, the HTML feature amount extraction unit 14, and the communication log feature amount extraction unit 15 is performed, duplicate explanations will be given. It will be abbreviated and explained briefly.
- the Web page information input unit 21 accepts input of information regarding the Web page to be detected. Specifically, the Web page information input unit 21 accesses a Web page using a Web browser and accepts input of Web page information acquired from the Web browser.
- the word / phrase appearance frequency feature amount extraction unit 22 extracts the communication destination information and the text information from the Web page information as the feature amount related to the word / phrase, and measures the number of appearances of the communication destination information and the word / phrase included in the text information.
- the image appearance frequency feature amount extraction unit 23 extracts image information from Web page information as a feature amount related to an image, and measures the number of appearances of an image included in the image information.
- the HTML feature amount extraction unit 24 extracts HTML source code information from Web page information as a feature amount related to HTML source code, and measures the number of appearances of link destinations included in the HTML information and structural information.
- the communication log feature amount extraction unit 25 extracts the communication log information from the Web page information as the feature amount related to the communication log, and measures the number of appearances of the communication destination included in the communication log information.
- the detection unit 26 determines one or more of the feature amount related to words, the feature amount related to the image, the feature amount related to the HTML source code, and the feature amount related to the communication log included in the information related to the Web page. As input data, it is input to a training model learned in advance, and it is detected that the Web page to be detected is a false removal information introduction site according to the output result of the training model.
- the detection unit 26 reads the training model from the storage unit 28, and like the learning unit 16, inputs the feature vector extracted from the Web page information as input data into the training model learned in advance for training. Detects that the Web page is a false removal information introduction site according to the output result of the model. The detection unit 26 not only determines whether or not the detection target Web page is a false removal information introduction site, but also determines whether the detection target Web page is a false removal information introduction site according to the output result of the training model. You may ask for a numerical value that indicates a certain probability.
- the output unit 27 outputs the result detected by the detection unit 26.
- the output unit 27 may output a message indicating whether or not the detection target Web page is a false removal information introduction site, or indicates the probability that the detection target Web page is a false removal information introduction site. You may output a message.
- the output mode is not limited to the message, and may be any image, voice, or the like.
- FIG. 16 is a diagram showing a flowchart of the training model generation process.
- FIG. 17 is a diagram showing a flowchart of the detection process.
- the Web page information input unit 11 of the learning device 10 accepts input of Web page information of a Web page that is or is not a false removal information introduction site (step S101). Then, the phrase appearance frequency feature amount extraction unit 12 performs a phrase appearance frequency feature amount extraction process (step S102). Specifically, the phrase appearance frequency feature amount extraction unit 12 processes to extract communication destination information and text information from Web page information as feature amounts related to words and phrases, and the communication destination information and words and phrases included in the text information. Measure the number of appearances of.
- the image appearance frequency feature amount extraction unit 13 performs an image appearance frequency feature amount extraction process (step S103). Specifically, the image appearance frequency feature amount extraction unit 13 extracts image information from Web page information as a feature amount related to an image, and measures the number of appearances of an image included in the image information. Then, the HTML feature amount extraction unit 14 performs the HTML feature amount extraction process (step S104). Specifically, the HTML feature amount extraction unit 14 extracts HTML source code information from Web page information as a feature amount related to the HTML source code, and measures the number of appearances of link destinations included in the HTML information and structural information.
- the communication log feature amount extraction unit 15 extracts the communication log feature amount (step S105). Specifically, the communication log feature amount extraction unit 15 extracts the communication log information from the Web page information as the feature amount related to the communication log, and measures the number of appearances of the communication destination included in the communication log information. After that, the learning unit 16 integrates each feature amount to generate training data (step S106). Then, the learning unit 16 generates a training model by a supervised machine learning method (step S107).
- the Web page information input unit 21 of the detection device 20 accepts the input of the Web page information of the Web page to be detected (step S201). Then, the phrase appearance frequency feature amount extraction unit 22 performs a phrase appearance frequency feature amount extraction process (step S202). Specifically, the phrase appearance frequency feature amount extraction unit 22 processes to extract communication destination information and text information from Web page information as feature amounts related to words and phrases, and the communication destination information and words and phrases included in the text information. Measure the number of appearances of.
- the image appearance frequency feature amount extraction unit 23 performs an image appearance frequency feature amount extraction process (step S203). Specifically, the image appearance frequency feature amount extraction unit 23 extracts image information from Web page information as a feature amount related to an image, and measures the number of appearances of an image included in the image information. Then, the HTML feature amount extraction unit 24 performs an HTML feature amount extraction process (step S204). Specifically, the HTML feature amount extraction unit 24 extracts HTML source code information from Web page information as a feature amount related to the HTML source code, and measures the number of appearances of link destinations included in the HTML information and structural information.
- the communication log feature amount extraction unit 25 extracts the communication log feature amount (step S205). Specifically, the communication log feature amount extraction unit 25 extracts the communication log information from the Web page information as the feature amount related to the communication log, and measures the number of appearances of the communication destination included in the communication log information.
- the detection unit 26 integrates the feature quantities to generate input data (step S206). Subsequently, the detection unit 26 inputs input data into the trained training model and detects that the Web page is a false removal information introduction site (step S207).
- the learning device 10 accepts the input of information regarding the Web page for which it is known whether or not the learning device 10 is a fake removal information introduction site that introduces a fake virus removal method, and relates to the Web page.
- a training model using any one or more of the feature amount related to words, phrases, feature amount related to images, feature amount related to HTML source code, and feature amount related to communication log included in the information as training data. To generate.
- the detection device 20 accepts the input of information about the Web page, and among the feature amount related to words and phrases, the feature amount related to the image, the feature amount related to the HTML source code, and the feature amount related to the communication log included in the information related to the Web page. , Any one or more features are input to the training model learned in advance as input data, and it is detected that the Web page is a false removal information introduction site according to the output result of the training model.
- the detection system 1 analyzes linguistic features, image features, HTML structural features, link destination features, and communication destination features from the Web page information acquired from the Web browser. By capturing the unique characteristics of the fake removal information introduction site, it is possible to accurately detect the fake removal information introduction site that could not be detected by the conventional technology.
- false removal information which is a malicious web page
- To detect the fake removal information introduction site from any entered Web page by grasping the linguistic, image, and HTML structural features of the introduction site from the viewpoint of psychological action to the user and the structure of the system that accompanies it. It has the effect of being able to.
- each component of each of the illustrated devices is a functional concept, and does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution / integration of each device is not limited to the one shown in the figure, and all or part of them may be functionally or physically distributed / physically in arbitrary units according to various loads and usage conditions. Can be integrated and configured. Further, each processing function performed by each device may be realized by a CPU and a program analyzed and executed by the CPU, or may be realized as hardware by wired logic.
- FIG. 18 is a diagram showing a computer that executes a program.
- FIG. 18 shows an example of a computer in which the learning device 10 or the detection device 20 is realized by executing the program.
- the computer 1000 has, for example, a memory 1010 and a CPU 1020.
- the computer 1000 also has a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. Each of these parts is connected by a bus 1080.
- the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012.
- the ROM 1011 stores, for example, a boot program such as a BIOS (Basic Input Output System).
- BIOS Basic Input Output System
- the hard disk drive interface 1030 is connected to the hard disk drive 1090.
- the disk drive interface 1040 is connected to the disk drive 1100.
- a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1100.
- the serial port interface 1050 is connected to, for example, a mouse 1051 and a keyboard 1052.
- the video adapter 1060 is connected to, for example, the display 1061.
- the hard disk drive 1090 stores, for example, the OS 1091, the application program 1092, the program module 1093, and the program data 1094. That is, the program that defines each process of the learning device 10 or the detection device 20 is implemented as a program module 1093 in which a code that can be executed by a computer is described.
- the program module 1093 is stored in, for example, the hard disk drive 1090.
- the program module 1093 for executing the same processing as the functional configuration in the apparatus is stored in the hard disk drive 1090.
- the hard disk drive 1090 may be replaced by an SSD (Solid State Drive).
- the data used in the processing of the above-described embodiment is stored as program data 1094 in, for example, a memory 1010 or a hard disk drive 1090. Then, the CPU 1020 reads the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1090 into the RAM 1012 and executes them as needed.
- the program module 1093 and the program data 1094 are not limited to those stored in the hard disk drive 1090, but may be stored in, for example, a removable storage medium and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program module 1093 and the program data 1094 may be stored in another computer connected via a network or WAN. Then, the program module 1093 and the program data 1094 may be read by the CPU 1020 from another computer via the network interface 1070.
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Virology (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
学習装置(10)は、偽のウイルス除去方法を紹介する悪性サイトであるか否かが既知であるWebページに関する情報の入力を受け付け、Webページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、HTMLソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を訓練データとして用いて、訓練モデルを生成する。
Description
本発明は、学習装置、検出装置、学習方法、検出方法、学習プログラムおよび検出プログラムに関する。
近年、攻撃者は、ユーザの端末を不正に操作したり、個人情報を窃取するために、偽アンチウイルスソフトを用いたりすることがある。偽アンチウイルスソフトは、ユーザの端末からマルウェア(悪意のあるソフトウェアの総称)を除去するアンチウイルスソフトに偽装したマルウェアの一種である。従来、攻撃者はWebページ上で嘘のウイルス感染警告を表示したり、端末の高速化を謳ったWeb広告を表示したりすることで、ユーザを心理的に誘導し、偽アンチウイルスソフトをインストールさせる。
攻撃者は、偽のウイルス感染警告やWeb広告を用いてユーザを騙すほかに、偽のウイルス除去方法を紹介するWebページを用意してユーザに偽アンチウイルスソフトをインストールさせることがある。このようなWebページを偽除去情報紹介サイトと呼ぶ。偽除去情報紹介サイトは、マルウェアに感染していたり、悪性サイトにアクセスしていたりといったすでにセキュリティ被害を受けているユーザを標的にする。偽除去情報紹介サイトはそれらのセキュリティ被害を対処する偽の方法を紹介することでユーザを騙す。偽除去情報紹介サイトは、偽アンチウイルスソフトのインストールを提案し、騙されたユーザは偽アンチウイルスソフトを自らダウンロードしてインストールする。
偽アンチウイルスソフトを配布する悪性なWebページを検出する既存の方法として、たとえば、ドメイン名の登録情報やIPアドレスといったネットワークの情報を特徴量としてグラフに基づくクラスタリングにより悪性なWebページを検出する方法が存在する(例えば、非特許文献1参照)。その方法が検出の対象とする悪性なWebページは、ユーザのシステムに存在する脆弱性を狙う攻撃を行うWebページや、偽の感染警告を表示することでユーザを騙すWebページである。
また、Webブラウザを用いてWebページにアクセスし、テクニカルサポート詐欺やサーベイ詐欺といった悪性なWebページに固有の特徴を抽出してそれらのWebページを特定する方法が知られている(非特許文献2、3参照)。特定した悪性なWebページにWebブラウザを用いてアクセスして巡回を行うことで、偽の感染警告を表示して偽アンチウイルスソフトを配布する悪性なWebページに到達することがある。
M. Cova, C. Leita, O. Thonnard, A.D. Keromytis, M. Dacier, "An Analysis of Rogue AV Campaigns," Proc. Recent Advances in Intrusion Detection, RAID 2010, pp.442-463, 2010.
A. Kharraz, W. Robertson, and E. Kirda, "Surveylance: Automatically Detecting Online Survey Scams," Proc. - IEEE Symp. Secur. Priv., vol.2018-May, pp.70-86, 2018.
B. Srinivasan, A. Kountouras, N. Miramirkhani, M. Alam, N. Nikiforakis, M. Antonakakis, and M. Ahamad, "Exposing Search and Advertisement Abuse Tactics and Infrastructure of Technical Support Scammers," Proceedings of the 2018 World Wide Web Conference on World Wide Web - WWW ’18, pp.319-328, 2018.
上述の既存技術は、システムの脆弱性を狙ってユーザのシステムに偽アンチウイルスソフトをインストールしたり、偽の感染警告を表示してユーザをだまして偽アンチウイルスソフトを自らインストールさせる悪性なWebページを検出したり、効率的に収集する技術である。しかし、偽除去情報紹介サイトは、システムの脆弱性を狙って偽アンチウイルスソフトをインストールさせるのではなく、心理的な誘導のテクニックによりユーザを騙して偽アンチウイルスソフトをインストールさせる。
また、その心理的な誘導のテクニックは、偽の感染警告を表示してユーザを騙す従来の方法ではなく、実際にマルウェア感染といったセキュリティ被害を受けているユーザを標的として、その解決方法を紹介することでユーザを騙す。したがって、偽除去情報紹介サイトは、既存技術が対象とする悪性なWebページとは攻撃方法の観点で異なるため、それらの攻撃の方法に固有の特徴を捉えて悪性なWebページを検出する既存技術では特定することができない。
つまり、従来の方法では、心理的な誘導のテクニックにより、セキュリティ被害を受けているユーザを標的に、その解決方法を紹介することで偽アンチウイルスソフトをインストールさせるようなWebページを検出することはできないという課題があった。
本発明は、上記に鑑みてなされたものであって、Webブラウザを用いてWebページにアクセスしたときのWebページ情報を用いて、すでにセキュリティ被害を受けているユーザを偽の除去情報を紹介することで騙し、偽アンチウイルスソフトをインストールさせる悪性なWebページである、偽除去情報紹介サイトを検出することを目的とする。
上述した課題を解決し、目的を達成するために、本発明の学習装置は、偽のウイルス除去方法を紹介する悪性サイトであるか否かが既知であるWebページに関する情報の入力を受け付ける入力部と、前記Webページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、HTMLソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を訓練データとして用いて、訓練モデルを生成する学習部とを有することを特徴とする。
また、本発明の検出装置は、Webページに関する情報の入力を受け付ける入力部と、前記Webページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、HTMLソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を入力データとして、予め学習された訓練モデルに入力し、前記訓練モデルの出力結果に応じて、前記Webページが偽のウイルス除去方法を紹介する悪性サイトであることを検出する検出部とを有することを特徴とする。
本発明によれば、偽アンチウイルスソフトをインストールさせる悪性なWebページである、偽除去情報紹介サイトを検出することができるという効果を奏する。
以下に、本願に係る学習装置、検出装置、学習方法、検出方法、学習プログラムおよび検出プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態により本願に係る学習装置、検出装置、学習方法、検出方法、学習プログラムおよび検出プログラムが限定されるものではない。
[実施形態]
本発明の実施の形態について説明する。図1は、実施の形態における検出システムの構成の一例を示す図である。図1に示すように、実施の形態に係る検出システム1は、学習装置10と、検出装置20とを有する。学習装置10は、Webページが偽除去情報紹介サイトであることを検出するための訓練モデルを生成する。具体的には、学習装置10は、Webブラウザを用いてWebページにアクセスしたときのWebページに関する情報(以下Webページ情報と記載)の入力を受け付ける。
本発明の実施の形態について説明する。図1は、実施の形態における検出システムの構成の一例を示す図である。図1に示すように、実施の形態に係る検出システム1は、学習装置10と、検出装置20とを有する。学習装置10は、Webページが偽除去情報紹介サイトであることを検出するための訓練モデルを生成する。具体的には、学習装置10は、Webブラウザを用いてWebページにアクセスしたときのWebページに関する情報(以下Webページ情報と記載)の入力を受け付ける。
学習装置10は、Webページ情報から抽出した語句出現頻度の特徴量、画像出現頻度の特徴量、HTMLの特徴量、通信ログの特徴量のうち、いずれか一つまたは複数の特徴量を訓練データとして用いて、訓練モデルを生成する。
検出装置20は、学習装置10によって生成された訓練モデルを受信し、訓練モデルを用いて、Webページが偽除去情報紹介サイトであることを検出する。具体的には、検出装置20は、Webブラウザを用いてWebページにアクセスしたときのWebページ情報の入力を受け付ける。検出装置20は、Webページ情報から抽出した語句出現頻度の特徴量、画像出現頻度の特徴量、HTMLの特徴量、通信ログの特徴量のうち、いずれか一つまたは複数の特徴量を入力データとして用いて、予め学習された訓練モデルに入力し、訓練モデルの出力結果に応じてWebページが偽除去情報紹介サイトであることを検出する。
[学習装置および検出装置の構成]
次に、学習装置10の構成について説明する。図2は、図1に示す学習装置の構成の一例を示す図である。学習装置10は、Webページ情報入力部11、語句出現頻度特徴量抽出部(第一の特徴量抽出部)12、画像出現頻度特徴量抽出部(第二の特徴量抽出部)13、HTML特徴量抽出部(第三の特徴量抽出部)14、通信ログ特徴量抽出部(第四の特徴量抽出部)15、学習部16、記憶部17を有する。
次に、学習装置10の構成について説明する。図2は、図1に示す学習装置の構成の一例を示す図である。学習装置10は、Webページ情報入力部11、語句出現頻度特徴量抽出部(第一の特徴量抽出部)12、画像出現頻度特徴量抽出部(第二の特徴量抽出部)13、HTML特徴量抽出部(第三の特徴量抽出部)14、通信ログ特徴量抽出部(第四の特徴量抽出部)15、学習部16、記憶部17を有する。
次に、検出装置20の構成について説明する。図3は、図1に示す検出装置の構成の一例を示す図である。検出装置20は、Webページ情報入力部21、語句出現頻度特徴量抽出部22、画像出現頻度特徴量抽出部23、HTML特徴量抽出部24、通信ログ特徴量抽出部25、検出部26、出力部27、記憶部28を有する。
以下に、学習装置10の各部について説明する。Webページ情報入力部11は、偽のウイルス除去方法を紹介する偽除去情報紹介サイトであるか否かが既知であるWebページに関する情報の入力を受け付ける。具体的には、Webページ情報入力部11は、Webブラウザを用いてWebページにアクセスし、Webブラウザから取得したWebページ情報の入力を受け付ける。例えば、Webページ情報入力部11は、複数の既知の偽除去情報紹介サイトのWebページ情報と複数の偽除去情報紹介サイト以外のWebページ情報を入力する。ここでWebページ情報とは、WebブラウザによってWebページにアクセスした際に、Webブラウザから取得できる情報である。
Webページ情報入力部11が取得するWebページ情報は、図4に示す項目を構成する。図4は、Webブラウザを用いてWebページにアクセスしたときにWebブラウザから取得できるWebページ情報の一例を示す図である。図4では、Webページ情報を構成する項目の一例を示す。Webページ情報の項目の例は、Webブラウザを用いてWebページにアクセスしたときに、Webブラウザから取得したWebページの画像、HTMLソースコード、通信ログである。Webページ情報は、Webブラウザに導入したブラウザ拡張機能、Webブラウザの開発者用デバッグツールなどを用いることで、Webブラウザのアクセスを操作し、取得することができる。
図5の例を用いて、Webページの通信ログの一例について説明する。図5は、Webページ情報の一部である通信ログ情報の一例を示す図である。通信ログの項目の例は、通信が発生した時間であるタイムスタンプ、通信先URL、通信先のIPアドレス、直前にアクセスした通信先を表すHTMLリファラー、HTMLの通信内容を表すHTMLステータスコードである。
語句出現頻度特徴量抽出部12は、語句に関する特徴量として、Webページ情報から通信先情報とテキスト情報を抽出し、当該通信先情報と当該テキスト情報に含まれる語句の出現回数を計測する。つまり、Webページ情報に含まれる偽除去情報紹介サイトに固有の言語的な特徴を捉えることを目的として、語句出現頻度特徴量抽出部12は、Webページ情報に含まれるWebページの特徴量として、語句の出現頻度を計測し、特徴ベクトルを生成する。計測する対象の一例を図6に示す。図6は、語句出現頻度を計測する対象の一例を示す図である。
図6に例示するように、語句出現頻度特徴量抽出部12は、タイトル、テキスト、ドメイン名、URLパスのうち、いずれか一つまたは複数の計測対象から語句の出現頻度をそれぞれ計測する。語句出現頻度特徴量抽出部12は、WebページのHTMLソースコードからWebページに表示されるタイトル、テキストを抽出する。タイトルは、titleタグで囲まれた文字列を抽出することで取得できる。テキストは、各HTMLタグに囲まれた文字列を抽出し、Webブラウザが処理するためのJavaScript(登録商標)ソースコードをあらわすscriptタグやWebページのメタ情報を表すmetaタグに囲まれた文字列を除外することで取得できる。
また、語句出現頻度特徴量抽出部12は、通信ログから通信先URLを取得し、通信先URLからドメイン名とURLパスを取得する。出現頻度を計測する対象の語句は、同一の役割を持つ語句のカテゴリごとに予め設定する。図7は、出現頻度を計測する語句の一例を示す図である。図7の例では、語句とそのカテゴリの一例を示している。語句出現頻度特徴量抽出部12は、「方法」、「除去」、「脅威」、「デバイス」のうち、いずれか一つまたは複数のカテゴリごとに、既知の偽除去情報紹介サイトから頻出する語句を事前に抽出しておき、各カテゴリの語句の出現頻度を計測する。
図8では、語句出現頻度特徴量抽出部12が抽出した特徴量の特徴ベクトルの一例を示す。図8は、語句出現頻度の特徴ベクトルの一例を示す図である。語句出現頻度特徴量抽出部12は、計測対象ごとに、それぞれのカテゴリに設定した語句の出現頻度を計測し、その数値をベクトル化することで、特徴ベクトルを生成する。
画像出現頻度特徴量抽出部13は、画像に関する特徴量として、Webページ情報から画像情報を抽出し、当該画像情報に含まれる画像の出現回数を計測する。つまり、Webページ情報に含まれる偽除去情報紹介サイトに固有の画像的な特徴を捉えることを目的として、画像出現頻度特徴量抽出部13は、Webページ情報に含まれるWebページの特徴量として、画像の出現頻度を計測し、特徴ベクトルを生成する。画像出現頻度特徴量抽出部13は、Webブラウザによって描画されたWebページの画像の内部に含まれる、画像データの出現頻度を計測する。偽除去情報紹介サイトのWebページの画像の一例を図9に示す。図9は、偽除去情報紹介サイトのWebページの画像の一例を示す図である。
画像データは、既知の偽除去情報紹介サイトに頻出する画像をカテゴリごとに予め設定する。画像データのカテゴリの一例を図10に示す。図10は、出現頻度を計測する画像データのカテゴリの一例を示す図である。偽認証ロゴは、Webページの安全性を主張するために、偽除去情報紹介サイトが悪用するセキュリティベンダ企業やOSベンダ企業のロゴ画像である。
偽アンチウイルスソフトのパッケージは、偽アンチウイルスソフト製品のパッケージ画像である。ダウンロードボタンは偽アンチウイルスソフトのダウンロードを促すためのダウンロードボタンである。画像出現頻度特徴量抽出部13は、HTMLソースコードのaタグやimgタグに一致するHTMLエレメントの画像領域をWebページから抽出し、予め設定した画像データとの類似度を測定する。類似度の測定方法として、perceptual hashといった画像のハッシュ化アルゴリズムを利用することができる。
図11では、画像出現頻度特徴量抽出部13が抽出した特徴量の特徴ベクトルの一例を示す。図11は、画像出現頻度の特徴ベクトルの一例を示す図である。画像出現頻度特徴量抽出部13は、画像データのカテゴリごとに画像の出現頻度を計測し、その数値をベクトル化することで、特徴ベクトルを生成する。
HTML特徴量抽出部14は、HTMLソースコードに関する特徴量として、Webページ情報からHTMLソースコード情報を抽出し、HTML情報に含まれるリンク先の出現回数と構造情報を計測する。つまり、Webページ情報に含まれる偽除去情報紹介サイトに固有のHTMLの構造的な特徴を捉えることを目的として、HTML特徴量抽出部14は、Webページ情報に含まれるWebページの特徴量として、HTMLタグやリンク先のURLの出現頻度を計測し、特徴ベクトルを生成する。HTML特徴量抽出部14は、HTMLソースコードから通常使用されるHTMLタグのうち、いずれか一つまたは複数のHTMLタグの出現頻度を計測する。
また、HTML特徴量抽出部14は、aタグに含まれるWebページ内のリンク先のURLの出現頻度を計測する。予め、偽除去情報紹介サイトに頻出する外部サイトのリンク先URLを設定しておく。図12において、HTML特徴量抽出部14が抽出したHTMLタグの出現頻度の特徴量の特徴ベクトルの一例を示す。図12は、HTMLタグ出現頻度の特徴ベクトルの一例を示す図である。また、図13において、HTML特徴量抽出部14が抽出したリンク先URLの出現頻度の特徴量の特徴ベクトルの一例を示す。図13は、リンク先URL出現頻度の特徴ベクトルの一例を示す図である。HTML特徴量抽出部14は、HTMLタグの出現頻度とリンク先URLの出現頻度を計測し、その数値をベクトル化することで、特徴ベクトルを生成する。
通信ログ特徴量抽出部15は、通信ログに関する特徴量として、Webページ情報から通信ログ情報を抽出し、当該通信ログ情報に含まれる通信先の出現回数を計測する。つまり、Webページ情報に含まれる偽除去情報紹介サイトに固有の通信的な特徴を捉えることを目的として、通信ログ特徴量抽出部15は、Webページ情報に含まれるWebページの特徴量として、通信先URLの出現頻度を計測し、特徴ベクトルを生成する。通信ログ特徴量抽出部は、Webブラウザを用いてWebページにアクセスしたときに発生した通信のうち、外部サイトに対する通信内容から、通信先URLの出現頻度を計測する。予め、偽除去情報紹介サイトにアクセスしたときの通信に頻繁に含まれる外部サイトのURLを設定しておく。
図14において、HTML特徴量抽出部が抽出した通信先URLの出現頻度の特徴量の特徴ベクトルの一例を示す。図14は、通信先URL出現頻度の特徴ベクトルの一例を示す図である。通信ログ特徴量抽出部15は、通信先URLの出現頻度を計測し、その数値をベクトル化することで、特徴ベクトルを生成する。
学習部16は、Webページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、HTMLソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を訓練データとして用いて、訓練モデルを生成する。例えば、学習部16は、Webページ情報から抽出した語句出現頻度の特徴量、画像出現頻度の特徴量、HTMLの特徴量、通信ログの特徴量のうち、いずれか一つまたは複数の特徴量を統合した特徴ベクトルを訓練データとして用いて、訓練モデルを生成する。
図15において、Webページ情報から抽出した語句出現頻度の特徴量、画像出現頻度の特徴量、HTMLの特徴量、通信ログの特徴量を統合した訓練データの一例を示す。図15は、特徴量を統合した特徴ベクトルの一例を示す図である。学習部16は、2クラス分類を実施可能な教師あり機械学習手法を用いて訓練モデルの生成を行い、記憶部17に訓練モデルを記録する。2クラス分類を実施可能な教師あり機械学習手法の例としてサポートベクターマシンやランダムフォレストがあるが、これらに限るものではない。学習部16は、既知の偽除去情報紹介サイトとそれ以外のWebページから特徴量を抽出して訓練データを作成し、教師あり機械学習手法を用いて訓練モデルを生成する。
続いて、以下に、検出装置20の各部について説明する。なお、Webページ情報入力部21、語句出現頻度特徴量抽出部22、画像出現頻度特徴量抽出部23、HTML特徴量抽出部24、通信ログ特徴量抽出部25は、それぞれ、上述したWebページ情報入力部11、語句出現頻度特徴量抽出部12、画像出現頻度特徴量抽出部13、HTML特徴量抽出部14、通信ログ特徴量抽出部15と同様の処理を行っているため、重複する説明は省略して簡単に説明する。
Webページ情報入力部21は、検出対象のWebページに関する情報の入力を受け付ける。具体的には、Webページ情報入力部21は、Webブラウザを用いてWebページにアクセスし、Webブラウザから取得したWebページ情報の入力を受け付ける。
語句出現頻度特徴量抽出部22は、語句に関する特徴量として、Webページ情報から通信先情報とテキスト情報を抽出し、当該通信先情報と当該テキスト情報に含まれる語句の出現回数を計測する。画像出現頻度特徴量抽出部23は、画像に関する特徴量として、Webページ情報から画像情報を抽出し、当該画像情報に含まれる画像の出現回数を計測する。
HTML特徴量抽出部24は、HTMLソースコードに関する特徴量として、Webページ情報からHTMLソースコード情報を抽出し、HTML情報に含まれるリンク先の出現回数と構造情報を計測する。通信ログ特徴量抽出部25は、通信ログに関する特徴量として、Webページ情報から通信ログ情報を抽出し、当該通信ログ情報に含まれる通信先の出現回数を計測する。
検出部26は、Webページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、HTMLソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を入力データとして、予め学習された訓練モデルに入力し、訓練モデルの出力結果に応じて、検出対象のWebページが偽除去情報紹介サイトであることを検出する。
具体的には、検出部26は、記憶部28から訓練モデルを読み出し、学習部16と同様に、Webページ情報から抽出した特徴ベクトルを入力データとして、予め学習された訓練モデルに入力し、訓練モデルの出力結果に応じてWebページが偽除去情報紹介サイトであることを検出する。なお、検出部26は、検出対象のWebページが偽除去情報紹介サイトであるか否かを判定するだけでなく、訓練モデルの出力結果に応じて検出対象のWebページが偽除去情報紹介サイトである確率を示す数値をもとめてもよい。
出力部27は、検出部26によって検出された結果を出力する。例えば、出力部27は、検出対象のWebページが偽除去情報紹介サイトであるか否かを示すメッセージを出力してもよいし、検出対象のWebページが偽除去情報紹介サイトである確率を示すメッセージを出力してもよい。なお、出力態様は、メッセージ限定されるものではなく、画像や音声等どのようなものであってもよい。
[学習処理および検出処理の処理手順]
次に、図16および図17を用いて、実施の形態に係る学習処理および検出処理の処理手順について説明する。図16は、訓練モデル生成処理のフローチャートを示す図である。図17は、検出処理のフローチャートを示す図である。
次に、図16および図17を用いて、実施の形態に係る学習処理および検出処理の処理手順について説明する。図16は、訓練モデル生成処理のフローチャートを示す図である。図17は、検出処理のフローチャートを示す図である。
図16に示すように、学習装置10のWebページ情報入力部11は、偽除去情報紹介サイトである、またはそうでないことが既知のWebページのWebページ情報の入力を受け付ける(ステップS101)。そして、語句出現頻度特徴量抽出部12は、語句出現頻度特徴量の抽出処理を行う(ステップS102)。具体的には、語句出現頻度特徴量抽出部12は、語句に関する特徴量として、Webページ情報から通信先情報とテキスト情報を抽出する処理をし、当該通信先情報と当該テキスト情報に含まれる語句の出現回数を計測する。
続いて、画像出現頻度特徴量抽出部13は、画像出現頻度特徴量の抽出処理を行う(ステップS103)。具体的には、画像出現頻度特徴量抽出部13は、画像に関する特徴量として、Webページ情報から画像情報を抽出し、当該画像情報に含まれる画像の出現回数を計測する。そして、HTML特徴量抽出部14は、HTML特徴量の抽出処理を行う(ステップS104)。具体的には、HTML特徴量抽出部14は、HTMLソースコードに関する特徴量として、Webページ情報からHTMLソースコード情報を抽出し、HTML情報に含まれるリンク先の出現回数と構造情報を計測する。
続いて、通信ログ特徴量抽出部15は、通信ログ特徴量の抽出を行う(ステップS105)。具体的には、通信ログ特徴量抽出部15は、通信ログに関する特徴量として、Webページ情報から通信ログ情報を抽出し、当該通信ログ情報に含まれる通信先の出現回数を計測する。その後、学習部16は、各特徴量を統合して訓練データを生成する(ステップS106)。そして、学習部16は、教師あり機械学習手法により訓練モデルを生成する(ステップS107)。
また、図17に示すように、検出装置20のWebページ情報入力部21は、検出対象のWebページのWebページ情報の入力を受け付ける(ステップS201)。そして、語句出現頻度特徴量抽出部22は、語句出現頻度特徴量の抽出処理を行う(ステップS202)。具体的には、語句出現頻度特徴量抽出部22は、語句に関する特徴量として、Webページ情報から通信先情報とテキスト情報を抽出する処理をし、当該通信先情報と当該テキスト情報に含まれる語句の出現回数を計測する。
続いて、画像出現頻度特徴量抽出部23は、画像出現頻度特徴量の抽出処理を行う(ステップS203)。具体的には、画像出現頻度特徴量抽出部23は、画像に関する特徴量として、Webページ情報から画像情報を抽出し、当該画像情報に含まれる画像の出現回数を計測する。そして、HTML特徴量抽出部24は、HTML特徴量の抽出処理を行う(ステップS204)。具体的には、HTML特徴量抽出部24は、HTMLソースコードに関する特徴量として、Webページ情報からHTMLソースコード情報を抽出し、HTML情報に含まれるリンク先の出現回数と構造情報を計測する。
続いて、通信ログ特徴量抽出部25は、通信ログ特徴量の抽出を行う(ステップS205)。具体的には、通信ログ特徴量抽出部25は、通信ログに関する特徴量として、Webページ情報から通信ログ情報を抽出し、当該通信ログ情報に含まれる通信先の出現回数を計測する。
そして、検出部26は、特徴量を統合して入力データを生成する(ステップS206)。続いて、検出部26は、学習済みの訓練モデルに入力データを入力し、Webページが偽除去情報紹介サイトであることを検出する(ステップS207)。
[実施形態の効果]
このように、第1の実施形態に係る学習装置10は、偽のウイルス除去方法を紹介する偽除去情報紹介サイトであるか否かが既知であるWebページに関する情報の入力を受け付け、Webページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、HTMLソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を訓練データとして用いて、訓練モデルを生成する。
このように、第1の実施形態に係る学習装置10は、偽のウイルス除去方法を紹介する偽除去情報紹介サイトであるか否かが既知であるWebページに関する情報の入力を受け付け、Webページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、HTMLソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を訓練データとして用いて、訓練モデルを生成する。
また、検出装置20は、Webページに関する情報の入力を受け付け、Webページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、HTMLソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を入力データとして、予め学習された訓練モデルに入力し、訓練モデルの出力結果に応じて、Webページが偽除去情報紹介サイトであることを検出する。
このため、実施形態に係る検出システム1は、Webブラウザから取得したWebページ情報から、言語的特徴、画像的特徴、HTMLの構造的特徴、リンク先の特徴、通信先の特徴を分析することで、偽除去情報紹介サイトに固有の特徴をとらえ、従来技術で検出できなかった偽除去情報紹介サイトを精度良く検出することができる。
つまり、検出システム1では、Webブラウザを用いてWebページにアクセスしたときのWebページ情報を用いて、セキュリティ被害を受けたユーザに対処する偽の方法を紹介する悪性なWebページである偽除去情報紹介サイトの言語的、画像的、HTMLの構造的特徴を、ユーザに対する心理的な働きかけと、それに伴うシステムの構造という観点でとらえ、入力した任意のWebページから偽除去情報紹介サイトを検出することができるという効果を奏する。
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
図18は、プログラムを実行するコンピュータを示す図である。図18では、プログラムが実行されることにより、学習装置10または検出装置20が実現されるコンピュータの一例を示す。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
図18は、プログラムを実行するコンピュータを示す図である。図18では、プログラムが実行されることにより、学習装置10または検出装置20が実現されるコンピュータの一例を示す。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1051、キーボード1052に接続される。ビデオアダプタ1060は、例えばディスプレイ1061に接続される。
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、学習装置10または検出装置20の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、装置における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
また、上述した実施の形態の処理で用いられるデータは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク、WANを介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
1 検出システム
10 学習装置
11、21 Webページ情報入力部
12、22 語句出現頻度特徴量抽出部
13、23 画像出現頻度特徴量抽出部
14、24 HTML特徴量抽出部
15、25 通信ログ特徴量抽出部
16 学習部
17、28 記憶部
26 検出部
27 出力部
10 学習装置
11、21 Webページ情報入力部
12、22 語句出現頻度特徴量抽出部
13、23 画像出現頻度特徴量抽出部
14、24 HTML特徴量抽出部
15、25 通信ログ特徴量抽出部
16 学習部
17、28 記憶部
26 検出部
27 出力部
Claims (10)
- 偽のウイルス除去方法を紹介する悪性サイトであるか否かが既知であるWebページに関する情報の入力を受け付ける入力部と、
前記Webページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、HTMLソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を訓練データとして用いて、訓練モデルを生成する学習部と
を有することを特徴とする学習装置。 - 前記語句に関する特徴量として、前記Webページに関する情報から通信先情報とテキスト情報を抽出し、当該通信先情報と当該テキスト情報に含まれる語句の出現回数を計測する第一の特徴量抽出部をさらに有することを特徴とする請求項1に記載の学習装置。
- 前記画像に関する特徴量として、前記Webページに関する情報から画像情報を抽出し、当該画像情報に含まれる画像の出現回数を計測する第二の特徴量抽出部をさらに有することを特徴とする請求項1に記載の学習装置。
- 前記HTMLソースコードに関する特徴量として、前記Webページに関する情報からHTMLソースコード情報を抽出し、HTML情報に含まれるリンク先の出現回数と構造情報を計測する第三の特徴量抽出部をさらに有することを特徴とする請求項1に記載の学習装置。
- 前記通信ログに関する特徴量として、前記Webページに関する情報から通信ログ情報を抽出し、当該通信ログ情報に含まれる通信先の出現回数を計測する特徴量抽出部をさらに有することを特徴とする請求項1に記載の学習装置。
- Webページに関する情報の入力を受け付ける入力部と、
前記Webページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、HTMLソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を入力データとして、予め学習された訓練モデルに入力し、前記訓練モデルの出力結果に応じて、前記Webページが偽のウイルス除去方法を紹介する悪性サイトであることを検出する検出部と
を有することを特徴とする検出装置。 - 学習装置によって実行される学習方法であって、
偽のウイルス除去方法を紹介する悪性サイトであるか否かが既知であるWebページに関する情報の入力を受け付ける入力工程と、
前記Webページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、HTMLソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を訓練データとして用いて、訓練モデルを生成する学習工程と
を含むことを特徴とする学習方法。 - 検出装置によって実行される検出方法であって、
Webページに関する情報の入力を受け付ける入力工程と、
前記Webページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、HTMLソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を入力データとして、予め学習された訓練モデルに入力し、前記訓練モデルの出力結果に応じて、前記Webページが偽のウイルス除去方法を紹介する悪性サイトであることを検出する検出工程と
を含むことを特徴とする検出方法。 - 偽のウイルス除去方法を紹介する悪性サイトであるか否かが既知であるWebページに関する情報の入力を受け付ける入力ステップと、
前記Webページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、HTMLソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を訓練データとして用いて、訓練モデルを生成する学習ステップと
をコンピュータに実行させることを特徴とする学習プログラム。 - Webページに関する情報の入力を受け付ける入力ステップと、
前記Webページに関する情報に含まれる、語句に関する特徴量、画像に関する特徴量、HTMLソースコードに関する特徴量、および、通信ログに関する特徴量のうち、いずれか一つまたは複数の特徴量を入力データとして、予め学習された訓練モデルに入力し、前記訓練モデルの出力結果に応じて、前記Webページが偽のウイルス除去方法を紹介する悪性サイトであることを検出する検出ステップと
をコンピュータに実行させることを特徴とする検出プログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022522467A JP7439916B2 (ja) | 2020-05-15 | 2020-05-15 | 学習装置、検出装置、学習方法、検出方法、学習プログラムおよび検出プログラム |
EP20935194.9A EP4137976A4 (en) | 2020-05-15 | 2020-05-15 | LEARNING DEVICE, DETECTION DEVICE, LEARNING METHOD, DETECTION METHOD, LEARNING PROGRAM AND DETECTION PROGRAM |
PCT/JP2020/019390 WO2021229786A1 (ja) | 2020-05-15 | 2020-05-15 | 学習装置、検出装置、学習方法、検出方法、学習プログラムおよび検出プログラム |
US17/925,023 US20230179627A1 (en) | 2020-05-15 | 2020-05-15 | Learning apparatus, detecting apparatus, learning method, detecting method, learning program, and detecting program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/019390 WO2021229786A1 (ja) | 2020-05-15 | 2020-05-15 | 学習装置、検出装置、学習方法、検出方法、学習プログラムおよび検出プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021229786A1 true WO2021229786A1 (ja) | 2021-11-18 |
Family
ID=78525565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2020/019390 WO2021229786A1 (ja) | 2020-05-15 | 2020-05-15 | 学習装置、検出装置、学習方法、検出方法、学習プログラムおよび検出プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230179627A1 (ja) |
EP (1) | EP4137976A4 (ja) |
JP (1) | JP7439916B2 (ja) |
WO (1) | WO2021229786A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230079326A1 (en) * | 2019-03-22 | 2023-03-16 | Proofpoint, Inc. | Identifying legitimate websites to remove false positives from domain discovery analysis |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230344867A1 (en) * | 2022-04-25 | 2023-10-26 | Palo Alto Networks, Inc. | Detecting phishing pdfs with an image-based deep learning approach |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012022419A (ja) * | 2010-07-13 | 2012-02-02 | Yahoo Japan Corp | 学習データ作成装置、学習データ作成方法及びプログラム |
JP2012043285A (ja) * | 2010-08-20 | 2012-03-01 | Kddi Corp | 文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法 |
WO2017217163A1 (ja) * | 2016-06-17 | 2017-12-21 | 日本電信電話株式会社 | アクセス分類装置、アクセス分類方法及びアクセス分類プログラム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8448245B2 (en) * | 2009-01-17 | 2013-05-21 | Stopthehacker.com, Jaal LLC | Automated identification of phishing, phony and malicious web sites |
US9130988B2 (en) * | 2010-12-21 | 2015-09-08 | Microsoft Technology Licensing, Llc | Scareware detection |
US8700913B1 (en) * | 2011-09-23 | 2014-04-15 | Trend Micro Incorporated | Detection of fake antivirus in computers |
US8631498B1 (en) * | 2011-12-23 | 2014-01-14 | Symantec Corporation | Techniques for identifying potential malware domain names |
US20200067861A1 (en) | 2014-12-09 | 2020-02-27 | ZapFraud, Inc. | Scam evaluation system |
US9979748B2 (en) * | 2015-05-27 | 2018-05-22 | Cisco Technology, Inc. | Domain classification and routing using lexical and semantic processing |
EP3599753A1 (en) * | 2018-07-25 | 2020-01-29 | Cyren Inc. | Phishing detection system and method |
-
2020
- 2020-05-15 EP EP20935194.9A patent/EP4137976A4/en active Pending
- 2020-05-15 US US17/925,023 patent/US20230179627A1/en active Pending
- 2020-05-15 WO PCT/JP2020/019390 patent/WO2021229786A1/ja unknown
- 2020-05-15 JP JP2022522467A patent/JP7439916B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012022419A (ja) * | 2010-07-13 | 2012-02-02 | Yahoo Japan Corp | 学習データ作成装置、学習データ作成方法及びプログラム |
JP2012043285A (ja) * | 2010-08-20 | 2012-03-01 | Kddi Corp | 文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法 |
WO2017217163A1 (ja) * | 2016-06-17 | 2017-12-21 | 日本電信電話株式会社 | アクセス分類装置、アクセス分類方法及びアクセス分類プログラム |
Non-Patent Citations (6)
Title |
---|
A. KHARRAZW. ROBERTSONE. KIRDA: "Surveylance: Automatically Detecting Online Survey Scams", PROC. - IEEE SYMP. SECUR. PRIV., vol. 2018, 2018, pages 70 - 86, XP033377727, DOI: 10.1109/SP.2018.00044 |
B. SRINIVASAN, A.KOUNTOURAS, N. MIRAMIRKHANI, M. ALAM, N. NIKIFORAKIS, M ANTONAKAKIS, AND M. AHAMAD: "Exposing Search and Advertisement Abuse Tactics and Infrastructure of Technical Support Scammers", PROCEEDINGS OF THE 2018 WORLD WIDE WEB CONFERENCE ON WORLD WIDE WEB - WWW '18, 2018, pages 319 - 328, XP058653080, DOI: 10.1145/3178876.3186098 |
GIANLUCA STRINGHINI ; CHRISTOPHER KRUEGEL ; GIOVANNI VIGNA: "Shady paths", COMPUTER & COMMUNICATIONS SECURITY, ACM, 2 PENN PLAZA, SUITE 701 NEW YORK NY 10121-0701 USA, 4 November 2013 (2013-11-04) - 8 November 2013 (2013-11-08), 2 Penn Plaza, Suite 701 New York NY 10121-0701 USA , pages 133 - 144, XP058034058, ISBN: 978-1-4503-2477-9, DOI: 10.1145/2508859.2516682 * |
M. COVAC. LEITA0. THONNARDA.D. KEROMYTISM. DACIER: "An Analysis of Rogue AV Campaigns", PROC. RECENT ADVANCES IN INTRUSION DETECTION, 2010, pages 442 - 463 |
MISU TAKESHI, SATO JUNKO, HANADA MASAKI, YAMAGUCHI TAKASHI, NUNOHIRO EIJI: "Proposal of malignant Website discovery system for security incident analysis support", PROCEEDINGS OF COMPUTER SECURITY SYMPOSIUM 2016, vol. 2016, 1 October 2016 (2016-10-01), pages 1240 - 1244, XP055873253 * |
See also references of EP4137976A4 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230079326A1 (en) * | 2019-03-22 | 2023-03-16 | Proofpoint, Inc. | Identifying legitimate websites to remove false positives from domain discovery analysis |
US11956272B2 (en) * | 2019-03-22 | 2024-04-09 | Proofpoint, Inc. | Identifying legitimate websites to remove false positives from domain discovery analysis |
Also Published As
Publication number | Publication date |
---|---|
EP4137976A1 (en) | 2023-02-22 |
JP7439916B2 (ja) | 2024-02-28 |
EP4137976A4 (en) | 2024-01-03 |
US20230179627A1 (en) | 2023-06-08 |
JPWO2021229786A1 (ja) | 2021-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Khan et al. | Analysis of ResNet and GoogleNet models for malware detection | |
Jeeva et al. | Intelligent phishing url detection using association rule mining | |
CN110233849B (zh) | 网络安全态势分析的方法及系统 | |
Liu et al. | A novel approach for detecting browser-based silent miner | |
US8838992B1 (en) | Identification of normal scripts in computer systems | |
Azeez et al. | Identifying phishing attacks in communication networks using URL consistency features | |
Li et al. | Malicious mining code detection based on ensemble learning in cloud computing environment | |
CN105956180B (zh) | 一种敏感词过滤方法 | |
Stolfo et al. | Towards stealthy malware detection | |
US20160261618A1 (en) | System and method for selectively evolving phishing detection rules | |
US20220030029A1 (en) | Phishing Protection Methods and Systems | |
WO2011018271A1 (en) | Malware detection | |
WO2021229786A1 (ja) | 学習装置、検出装置、学習方法、検出方法、学習プログラムおよび検出プログラム | |
Shahzad et al. | Detecting scareware by mining variable length instruction sequences | |
Jain et al. | Detection of phishing attacks in financial and e-banking websites using link and visual similarity relation | |
CN113067792A (zh) | 一种xss攻击识别方法、装置、设备及介质 | |
CN113971284B (zh) | 基于JavaScript的恶意网页检测方法、设备及计算机可读存储介质 | |
Orunsolu et al. | An Anti-Phishing Kit Scheme for Secure Web Transactions. | |
Balamuralikrishna et al. | Mitigating Online Fraud by Ant phishing Model with URL & Image based Webpage Matching | |
US12079285B2 (en) | Training device, determination device, training method, determination method, training method, and determination program | |
Luh et al. | LLR-based sentiment analysis for kernel event sequences | |
Deepserish et al. | PET-Droid: Android Malware Detection Using Static Analysis | |
US12081568B2 (en) | Extraction device, extraction method, and extraction program | |
Hobert et al. | Enhancing cyber attribution through behavior similarity detection on linux shell honeypots with att&ck framework | |
Uwagbole et al. | Applied web traffic analysis for numerical encoding of SQL injection attack features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20935194 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2022522467 Country of ref document: JP Kind code of ref document: A |
|
ENP | Entry into the national phase |
Ref document number: 2020935194 Country of ref document: EP Effective date: 20221114 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |