WO2024106860A1 - 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법 및 시스템 - Google Patents

링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법 및 시스템 Download PDF

Info

Publication number
WO2024106860A1
WO2024106860A1 PCT/KR2023/018079 KR2023018079W WO2024106860A1 WO 2024106860 A1 WO2024106860 A1 WO 2024106860A1 KR 2023018079 W KR2023018079 W KR 2023018079W WO 2024106860 A1 WO2024106860 A1 WO 2024106860A1
Authority
WO
WIPO (PCT)
Prior art keywords
web content
content
abnormal web
normal
abnormal
Prior art date
Application number
PCT/KR2023/018079
Other languages
English (en)
French (fr)
Inventor
신경아
Original Assignee
주식회사 포테이토넷
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 포테이토넷 filed Critical 주식회사 포테이토넷
Publication of WO2024106860A1 publication Critical patent/WO2024106860A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/145Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols

Definitions

  • the following embodiments relate to technology for detecting malicious web addresses to prevent cyber attacks. More specifically, detecting and verifying hidden malicious web addresses and visualizing web content by searching the public content list and hidden content list. This relates to a method and system for detecting abnormal web content based on link characteristic analysis.
  • Websites accessed by a large number of users are exploited by cybercrimes and are transmitted through websites, emails, SMS, and SNS. It is difficult to determine whether a malicious web address is malicious based on the address alone, so users who click on the web address may be infected with malicious code or have their personal or financial information stolen.
  • the web is the main means of distributing malware, and it is reported that 85% of malware dissemination is through websites. Additionally, web services are being abused as command and control servers (C&C), key delivery sites for encryption, or information leakage sites to store stolen user information for malicious activities.
  • C&C command and control servers
  • NSC National Cyber Security Center
  • Antivirus or email security tools can also detect malicious web addresses.
  • detection using anti-virus or email security tools is a detection method limited to PCs and emails using the security tools, and does not detect malicious web addresses of all websites. For a safe Internet environment, all websites must be inspected to detect malicious web addresses.
  • Web content is made public and accessible through web services.
  • the general web content access method starts from the main page of the website and accesses it through content connections.
  • hidden content Content that is not connected to the main page like this is called hidden content.
  • hidden content can be accessed by knowing the storage path (URL) of the web directory. Accordingly, attackers attack users using URLs of malicious content that are not revealed through websites.
  • Korean Patent No. 10-1428727 describes technology related to a system and method for detecting the final distribution site and transit points of such malicious code.
  • Embodiments describe a method and system for detecting abnormal web content based on link characteristic analysis, and more specifically, provide technology for detecting hidden malicious web addresses (distribution sites) that distribute ransomware, etc. to prevent cyber attacks.
  • Embodiments are based on the digital chain principle that normal web content is organically connected to each other through a digital chain, and abnormal web content is disconnected from the digital chain.
  • the aim is to provide an abnormal web content detection method and system based on link characteristic analysis that can identify normal and abnormal web content using the connection and disconnection status of internal and external links.
  • web content may mean a web address or URL.
  • malicious code is used as an example of abnormal web content, but it can include not only malicious code but also phishing, information leak sites, and command control servers.
  • embodiments determine whether a website is damaged by an attack and protect the website from abuse through visualization of web content and web access control of hidden content. I want to.
  • the steps include collecting information by traversing internal links and external links of a website using a crawler, Based on the information, identifying normal or abnormal web content using the connection or disconnection status of the internal link and external link, and requesting the normal or abnormal web content using the listed public content list and hidden content list. It includes the step of checking (REQUEST) or response (RESPONSE), and the step of identifying normal or abnormal web content forms a structure organically connected to each other through a digital chain in the case of normal web content on the website, and the abnormal web content forms a structure organically connected to each other through a digital chain.
  • normal or abnormal web content is identified using the digital chain principle, in which the digital chain forms a disconnected structure.
  • step of identifying normal or abnormal web content using the connection or disconnection status of the link and external link includes the step of identifying normal or abnormal web content through a digital chain in the case of normal web content on the website. It forms a connected structure, and in the case of abnormal web content, normal or abnormal web content is identified using the digital chain principle, in which the digital chain forms a disconnected structure.
  • normal web content is organically connected to each other through a digital chain
  • abnormal web content uses the digital chain principle in which the digital chain is disconnected, using the connection and disconnection states of internal and external links to connect the normal and external links.
  • a method and system for detecting abnormal web content based on link characteristic analysis that can identify abnormal web content can be provided.
  • Embodiments collect web content information such as links using the User Navigation method.
  • malicious search identification
  • Abnormal content with disconnected links can be precisely determined whether it is hidden or malicious through additional verification.
  • Abnormal content detection methods can detect active malicious web content. By using a non-rule-based detection method, it is impossible to bypass the attacker's rule detection, detect new malicious web addresses that have not been detected previously, and detect new malicious web addresses that may appear in the future. You can. In addition, it can solve shortcomings such as resource consumption and long inspection time for rule detection.
  • Embodiments are a method of detecting malicious web addresses by investigating all websites to ensure a safe Internet environment.
  • FIG. 1A is a diagram for explaining detection of existing hidden malicious web content
  • FIG. 1B is a diagram for explaining detection of hidden malicious web content according to an embodiment.
  • Figure 2 is a block diagram for explaining an example of the internal configuration of a computer system in one embodiment.
  • Figure 3 is a block diagram showing components that a processor of a computer system may include, according to one embodiment.
  • Figure 4 is a flowchart showing a method for detecting abnormal web content that can be performed by a computer system according to an embodiment.
  • Figure 5 is a block diagram showing components that a processor of a computer system according to an embodiment may include.
  • Figure 6 is a flowchart showing a method for detecting abnormal web content that can be performed by a computer system according to an embodiment.
  • FIG. 7 is a diagram illustrating a process of identifying web content and processing a web content management list according to an embodiment.
  • FIG. 8 is a diagram illustrating a method for controlling web access to hidden content according to an embodiment.
  • FIG. 9 is a diagram illustrating a method for controlling web access to hidden content according to web requests according to an embodiment.
  • FIG. 10 is a diagram illustrating a method for controlling hidden content web access according to a web request response according to an embodiment.
  • FIG. 11 is a diagram illustrating the structure of an abnormal web content detection system based on link characteristic analysis according to an embodiment.
  • Figure 12 is a diagram illustrating the configuration of an abnormal web content detection system based on link characteristic analysis according to an embodiment.
  • the gist of the present invention is to detect and verify hidden malicious web addresses and search public content lists and hidden content lists to visualize web content.
  • web content may mean a web address or URL.
  • malicious code is used as an example of abnormal web content, but it can include not only malicious code but also phishing, information leak sites, and command control servers.
  • Figure 1a is a diagram to explain detection of existing hidden malicious web content.
  • the distribution site is the web address where the malicious code is located, and the destination is a web address with a link to the distribution site.
  • User Navigation is a user navigation method that explores web content by following internal links in major menus and small menus.
  • FIG. 1B is a diagram illustrating detection of hidden malicious web content according to an embodiment.
  • the embodiments break away from the existing method of not detecting hidden distribution sites by traversing internal links, and use the digital chain principle to identify active harmful distribution sites with malicious code and those connected to the harmful distribution sites. Waypoints can be detected.
  • abnormal web content is organically connected to each other through a digital chain, but abnormal web content has a disconnected digital chain.
  • web content may mean a web address or URL.
  • malicious code is explained as an example of abnormal web content, but it can include not only malicious code but also phishing, information leak sites, and command control servers.
  • a search method that combines User Navigation and AI (Artificial Intelligence) technology is provided, through which malicious code can be detected by searching internal and external links.
  • AI Artificial Intelligence
  • Figure 2 is a block diagram for explaining an example of the internal configuration of a computer system in one embodiment.
  • an abnormal web content detection system may be implemented through the computer system 200 of FIG. 2.
  • the computer system 200 is a component for executing an abnormal web content detection method and includes a processor 210, a memory 220, a persistent storage device 230, a bus 240, and an input/output interface. It may include 250 and a network interface 260.
  • Processor 210 may include or be part of any device capable of processing any sequence of instructions.
  • Processor 210 may include, for example, a computer processor, a processor in a mobile device or other electronic device, and/or a digital processor.
  • Processor 210 may be included in, for example, a server computing device, server computer, series of server computers, server farm, cloud computer, content platform, mobile computing device, smartphone, tablet, set-top box, media player, etc.
  • Processor 210 may be connected to memory 220 through bus 240.
  • Memory 220 may include volatile memory, persistent, virtual, or other memory for storing information used by or output by computer system 200.
  • the memory 220 may include, for example, random access memory (RAM) and/or dynamic RAM (Dynamic RAM, DRAM).
  • RAM random access memory
  • DRAM dynamic RAM
  • Memory 220 may be used to store any information, such as state information of computer system 200.
  • Memory 220 may also be used to store instructions for computer system 200, including instructions for detecting abnormal web content, for example.
  • Computer system 200 may include one or more processors 210 as needed or appropriate.
  • Bus 240 may include a communications infrastructure that enables interaction between various components of computer system 200.
  • Bus 240 may carry data between components of computer system 200, for example, between processor 210 and memory 220.
  • Bus 240 may include wireless and/or wired communication media between components of computer system 200 and may include parallel, series, or other topological arrangements.
  • Persistent storage device 230 is a component, such as a memory or other persistent storage device, as used by computer system 200 to store data for some extended period of time (e.g., compared to memory 220). may include. Persistent storage device 230 may include non-volatile main memory, such as used by processor 210 within computer system 200. Persistent storage device 230 may include, for example, flash memory, hard disk, optical disk, or other computer-readable medium.
  • the input/output interface 250 may include interfaces for a keyboard, mouse, voice command input, display, or other input or output device. Configuration commands and/or data for detecting abnormal web content may be received through the input/output interface 250.
  • Network interface 260 may include one or more interfaces to networks, such as a local area network or the Internet.
  • Network interface 260 may include interfaces for wired or wireless connections. Configuration instructions and/or data for abnormal web content detection may be received via network interface 260.
  • computer system 200 may include more components than those of FIG. 2 .
  • FIG. 3 is a block diagram showing components that a processor of a computer system may include according to an embodiment
  • FIG. 4 is a flowchart showing a method of detecting abnormal web content that a computer system may perform according to an embodiment.
  • the processor 210 may include an information collection unit 310, a content identification unit 320, a content classification unit 330, and a content processing unit 340.
  • the processor 210 may be referred to as an abnormal web content detection system.
  • These components of the processor 210 may be expressions of different functions performed by the processor 210 according to control instructions provided by at least one program code.
  • the information collection unit 310 may be used as a functional expression that operates to control the computer system 200 so that the processor 210 collects information by traversing the internal and external links of a website using a crawler. You can.
  • the processor 210 and its components may perform steps S410 to S440 included in the abnormal web content detection method of FIG. 4.
  • the processor 210 and its components may be implemented to execute instructions according to the code of the operating system included in the memory 220 and at least one program code described above.
  • at least one program code may correspond to the code of a program implemented to process the abnormal web content detection method.
  • a method of detecting abnormal web content based on link characteristic analysis performed by a computer device includes collecting information by traversing internal and external links of a website using a crawler (S410), collected information Based on this, identifying normal or abnormal web content using the connection or disconnection status of internal links and external links (S420), and listing the identified normal web content and abnormal web content into a public content list and a hidden content list. It may include a step (S430). In addition, a step (S440) of verifying normal or abnormal web content using an AI (Artificial Intelligence) model for the initially identified normal or abnormal web content may be further included.
  • AI Artificial Intelligence
  • the abnormal web content detection method may not occur in the order shown, and some of the steps may be omitted or additional processes may be included.
  • the information collection unit 310 may collect information by traversing internal and external links of the website using a crawler. More specifically, as the verification request domain is transmitted to the crawler server, the information collection unit 310 may collect information by traversing the internal and external links of the verification request domain using a crawler. At this time, the information collection unit 310 may configure crawler servers in a distributed form for real-time crawling by crawlers.
  • the crawler crawls domestic and foreign domains/threat domains and can detect hidden distribution sites (URLs) by traversing internal and external links. At this time, the suspicious URL can be initially identified using only the link.
  • URLs hidden distribution sites
  • the content identification unit 320 may identify normal or abnormal web content using the connection or disconnection status of internal and external links based on the collected information. More specifically, the content identification unit 320 initially identifies normal or abnormal web content using the connection or disconnection status of internal and external links based on information collected from the crawler server, and then identifies suspicious URL data. Can be transmitted.
  • the content identification unit 320 forms a structure organically connected to each other through a digital chain in the case of normal web content on a website, and uses the digital chain principle to form a structure in which the digital chain is disconnected in the case of abnormal web content, thereby forming a structure in which the digital chain is disconnected from the normal or abnormal web content. Content can be identified.
  • the content classification unit 330 may check the request (REQUEST) or response (RESPONSE) of web content using the listed public content list and hidden content list. More specifically, the content classification unit 330 classifies and checks the request (REQUEST) or response (RESPONSE) of web content using the public content list and the hidden content list, and determines whether the request or response is for hidden content. It is possible to classify public content or hidden content by detecting whether it is open or hidden.
  • the content processing unit 340 may verify normal or abnormal web content through an AI (Artificial Intelligence) model for the initially identified normal or abnormal web content. Additionally, the content processing unit 340 can block access to and execution of hidden content. More specifically, the content processing unit 340 may verify normal or abnormal web content through an AI model in the AI server, then transmit the result to a web database and store the decision result.
  • crawling metadata and/or domain information may be performed prior to verification. In other words, domain-related meta information of suspicious domains can be crawled and collected before artificial intelligence detection.
  • the content processing unit 340 can block access to and execution of the hidden content by controlling the request (REQUEST) or response (RESPONSE) of the content.
  • the content classification unit 330 checks it and searches the public content list, and determines whether there is a request (REQUEST) or response (RESPONSE) for the content. It detects that it is for hidden content, and in the case of hidden content, the content processing unit 340 can block access to and execution of the hidden content by controlling the request (REQUEST) or response (RESPONSE) of the content.
  • AI models can select search domains and collect and cleanse threat data. Additionally, the AI model can detect distribution sites by constructing a multi-modal complex model.
  • the content processing unit 340 can verify normal or abnormal web content through artificial intelligence detection based on big data characteristics of the distribution site and transit point of the malicious code.
  • the content processing unit 340 can use a non-rule-based detection method to simultaneously detect distribution sites and transit points where malicious code is alive, and detect URLs that spread malicious code.
  • FIG. 5 is a block diagram showing components that a processor of a computer system according to an embodiment may include, and FIG. 6 is a flowchart showing a method of detecting abnormal web content that a computer system may perform according to an embodiment.
  • the processor 210 may include an information collection unit 510, a content identification unit 520, and a content verification unit 530.
  • the processor 210 may be referred to as an abnormal web content detection system.
  • These components of the processor 210 may be expressions of different functions performed by the processor 210 according to control instructions provided by at least one program code.
  • the information collection unit 510 may be used as a functional expression that operates to control the computer system 200 so that the processor 210 collects information by traversing the internal and external links of a website using a crawler. You can.
  • the processor 210 and its components may perform steps (S610 to S630) included in the abnormal web content detection method of FIG. 6.
  • the processor 210 and its components may be implemented to execute instructions according to the code of the operating system included in the memory 220 and at least one program code described above.
  • at least one program code may correspond to the code of a program implemented to process the abnormal web content detection method.
  • An abnormal web content detection method based on link characteristic analysis performed by a computer device includes collecting information by traversing internal links and external links of a website using a crawler (S610), and collecting information. Based on this, it may include a step (S620) of identifying normal or abnormal web content using the connection or disconnection status of internal links and external links. In addition, a step (S630) of verifying normal or abnormal web content using an AI (Artificial Intelligence) model for the initially identified normal or abnormal web content may be further included.
  • AI Artificial Intelligence
  • the abnormal web content detection method may not occur in the order shown, and some of the steps may be omitted or additional processes may be included.
  • the information collection unit 510 may collect information by traversing the internal and external links of the website using a crawler. More specifically, as the verification request domain is transmitted to the crawler server, the information collection unit 510 may collect information by traversing the internal and external links of the verification request domain using a crawler. At this time, the information collection unit 510 may configure crawler servers in a distributed form for real-time crawling by crawlers.
  • the crawler crawls domestic and foreign domains/threat domains and can detect hidden distribution sites (URLs) by traversing internal and external links.
  • the suspicious URL can be primarily identified using only the link.
  • the content identification unit 520 may identify normal or abnormal web content using the connection or disconnection status of internal and external links based on the collected information. More specifically, the content identification unit 520 initially identifies normal or abnormal web content using the connection or disconnection status of internal and external links based on information collected from the crawler server, and then identifies suspicious URL data. Can be transmitted.
  • the content identification unit 520 forms a structure organically connected to each other through a digital chain in the case of normal web content on a website, and uses the digital chain principle to form a structure in which the digital chain is disconnected in the case of abnormal web content, thereby forming a structure in which the digital chain is disconnected from the normal or abnormal web content. Content can be identified.
  • the content verification unit 530 may verify normal or abnormal web content using an AI (Artificial Intelligence) model for the initially identified normal or abnormal web content. More specifically, the content verification unit 530 may verify normal or abnormal web content through an AI model in the AI server, then transmit the results to a web database and store the determination results.
  • crawling metadata and/or domain information may be performed prior to verification. In other words, domain-related meta information of suspicious domains can be crawled and collected before artificial intelligence detection.
  • AI models can select search domains and collect and cleanse threat data. Additionally, the AI model can detect distribution sites by constructing a multi-modal complex model.
  • the content verification unit 530 can verify normal or abnormal web content through artificial intelligence detection based on big data characteristics of the distribution site and transit point of the malicious code.
  • the content verification unit 530 can use a non-rule-based detection method to simultaneously detect distribution sites and transit points where malicious code is alive, and detect URLs that spread malicious code.
  • FIG. 7 is a diagram illustrating a process of identifying web content and processing a web content management list according to an embodiment.
  • FIG. 8 is a diagram illustrating a method for controlling web access to hidden content according to an embodiment
  • FIG. 9 is a diagram illustrating a method for controlling web access to hidden content according to a web request according to an embodiment
  • FIG. 10 is a diagram illustrating a method for controlling web access to hidden content according to an embodiment. This is a diagram to explain a method for controlling hidden content web access according to a web request response according to an embodiment.
  • an abnormal web content detection system based on link characteristic analysis traverses a website and generates a public content list and a hidden content list to visualize web content along internal links.
  • the public content list (member rights content, etc.) and the hidden content list are updated periodically.
  • An abnormal web content detection system based on link characteristic analysis crawls web content along hyperlinks (website internal links) on the website 830 to generate a public content list 840.
  • Hyperlinks can include a list of web content that is connected according to mouse events such as onClick().
  • hidden content refers to content without internal links. This represents content that the user 810 cannot access by following links centered on the main page, and may represent content hidden by the attacker 820 or content accidentally stored in a web directory by a developer or operator.
  • the hidden content list is created outside the web server.
  • the abnormal web content detection system based on link characteristic analysis is a web access control method that checks web content requests or responses to requests and hides them based on the visualized web content list. You can identify content and control access to hidden content.
  • the abnormal web content detection system based on link characteristic analysis crawls the content of the web service before steps S910 and S1010. Identify public web content and store web content management lists (public content list and hidden content list). At this time, for smooth web service processing, if the link is in a hidden state and is verified to be normal web content, access and execution can be permitted and stored in the web content management list.
  • the abnormal web content detection system based on link characteristic analysis according to an embodiment searches the public content list according to the web content request coming to the web service in step S910 (step S920), and determines whether the content is public or hidden. Compare (step S930). Accordingly, in the case of public normal content, access is allowed (step S940), and in the case of hidden abnormal content, access is blocked and controlled to block access to and execution of the hidden abnormal content (step S950).
  • the abnormal web content detection system based on link characteristic analysis according to an embodiment searches the public content list of web content responding to the request coming to the web service in step S1010 (step S1020), and determines whether the content is public or hidden. Compare whether it is content (step S1030). Accordingly, in the case of open normal content, the request (response) is allowed (step S1040), and in the case of hidden abnormal content, the request (response) is blocked and controlled to block access to and execution of the hidden abnormal content (step S1040). Step S1050).
  • An abnormal web content detection system based on link characteristic analysis may send an alarm to a web administrator regarding the hidden abnormal content in the case of hidden abnormal content.
  • hidden abnormal content is stored and updated in the web content management list, and requests (responses) and control details for hidden abnormal content are stored in the log.
  • An abnormal web content detection system based on link characteristic analysis 1) detects whether an attacker has hidden malicious content such as malware on a web server, 2) detects whether an attacker has hidden malicious content such as malware in a web server to infiltrate the company through a web service. Detecting whether web shell malicious code is running, 3) detecting and blocking web shell execution requests based on hidden content, and 4) detecting web shells by installing them outside the website, thereby enabling visualization of web content and web access to hidden content. Through control, it is possible to detect and respond to malicious content such as web shells.
  • FIG. 11 is a diagram illustrating the structure of an abnormal web content detection system based on link characteristic analysis according to an embodiment.
  • an abnormal web content detection system based on link characteristic analysis can detect the web address of malicious code through the digital chain principle and a big data-based AI model.
  • the embodiments are diagrams to explain artificial intelligence (AI) technology that verifies maliciousness in web content primarily identified by the digital chain principle.
  • the artificial intelligence model for verifying malicious web content is shown in Figure 11.
  • Data sources include internal and external links, URL information, domain information, content meta information, scripts, and HTML.
  • the collected data is stored in Mongo DB, a no-SQL server, for big data processing.
  • Algorithms for model creation include classification/regression algorithms, clustering algorithms, and deep learning.
  • the model processing process goes through data analysis, data conversion, and feature selection for data preprocessing, and model learning involves model construction, model evaluation, and model optimization.
  • model prediction and analysis process model analysis, model monitoring, and visualization of prediction results are performed.
  • the digital chain principle is that data in digital services are organically connected to each other, but abnormal web content has a structure in which this digital chain is disconnected. More specifically, normal web content has a structure that is organically connected to each other through a digital chain, and abnormal content (i.e., distribution site), unlike normal web content, has a disconnected digital chain without “internal links.” Accordingly, embodiments can identify normal and abnormal web content using the connection and disconnection states of internal and external links.
  • the big data-based AI model can find the characteristics of abnormal URLs and normal URLs based on big data and automatically detect them based on AI.
  • An abnormal web content detection system based on link characteristic analysis consists of a web crawler to search internal and external URLs, can perform digital chain-based URL search and abnormality verification, and collects information from the crawler. Based on this, an AI model that determines abnormality can be used to detect abnormal URLs and provide a web service that verifies whether the URL is abnormal. At this time, data can be divided into normal, transit, and distribution locations.
  • Figure 12 is a diagram illustrating the configuration of an abnormal web content detection system based on link characteristic analysis according to an embodiment.
  • an abnormal web content detection system based on link characteristic analysis may transmit a URL verification request to the web server 1210.
  • the web server 1210 may receive a URL verification request and deliver the verification result again after verification is completed.
  • verification may be performed by the AI server 1220 and the crawling server 1230, and the web server 1210 may receive the verification result after verification from the AI server 1220 and the crawling server 1230.
  • the crawling server 1230 can explore the digital chain and collect various features by traversing the domain. Additionally, the AI server 1220 can classify abnormal web URLs and verify the digital chain. Furthermore, the label server 1240 can display URL labels.
  • the web database 1250 can store digital chain verification results and AI decision results, and the big data database 1260 can store crawling results and store domain information and AI features.
  • a global threat intelligence company (1270) data can be secured in real time and verification technologies can be exchanged.
  • Embodiments use a non-rule-based detection method to simultaneously detect distribution sites and transit sites where malicious code is alive. Accordingly, URLs that spread malicious code can be detected.
  • embodiments may secure learning data.
  • learning data can be secured through self-collected abnormal URL data and real-time data acquisition and verification technology exchange in connection with a global threat intelligence company.
  • embodiments may develop and refine sub-technologies that can improve the detection performance of digital chain AI models. For example, domain selection criteria can be set and normal/abnormal identification performance can be improved using various characteristics.
  • embodiments have the characteristic of not using a URL search method for distributing malicious code, a verification method for distributing malicious code, or a distribution rule.
  • the existing method of using distribution rules detects harmless stops based on the harmless distribution rules. As a result, it is impossible to detect new distribution sites and it is impossible to detect URLs that spread malicious code.
  • Embodiments can detect hidden distribution sites, that is, URLs that spread malicious code, by using a method of traversing not only internal links but also external links through a crawler using the digital chain principle and the User Navigation method.
  • the verification method for disseminating malicious code enables quick verification by applying digital chain theory, and can significantly reduce the number of verification targets by primarily filtering URLs suspected of being abnormal.
  • the embodiments have a fast verification speed through artificial intelligence detection based on various big data characteristics of distribution sites and transit sites.
  • devices and components described in embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, and a field programmable gate array (FPGA).
  • ALU arithmetic logic unit
  • FPGA field programmable gate array
  • PLU programmable logic unit
  • the processing device may execute an operating system (OS) and one or more software applications running on the operating system. Additionally, a processing device may access, store, manipulate, process, and generate data in response to the execution of software.
  • OS operating system
  • a processing device may access, store, manipulate, process, and generate data in response to the execution of software.
  • a single processing device may be described as being used; however, those skilled in the art will understand that a processing device includes multiple processing elements and/or multiple types of processing elements. It can be seen that it may include.
  • a processing device may include a plurality of processors or one processor and one controller. Additionally, other processing configurations, such as parallel processors, are possible.
  • Software may include a computer program, code, instructions, or a combination of one or more of these, which may configure a processing unit to operate as desired, or may be processed independently or collectively. You can command the device.
  • Software and/or data may be used on any type of machine, component, physical device, virtual equipment, computer storage medium or device to be interpreted by or to provide instructions or data to a processing device. , or may be permanently or temporarily embodied in a transmitted signal wave.
  • Software may be distributed over networked computer systems and stored or executed in a distributed manner.
  • Software and data may be stored on one or more computer-readable recording media.
  • the method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer-readable medium.
  • the computer-readable medium may include program instructions, data files, data structures, etc., singly or in combination.
  • Program instructions recorded on the medium may be specially designed and configured for the embodiment or may be known and available to those skilled in the art of computer software.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks.
  • program instructions include machine language code, such as that produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter, etc.
  • the hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Virology (AREA)
  • Computer And Data Communications (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

본 발명은 은닉된 악성 웹 주소를 탐지 및 검증하고, 공개 컨텐츠 목록과 은닉 컨텐츠 목록을 조회하여 웹 컨텐츠의 가시화를 위한 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법 및 시스템에 관한 것으로, 크롤러를 이용하여 웹 사이트의 내부 링크 및 외부 링크를 순회하며 정보를 수집하는 단계, 수집된 상기 정보를 기반으로 상기 내부 링크 및 외부 링크의 연결 또는 단절 상태를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별하는 단계 및 식별된 정상 웹 컨텐츠 및 비정상 웹 컨텐츠를 공개 컨텐츠 목록 및 은닉 컨텐츠 목록으로 리스트화하는 단계를 포함하고, 상기 정상 또는 비정상 웹 컨텐츠를 식별하는 단계는, 웹 사이트에서 정상 웹 컨텐츠의 경우 디지털 체인으로 상호 유기적으로 연결된 구조를 형성하며, 비정상 웹 컨텐츠의 경우 디지털 체인이 단절된 구조를 형성하는 디지털 체인 원리를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별한다.

Description

링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법 및 시스템
아래의 실시예들은 사이버 공격 예방을 위한 악성 웹 주소를 탐지하는 기술에 관한 것으로, 더욱 상세하게는 은닉된 악성 웹 주소를 탐지 및 검증하고, 공개 컨텐츠 목록과 은닉 컨텐츠 목록을 조회하여 웹 컨텐츠의 가시화를 위한 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법 및 시스템에 관한 것이다.
4차 산업혁명과 더불어 소프트웨어 중심 사회, 모든 사물이 네트워크로 연결된 사회에서, 사이버 공격은 더욱 지능화되고 있으며 사이버 범죄 조직의 수익원이 되고 있다.
다수의 이용자가 접속하는 웹 사이트는 사이버 범죄에 악용되어 웹 사이트와 이메일, SMS, SNS를 통해 전달된다. 악성 웹 주소는 주소만으로 악성 여부를 판단하기 어려워, 웹 주소를 클릭한 사용자는 악성코드에 감염되거나 개인정보나 금융정보가 빠져나가기도 한다. 웹은 악성코드 유포의 주요 수단으로, 악성코드 유포의 85%는 웹 사이트라는 보고가 있다. 또한, 악성행위를 위해 명령제어서버(C&C)나 암호화를 위한 키 전달 사이트 또는 훔쳐낸 사용자 정보를 저장하는 정보 유출지로 웹 서비스를 악용하고 있다.
영국 NCSC(National Cyber Security Center) 발표에 따르면, 사이버 공격에 악용된 웹 주소 2020년 144.8만개와 2021년 310만개를 탐지하고 중단시켰다고 발표했다 (https:/www.ncsc.gov.uk/files/ACD-The-Fifth-Year-full-report.pdf, 2022). 2020년과 2021년 1년동안 악성 웹 주소 공격은 2배 이상 증가하였다.
사이버 공격을 위해 공격자들은 사이트를 해킹하고 악성 컨텐츠를 숨겨놓는다. 이러한 은닉된 컨텐츠(또는 웹 주소)를 찾는 것은 많은 어려움이 있다. 기존의 악성 웹 주소 탐지는 대다수가 User Navigation 방식의 크롤링과 룰(Rule) 기반 탐지 방식을 사용한다. 크롤러에 의한 User Navigation 방식은 웹 사이트의 메인 페이지와 연결되어 있는 내부 링크를 따라 순회하기 때문에 내부 링크가 없는 은닉된 컨텐츠를 탐지할 수 없다. 룰 기반 탐지 방식은 탐지된 악성 웹 주소를 탐지 룰로 사용하는 경우로, 기 탐지되어 악성이 제거된 무해한 경유지를 탐지할 뿐이다. 경유지는 악성 웹 컨텐츠와 연결된 링크를 가지는 웹 컨텐츠이다. 룰(Rule) 탐지 방식의 문제점은 기존 룰(Rule)의 한 글자만 바뀌어도 탐지가 불가능하며, 공격자는 웹 주소를 수시로 변경하여 룰(Rule) 탐지를 우회할 수 있으며, 룰(Rule)에 포함되지 않은 새로운 악성 웹 주소를 탐지하는 것이 불가능하고, 미래에 출현 가능한 신규 악성 웹 주소를 탐지하는 것이 불가능하다. 또한, 룰(Rule) 저장을 위한 많은 저장 공간과, 룰(Rule) 비교 연산에 많은 리소스와 오랜 점검 시간이 필요하다.
백신이나 이메일 보안도구에서도 악성 웹 주소를 탐지할 수 있다. 그러나, 백신이나 이메일 보안도구를 이용한 탐지는 해당 보안도구를 사용하는 PC와 이메일에 제한적인 탐지 방식으로, 모든 웹 사이트의 악성 웹 주소를 탐지하지 못한다. 안전한 인터넷 환경을 위해서는 모든 웹 사이트를 조사하여 악성 웹 주소를 탐지할 수 있어야 한다.
웹 컨텐츠는 웹 서비스를 통해 공개되어 접근이 가능하다. 그러나 일반적인 웹 컨텐츠 접근 방식은 웹사이트의 메인 페이지로부터 시작하여 콘텐츠의 연결을 통해 접근한다.
즉, 웹 디렉터리에 존재해도 메인 페이지 혹은 메인 페이지와 연결된 다른 컨텐츠와의 연결이 없으면 웹 사이트를 통해 컨텐츠 접근이 불가능하다. 공격자는 웹사이트를 공격하고 악성 컨텐츠를 웹 디렉터리에 저장하며, 악성 컨텐츠는 메인 페이지와의 연결이 없기 때문에 일반적인 웹사이트를 통해 접근이 불가능하다.
이렇게 메인페이지와의 연결이 없는 컨텐츠를 은닉 컨텐츠(숨겨진 컨텐츠) 라고 한다. 그러나 이러한 은닉 컨텐츠는 웹디렉터리의 저장경로(URL)를 알면 접속이 가능하다. 이에, 공격자는 웹 사이트를 통해 드러나지 않는 악성 컨텐츠의 URL을 이용하여 사용자를 공격한다.
한국등록특허 10-1428727호는 이러한 악성코드 최종 유포지 및 경유지 탐지 시스템 및 방법에 관한 기술을 기재하고 있다.
실시예들은 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법 및 시스템에 관하여 기술하며, 보다 구체적으로 사이버 공격 예방을 위한 랜섬웨어 등을 유포하는 은닉된 악성 웹 주소(유포지) 탐지 기술을 제공한다.
실시예들은 정상적인 웹 컨텐츠는 디지털 체인으로 상호 유기적으로 연결되어 있으며, 비정상 웹 컨텐츠는 디지털 체인이 단절되어 있다는 디지털 체인 원리에 기반을 두고 있다. 디지털 체인 원리에 기반하여, 내부 및 외부 링크의 연결과 단절 상태를 이용하여 정상과 비정상 웹 컨텐츠를 식별할 수 있는, 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법 및 시스템을 제공하는데 있다.
여기서, 웹 컨텐츠는 웹 주소 또는 URL을 의미할 수 있다. 아래에서는 비정상 웹 컨텐츠의 일례로써 악성코드를 예로 들어 설명하나, 악성코드뿐 아니라 피싱이나 정보유출지, 명령제어서버 등을 포함할 수 있다.
실시예들은 웹의 하이퍼링크 속성에 의해 은닉 특성을 가지는 악성 컨텐츠 공격에 대응하기 위하여 웹 컨텐츠의 가시화와 은닉 컨텐츠의 웹 접근 통제를 통해 웹사이트의 공격 피해 여부를 파악하고 웹사이트가 악용되지 않도록 보호하고자 한다.
다만, 본 발명이 해결하고자 하는 기술적 과제들은 상기 과제로 한정되는 것은 아니며, 본 발명의 기술적 사상 및 영역으로부터 벗어나지 않은 범위에서 다양하게 확장될 수 있다.
본 발명의 일 실시예에 따른 컴퓨터 장치에 의해 수행되는 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법에 있어서, 크롤러를 이용하여 웹 사이트의 내부 링크 및 외부 링크를 순회하며 정보를 수집하는 단계, 수집된 상기 정보를 기반으로 상기 내부 링크 및 외부 링크의 연결 또는 단절 상태를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별하는 단계 및 리스트화된 공개 컨텐츠 목록 및 은닉 컨텐츠 목록을 이용하여 상기 정상 또는 비정상 웹 컨텐츠의 요청(REQUEST) 또는 응답(RESPONSE)을 점검하는 단계를 포함하고, 상기 정상 또는 비정상 웹 컨텐츠를 식별하는 단계는, 웹 사이트에서 정상 웹 컨텐츠의 경우 디지털 체인으로 상호 유기적으로 연결된 구조를 형성하며, 비정상 웹 컨텐츠의 경우 디지털 체인이 단절된 구조를 형성하는 디지털 체인 원리를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별한다.
본 발명의 실시예에 따른 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법에 있어서, 크롤러를 이용하여 웹 사이트의 내부 링크 및 외부 링크를 순회하며 정보를 수집하는 단계 및 수집된 상기 정보를 기반으로 상기 내부 링크 및 외부 링크의 연결 또는 단절 상태를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별하는 단계를 포함하고, 상기 정상 또는 비정상 웹 컨텐츠를 식별하는 단계는, 웹 사이트에서 정상 웹 컨텐츠의 경우 디지털 체인으로 상호 유기적으로 연결된 구조를 형성하며, 비정상 웹 컨텐츠의 경우 디지털 체인이 단절된 구조를 형성하는 디지털 체인 원리를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별한다.
실시예들에 따르면 정상적인 웹 컨텐츠는 디지털 체인으로 상호 유기적으로 연결되어 있으며, 비정상 웹 컨텐츠는 디지털 체인이 단절되어 있는 디지털 체인 원리를 이용함으로써, 내부 및 외부 링크의 연결과 단절 상태를 이용하여 정상과 비정상 웹 컨텐츠를 식별할 수 있는, 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법 및 시스템을 제공할 수 있다.
실시예들은 User Navigation 방식을 이용하여 링크 등의 웹 컨텐츠 정보를 수집한다. 그러나 악성 탐색(식별)은 내부 링크를 따라가는 User Navigation 방식이 아닌 외부 링크를 대상으로 악성을 식별한다. 외부 링크의 웹 컨텐츠가 도메인 내부 컨텐츠와 단절되어 있다면 비정상 컨텐츠로 판정한다. 링크가 단절된 비정상 컨텐츠는 추가 검증에 의하여 은닉 여부와 악성 여부를 정교하게 판정할 수 있다. 비정상 컨텐츠 탐지 방식은 활성상태의 악성 웹 컨텐츠를 탐지할 수 있다. 비 룰(Rule) 기반의 탐지 방식을 사용하여, 공격자의 룰(Rule) 탐지 우회가 불가능하며, 기 탐지되지 않은 새로운 악성 웹 주소를 탐지할 수 있으며, 미래에 출현 가능한 신규 악성 웹 주소를 탐지할 수 있다. 또한, 룰(Rule) 탐지를 위한 리소스 소모와 오랜 점검 시간 등의 단점을 해결할 수 있다.
실시예들은 안전한 인터넷 환경을 위하여 모든 웹 사이트를 조사하여 악성 웹 주소를 탐지하는 방식이다.
실시예들에 따르면 웹의 하이퍼링크 속성에 의해 은닉 특성을 가지는 악성 컨텐츠 공격에 대응하기 위하여 웹 컨텐츠의 가시화와 은닉 컨텐츠의 웹 접근 통제를 통해 웹사이트의 공격 피해 여부를 파악하고 웹사이트가 악용되지 않도록 보호할 수 있다.
다만, 본 발명의 효과는 상기 효과들로 한정되는 것은 아니며, 본 발명의 기술적 사상 및 영역으로부터 벗어나지 않는 범위에서 다양하게 확장될 수 있다.
도 1a은 기존의 은닉된 악성 웹 컨텐츠 탐지를 설명하기 위한 도면이고, 도 1b는 일 실시예에 따른 은닉된 악성 웹 컨텐츠 탐지를 설명하기 위한 도면이다.
도 2은 일 실시예에 있어서 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다.
도 3은 일 실시예에 따른 컴퓨터 시스템의 프로세서가 포함할 수 있는 구성요소를 나타내는 블록도이다.
도 4는 일 실시예에 따른 컴퓨터 시스템이 수행할 수 있는 비정상 웹 컨텐츠 탐지 방법을 나타내는 흐름도이다.
도 5는 실시예에 따른 컴퓨터 시스템의 프로세서가 포함할 수 있는 구성요소를 나타내는 블록도이다.
도 6은 실시예에 따른 컴퓨터 시스템이 수행할 수 있는 비정상 웹 컨텐츠 탐지 방법을 나타내는 흐름도이다.
도 7은 일 실시예에 따른 웹 컨텐츠를 식별하여 웹 컨텐츠 관리 목록을 처리하는 과정을 설명하기 위한 도면이다.
도 8은 일 실시예에 따른 은닉 컨텐츠 웹 접근 통제 방안을 설명하기 위한 도면이다.
도 9는 일 실시예에 따른 웹 요청에 따른 은닉 컨텐츠 웹 접근 통제 방안을 설명하기 위한 도면이다.
도 10은 일 실시예에 따른 웹 요청 응답에 따른 은닉 컨텐츠 웹 접근 통제 방안을 설명하기 위한 도면이다.
도 11은 일 실시예에 따른 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 시스템의 구조를 설명하기 위한 도면이다.
도 12는 일 실시예에 따른 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 시스템의 구성도를 나타내는 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며, 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예들을 보다 상세하게 설명하고자 한다. 도면 상의 동일한 구성요소에 대해서는 동일한 참조 부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
본 발명은 은닉된 악성 웹 주소를 탐지 및 검증하고, 웹 컨텐츠의 가시화를 위해 공개 컨텐츠 목록과 은닉 컨텐츠 목록을 조회하는 것을 그 요지로 한다.
여기서, 웹 컨텐츠는 웹 주소 또는 URL을 의미할 수 있다. 아래에서는 비정상 웹 컨텐츠의 일례로써 악성코드를 예로 들어 설명하나, 악성코드뿐 아니라 피싱이나 정보유출지, 명령제어서버 등을 포함할 수 있다.
이하에서는 도 1 내지 도 12를 참조하여 본 발명에 대해 상세히 설명한다.
도 1a은 기존의 은닉된 악성 웹 컨텐츠 탐지를 설명하기 위한 도면이다.
도 1a을 참조하면, 기존의 User Navigation 탐색 방식을 사용하는 웹 탐색 방식으로는 은닉된 악성코드를 유포하는 웹 사이트를 탐지하는 것이 불가능하다. 또한, 기존의 유포지 룰(Rule) 기반 악성코드 탐지 방식으로는 신규 악성코드의 유포지의 탐지가 어렵고, 악성코드가 사라진 무해한 경유지를 탐지하고 있어 비용과 시간이 낭비되고 있다. 여기서, 유포지는 악성코드가 위치한 웹 주소이고, 경유지는 유포지 링크를 가지는 웹 주소이다.
이와 같이, 기존의 User Navigation 탐색 방식은 내부 링크가 없는 은닉된 악성코드를 탐지할 수 없다. 여기서 User Navigation은 사용자 탐색 방식으로, 대메뉴와 소메뉴의 내부 링크를 따라 웹 컨텐츠를 탐색하는 방식이다.
도 1b는 일 실시예에 따른 은닉된 악성 웹 컨텐츠 탐지를 설명하기 위한 도면이다.
도 1b를 참조하면, 실시예들은 내부 링크를 순회하는 방식으로 은닉된 유포지를 탐지하지 못하는 기존 방식을 탈피하고, 디지털 체인 원리에 의해 악성코드가 존재하는 활성 상태의 유해한 유포지, 및 유해한 유포지와 연결된 경유지를 탐지할 수 있다.
여기서, 디지털 체인 원리는 다음과 같다. 정상적인 웹 컨텐츠는 디지털 체인으로 상호 유기적으로 연결된 형태를 가지나, 비정상 웹 컨텐츠는 디지털 체인이 단절된 형태를 갖는다. 여기서, 웹 컨텐츠는 웹 주소 또는 URL을 의미할 수 있다. 아래에서는 비정상 웹 컨텐츠의 일례로써 악성코드를 예를 들어 설명하나, 악성코드뿐 아니라 피싱이나 정보유출지, 명령제어서버 등을 포함할 수 있다.
실시예들에 따르면 User Navigation과 AI(Artificial Intelligence) 기술을 결합한 탐색 방식을 제공하며, 이를 통해 내부 링크 및 외부 링크를 탐색하여 악성코드를 탐지할 수 있다.
도 2은 일 실시예에 있어서 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다. 예를 들어, 본 발명의 실시예들에 따른 비정상 웹 컨텐츠 탐지 시스템이 도 2의 컴퓨터 시스템(200)을 통해 구현될 수 있다. 도 2에 도시한 바와 같이, 컴퓨터 시스템(200)은 비정상 웹 컨텐츠 탐지 방법을 실행하기 위한 구성요소로서 프로세서(210), 메모리(220), 영구 저장 장치(230), 버스(240), 입출력 인터페이스(250) 및 네트워크 인터페이스(260)를 포함할 수 있다.
프로세서(210)는 명령어들의 임의의 시퀀스를 처리할 수 있는 임의의 장치를 포함하거나 그의 일부일 수 있다. 프로세서(210)는 예를 들어 컴퓨터 프로세서, 이동 장치 또는 다른 전자 장치 내의 프로세서 및/또는 디지털 프로세서를 포함할 수 있다. 프로세서(210)는 예를 들어, 서버 컴퓨팅 디바이스, 서버 컴퓨터, 일련의 서버 컴퓨터들, 서버 팜, 클라우드 컴퓨터, 콘텐츠 플랫폼, 이동 컴퓨팅 장치, 스마트폰, 태블릿, 셋톱 박스, 미디어 플레이어 등에 포함될 수 있다. 프로세서(210)는 버스(240)를 통해 메모리(220)에 접속될 수 있다.
메모리(220)는 컴퓨터 시스템(200)에 의해 사용되거나 그에 의해 출력되는 정보를 저장하기 위한 휘발성 메모리, 영구, 가상 또는 기타 메모리를 포함할 수 있다. 메모리(220)는 예를 들어 랜덤 액세스 메모리(Random Access Memory, RAM) 및/또는 동적 RAM(Dynamic RAM, DRAM)을 포함할 수 있다. 메모리(220)는 컴퓨터 시스템(200)의 상태 정보와 같은 임의의 정보를 저장하는 데 사용될 수 있다. 메모리(220)는 예를 들어 비정상 웹 컨텐츠 탐지를 위한 명령어들을 포함하는 컴퓨터 시스템(200)의 명령어들을 저장하는 데에도 사용될 수 있다. 컴퓨터 시스템(200)은 필요에 따라 또는 적절한 경우에 하나 이상의 프로세서(210)를 포함할 수 있다.
버스(240)는 컴퓨터 시스템(200)의 다양한 컴포넌트들 사이의 상호작용을 가능하게 하는 통신 기반 구조를 포함할 수 있다. 버스(240)는 예를 들어 컴퓨터 시스템(200)의 컴포넌트들 사이에, 예를 들어 프로세서(210)와 메모리(220) 사이에 데이터를 운반할 수 있다. 버스(240)는 컴퓨터 시스템(200)의 컴포넌트들 간의 무선 및/또는 유선 통신 매체를 포함할 수 있으며, 병렬, 직렬 또는 다른 토폴로지 배열들을 포함할 수 있다.
영구 저장 장치(230)는 (예를 들어, 메모리(220)에 비해) 소정의 연장된 기간 동안 데이터를 저장하기 위해 컴퓨터 시스템(200)에 의해 사용되는 바와 같은 메모리 또는 다른 영구 저장 장치와 같은 컴포넌트들을 포함할 수 있다. 영구 저장 장치(230)는 컴퓨터 시스템(200) 내의 프로세서(210)에 의해 사용되는 바와 같은 비휘발성 메인 메모리를 포함할 수 있다. 영구 저장 장치(230)는 예를 들어 플래시 메모리, 하드 디스크, 광 디스크 또는 다른 컴퓨터 판독 가능 매체를 포함할 수 있다.
입출력 인터페이스(250)는 키보드, 마우스, 음성 명령 입력, 디스플레이 또는 다른 입력 또는 출력 장치에 대한 인터페이스들을 포함할 수 있다. 구성 명령들 및/또는 비정상 웹 컨텐츠 탐지를 위한 데이터가 입출력 인터페이스(250)를 통해 수신될 수 있다.
네트워크 인터페이스(260)는 근거리 네트워크 또는 인터넷과 같은 네트워크들에 대한 하나 이상의 인터페이스를 포함할 수 있다. 네트워크 인터페이스(260)는 유선 또는 무선 접속들에 대한 인터페이스들을 포함할 수 있다. 구성 명령들 및/또는 비정상 웹 컨텐츠 탐지를 위한 데이터는 네트워크 인터페이스(260)를 통해 수신될 수 있다.
또한, 다른 실시예들에서 컴퓨터 시스템(200)은 도 2의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다.
도 3은 일 실시예에 따른 컴퓨터 시스템의 프로세서가 포함할 수 있는 구성요소를 나타내는 블록도이고, 도 4는 일 실시예에 따른 컴퓨터 시스템이 수행할 수 있는 비정상 웹 컨텐츠 탐지 방법을 나타내는 흐름도이다.
도 3에 도시된 바와 같이, 프로세서(210)는 정보 수집부(310), 컨텐츠 식별부(320), 컨텐츠 분류부(330) 및 컨텐츠 처리부(340)를 포함할 수 있다. 여기서 프로세서(210)는 비정상 웹 컨텐츠 탐지 시스템으로 언급될 수 있다. 이러한 프로세서(210)의 구성요소들은 적어도 하나의 프로그램 코드에 의해 제공되는 제어 명령에 따라 프로세서(210)에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 예를 들어, 프로세서(210)가 크롤러를 이용하여 웹 사이트의 내부 링크 및 외부 링크를 순회하며 정보를 수집하도록 컴퓨터 시스템(200)을 제어하기 위해 동작하는 기능적 표현으로서 정보 수집부(310)가 사용될 수 있다. 프로세서(210) 및 프로세서(210)의 구성요소들은 도 4의 비정상 웹 컨텐츠 탐지 방법이 포함하는 단계들(S410 내지 S440)을 수행할 수 있다. 예를 들어, 프로세서(210) 및 프로세서(210)의 구성요소들은 메모리(220)가 포함하는 운영체제의 코드와 상술한 적어도 하나의 프로그램 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. 여기서 적어도 하나의 프로그램 코드는 상기 비정상 웹 컨텐츠 탐지 방법을 처리하기 위해 구현된 프로그램의 코드에 대응될 수 있다.
일 실시예에 따른 컴퓨터 장치에 의해 수행되는 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법은, 크롤러를 이용하여 웹 사이트의 내부 링크 및 외부 링크를 순회하며 정보를 수집하는 단계(S410), 수집된 정보를 기반으로 내부 링크 및 외부 링크의 연결 또는 단절 상태를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별하는 단계(S420), 및 식별된 정상 웹 컨텐츠 및 비정상 웹 컨텐츠를 공개 컨텐츠 목록 및 은닉 컨텐츠 목록으로 리스트화하는 단계(S430)를 포함할 수 있다. 또한, 1차적으로 식별된 정상 또는 비정상 웹 컨텐츠에 대해 AI(Artificial Intelligence) 모델을 통해 정상 또는 비정상 웹 컨텐츠를 검증하는 단계(S440)를 더 포함할 수 있다.
비정상 웹 컨텐츠 탐지 방법은 도시된 순서대로 발생하지 않을 수 있으며, 단계들 중 일부가 생략되거나 추가의 과정이 더 포함될 수 있다.
단계(S410)에서, 정보 수집부(310)는 크롤러를 이용하여 웹 사이트의 내부 링크 및 외부 링크를 순회하며 정보를 수집할 수 있다. 보다 구체적으로, 정보 수집부(310)는 크롤러 서버에 검증 요청 도메인이 전송됨에 따라 크롤러를 이용하여 검증 요청 도메인의 내부 링크 및 외부 링크를 순회하여 정보를 수집할 수 있다. 이 때, 정보 수집부(310)는 크롤러의 실시간 크롤링을 위해 크롤러 서버를 분산 형태로 구성할 수 있다.
여기서, 크롤러는 국내 및 국외 도메인/위협 도메인에 대해 크롤링을 수행하며, 내부 및 외부 링크를 순회하며 은닉된 유포지(URL)를 탐지할 수 있다. 이 때 링크만을 이용하여 의심 URL을 1차적으로 식별할 수 있다.
단계(S420)에서, 컨텐츠 식별부(320)는 수집된 정보를 기반으로 내부 링크 및 외부 링크의 연결 또는 단절 상태를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별할 수 있다. 보다 구체적으로, 컨텐츠 식별부(320)는 크롤러 서버에서 수집된 정보를 기반으로 내부 링크 및 외부 링크의 연결 또는 단절 상태를 이용하여 1차적으로 정상 또는 비정상 웹 컨텐츠를 식별한 후, 의심 URL 데이터를 전송할 수 있다.
컨텐츠 식별부(320)는 웹 사이트에서 정상 웹 컨텐츠의 경우 디지털 체인으로 상호 유기적으로 연결된 구조를 형성하며, 비정상 웹 컨텐츠의 경우 디지털 체인이 단절된 구조를 형성하는 디지털 체인 원리를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별할 수 있다.
단계(S430)에서, 컨텐츠 분류부(330)는 리스트화된 공개 컨텐츠 목록 및 은닉 컨텐츠 목록을 이용하여 웹 컨텐츠의 요청(REQUEST) 또는 응답(RESPONSE)을 점검할 수 있다. 보다 구체적으로, 컨텐츠 분류부(330)는 분류하여 상기 공개 컨텐츠 목록 및 상기 은닉 컨텐츠 목록을 이용하여 웹 컨텐츠의 요청(REQUEST) 또는 응답(RESPONSE)을 점검하고, 해당 요청 또는 응답이 은닉 컨텐츠에 대한 것인지 여부를 탐지하여 공개 컨텐츠 또는 은닉 컨텐츠를 분류할 수 있다.
단계(S440)에서, 컨텐츠 처리부(340)는 1차적으로 식별된 정상 또는 비정상 웹 컨텐츠에 대해 AI(Artificial Intelligence) 모델을 통해 정상 또는 비정상 웹 컨텐츠를 검증할 수 있다. 또한, 컨텐츠 처리부(340)는 은닉 컨텐츠에 대한 접근과 실행을 차단할 수 있다. 보다 구체적으로, 컨텐츠 처리부(340)는 AI 서버에서 AI 모델을 통해 정상 또는 비정상 웹 컨텐츠를 검증한 후, 웹 데이터베이스에 결과를 전송하여 판정 결과를 저장할 수 있다. 여기서, 검증하기 전에 메타 데이터 및/또는 도메인 정보를 크롤링하는 작업이 수행될 수 있다. 즉, 인공지능 탐지 전에 의심 도메인의 도메인 관련 메타 정보를 크롤링하여 수집할 수 있다.
또한, 컨텐츠 처리부(340)는 컨텐츠 분류부(330)에서 해당 웹 컨텐츠가 은닉 컨텐츠로 분류되면, 해당 콘텐츠의 요청(REQUEST) 또는 응답(RESPONSE)을 통제하여 은닉 컨텐츠에 대한 접근과 실행을 차단할 수 있다. 보다 구체적으로, 웹 컨텐츠의 요청(REQUEST) 또는 응답(RESPONSE)이 있는 경우, 컨텐츠 분류부(330)는 이를 점검하여 공개 컨텐츠 목록을 조회하고, 해당 컨텐츠의 요청(REQUEST) 또는 응답(RESPONSE)이 은닉 컨텐츠에 대한 것임을 탐지하며, 은닉 컨텐츠인 경우, 컨텐츠 처리부(340)는 해당 콘텐츠의 요청(REQUEST) 또는 응답(RESPONSE)을 통제하여 은닉 컨텐츠에 대한 접근과 실행을 차단할 수 있다.
여기서, AI 모델은 탐색 도메인을 선별하고, 위협 데이터를 수집 및 정제할 수 있다. 또한, AI 모델은 멀티 모달에 의한 복합 모델을 구성하여 유포지를 탐지할 수 있다.
컨텐츠 처리부(340)는 악성코드의 유포지와 경유지에 대한 빅데이터 특성 기반 인공지능 탐지를 통해 정상 또는 비정상 웹 컨텐츠를 검증할 수 있다. 특히, 컨텐츠 처리부(340)는 비 룰(Rule) 기반 탐지 방식을 이용하여, 악성코드가 살아있는 유포지와 경유지를 동시에 탐지하여, 악성코드를 유포하는 URL을 탐지할 수 있다.
도 5는 실시예에 따른 컴퓨터 시스템의 프로세서가 포함할 수 있는 구성요소를 나타내는 블록도이고, 도 6은 실시예에 따른 컴퓨터 시스템이 수행할 수 있는 비정상 웹 컨텐츠 탐지 방법을 나타내는 흐름도이다.
도 5에 도시된 바와 같이, 프로세서(210)는 정보 수집부(510), 컨텐츠 식별부(520) 및 컨텐츠 검증부(530)를 포함할 수 있다. 여기서 프로세서(210)는 비정상 웹 컨텐츠 탐지 시스템으로 언급될 수 있다. 이러한 프로세서(210)의 구성요소들은 적어도 하나의 프로그램 코드에 의해 제공되는 제어 명령에 따라 프로세서(210)에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 예를 들어, 프로세서(210)가 크롤러를 이용하여 웹 사이트의 내부 링크 및 외부 링크를 순회하며 정보를 수집하도록 컴퓨터 시스템(200)을 제어하기 위해 동작하는 기능적 표현으로서 정보 수집부(510)가 사용될 수 있다. 프로세서(210) 및 프로세서(210)의 구성요소들은 도 6의 비정상 웹 컨텐츠 탐지 방법이 포함하는 단계들(S610 내지 S630)을 수행할 수 있다. 예를 들어, 프로세서(210) 및 프로세서(210)의 구성요소들은 메모리(220)가 포함하는 운영체제의 코드와 상술한 적어도 하나의 프로그램 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. 여기서 적어도 하나의 프로그램 코드는 상기 비정상 웹 컨텐츠 탐지 방법을 처리하기 위해 구현된 프로그램의 코드에 대응될 수 있다.
실시예에 따른 컴퓨터 장치에 의해 수행되는 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법은, 크롤러를 이용하여 웹 사이트의 내부 링크 및 외부 링크를 순회하며 정보를 수집하는 단계(S610), 및 수집된 정보를 기반으로 내부 링크 및 외부 링크의 연결 또는 단절 상태를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별하는 단계(S620)를 포함할 수 있다. 또한, 1차적으로 식별된 정상 또는 비정상 웹 컨텐츠에 대해 AI(Artificial Intelligence) 모델을 통해 정상 또는 비정상 웹 컨텐츠를 검증하는 단계(S630)를 더 포함할 수 있다.
비정상 웹 컨텐츠 탐지 방법은 도시된 순서대로 발생하지 않을 수 있으며, 단계들 중 일부가 생략되거나 추가의 과정이 더 포함될 수 있다.
단계(S610)에서, 정보 수집부(510)는 크롤러를 이용하여 웹 사이트의 내부 링크 및 외부 링크를 순회하며 정보를 수집할 수 있다. 보다 구체적으로, 정보 수집부(510)는 크롤러 서버에 검증 요청 도메인이 전송됨에 따라 크롤러를 이용하여 검증 요청 도메인의 내부 링크 및 외부 링크를 순회하여 정보를 수집할 수 있다. 이 때, 정보 수집부(510)는 크롤러의 실시간 크롤링을 위해 크롤러 서버를 분산 형태로 구성할 수 있다.
여기서, 크롤러는 국내 및 국외 도메인/위협 도메인에 대해 크롤링을 수행하며, 내부 및 외부 링크를 순회하며 은닉된 유포지(URL)를 탐지할 수 있다. 이 때 링크만을 이용하여 의심 URL을 1차적으로 식별할 수 있다.
단계(S620)에서, 컨텐츠 식별부(520)는 수집된 정보를 기반으로 내부 링크 및 외부 링크의 연결 또는 단절 상태를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별할 수 있다. 보다 구체적으로, 컨텐츠 식별부(520)는 크롤러 서버에서 수집된 정보를 기반으로 내부 링크 및 외부 링크의 연결 또는 단절 상태를 이용하여 1차적으로 정상 또는 비정상 웹 컨텐츠를 식별한 후, 의심 URL 데이터를 전송할 수 있다.
컨텐츠 식별부(520)는 웹 사이트에서 정상 웹 컨텐츠의 경우 디지털 체인으로 상호 유기적으로 연결된 구조를 형성하며, 비정상 웹 컨텐츠의 경우 디지털 체인이 단절된 구조를 형성하는 디지털 체인 원리를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별할 수 있다.
단계(S630)에서, 컨텐츠 검증부(530)는 1차적으로 식별된 정상 또는 비정상 웹 컨텐츠에 대해 AI(Artificial Intelligence) 모델을 통해 정상 또는 비정상 웹 컨텐츠를 검증할 수 있다. 보다 구체적으로, 컨텐츠 검증부(530)는 AI 서버에서 AI 모델을 통해 정상 또는 비정상 웹 컨텐츠를 검증한 후, 웹 데이터베이스에 결과를 전송하여 판정 결과를 저장할 수 있다. 여기서, 검증하기 전에 메타 데이터 및/또는 도메인 정보를 크롤링하는 작업이 수행될 수 있다. 즉, 인공지능 탐지 전에 의심 도메인의 도메인 관련 메타 정보를 크롤링하여 수집할 수 있다.
여기서, AI 모델은 탐색 도메인을 선별하고, 위협 데이터를 수집 및 정제할 수 있다. 또한, AI 모델은 멀티 모달에 의한 복합 모델을 구성하여 유포지를 탐지할 수 있다.
컨텐츠 검증부(530)는 악성코드의 유포지와 경유지에 대한 빅데이터 특성 기반 인공지능 탐지를 통해 정상 또는 비정상 웹 컨텐츠를 검증할 수 있다. 특히, 컨텐츠 검증부(530)는 비 룰(Rule) 기반 탐지 방식을 이용하여, 악성코드가 살아있는 유포지와 경유지를 동시에 탐지하여, 악성코드를 유포하는 URL을 탐지할 수 있다.
도 7은 일 실시예에 따른 웹 컨텐츠를 식별하여 웹 컨텐츠 관리 목록을 처리하는 과정을 설명하기 위한 도면이다. 도 8은 일 실시예에 따른 은닉 컨텐츠 웹 접근 통제 방안을 설명하기 위한 도면이며, 도 9는 일 실시예에 따른 웹 요청에 따른 은닉 컨텐츠 웹 접근 통제 방안을 설명하기 위한 도면이고, 도 10은 일 실시예에 따른 웹 요청 응답에 따른 은닉 컨텐츠 웹 접근 통제 방안을 설명하기 위한 도면이다.
도 7 및 도 8을 참조하면, 일 실시예에 따른 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 시스템은 웹 사이트를 순회하며 내부 링크를 따라 웹 컨텐츠의 가시화를 위해 공개 컨텐츠 목록과 은닉 컨텐츠 목록을 생성하며, 공개 컨텐츠 목록(회원 권한 컨텐츠 등) 및 은닉 컨텐츠 목록은 주기적으로 목록 업데이트한다.
일 실시예에 따른 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 시스템은 웹사이트(830)에서 하이퍼링크를 따라(웹사이트 내부 링크) 웹 컨텐츠를 크롤링하여 공개 컨텐츠 목록(840)을 생성한다. 하이퍼링크에는 onClick() 등 마우스 이벤트에 따라 연결되는 웹 컨텐츠 목록을 포함할 수 있다.
또한, 로그인에 의해 접근 가능한 컨텐츠 역시 모두 공개 컨텐츠로 간주한다. 이 때, 은닉 컨텐츠는 내부 링크가 없는 컨텐츠를 의미한다. 이것은 사용자(810)가 메인페이지를 중심으로 링크를 따라 접근이 불가능한 컨텐츠를 나타내며, 공격자(820)가 숨겨둔 컨텐츠 또는 개발자나 운영자가 실수로 웹 디렉터리에 저장한 컨텐츠를 나타낼 수 있다.
은닉 컨텐츠 목록은 웹서버 외부에서 생성한다.
웹서버 외부에서 웹 서비스로 들어오는 요청(request) 또는 응답(response)을 점검하여 해당 컨텐츠가 공개 컨텐츠가 아닌 경우 은닉 컨텐츠로 간주하고 은닉 컨텐츠 목록을 생성할 수 있다. 이 때, 일 실시예에 따른 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 시스템은 웹 접근 통제 방안으로, 웹 컨텐츠 요청(request) 또는 요청에 대한 응답(response)을 점검하여 가시화된 웹 컨텐츠 목록을 토대로 은닉 컨텐츠를 식별하고 은닉 컨텐츠 접근을 통제할 수 있다.
보다 구체적으로 도 9 및 도 10을 참조하여 웹 접근 통제 방안에 대해 설명하자면, 일 실시예에 따른 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 시스템은 단계 S910 및 단계 S1010 이전에 웹 서비스의 컨텐츠를 크롤링하여 공개된 웹 컨텐츠를 식별하고, 웹 컨텐츠 관리 목록(공개 컨텐츠 목록 및 은닉 컨텐츠 목록)을 저장한다. 이 때, 원활한 웹 서비스 처리를 위하여 링크가 단절된 은닉 상태이나 정상적인 웹 컨텐츠라고 검증된 경우, 접속 및 실행을 허용하고 웹 컨텐츠 관리 목록에 저장할 수 있다.
이후에, 일 실시예에 따른 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 시스템은 단계 S910에서 웹 서비스로 들어오는 웹 컨텐츠 요청에 따라 공개 콘텐츠 목록을 조회하고(단계 S920), 공개된 컨텐츠인지 은닉된 컨텐츠인지를 비교한다(단계 S930). 이에, 공개된 정상 컨텐츠인 경우에는 접속을 허용하고(단계 S940), 은닉된 비정상 컨텐츠인 경우에는 접속을 차단, 통제하여 은닉된 비정상 컨텐츠에 대한 접근과 실행을 차단한다(단계 S950).
또한, 일 실시예에 따른 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 시스템은 단계 S1010에서 웹 서비스로 들어오는 요청에 대해 응답하는 웹 컨텐츠의 공개 콘텐츠 목록을 조회하고(단계 S1020), 공개된 컨텐츠인지 은닉된 컨텐츠인지를 비교한다(단계 S1030). 이에, 공개된 정상 컨텐츠인 경우에는 요청(응답)을 허용하고(단계 S1040), 은닉된 비정상 컨텐츠인 경우에는 요청(응답)을 차단, 통제하여 은닉된 비정상 컨텐츠에 대한 접근과 실행을 차단한다(단계 S1050).
일 실시예에 따른 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 시스템은 은닉된 비정상 컨텐츠인 경우에, 은닉된 비정상 컨텐츠에 대하여 웹 관리자에게 알람을 보낼 수 있다. 또한, 은닉된 비정상 컨텐츠를 웹 컨텐츠 관리 목록에 저장하고 업데이트하며, 은닉된 비정상 컨텐츠에 대한 요청(응답)과 통제 내용을 로그에 저장한다.
일 실시예에 따른 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 시스템은 1) 공격자가 악성코드 등 악성 컨텐츠를 웹 서버에 숨겨두었는지를 탐지, 2) 공격자가 웹서비스를 통해 기업 내부에 침투하기 위해 은닉된 웹셸 악성코드를 실행하는지를 탐지, 3) 은닉 컨텐츠 기반 웹셸 실행 요청을 탐지하고 이를 차단, 및 4) 웹 사이트 외부에 설치하여 웹셸을 탐지하는 방식을 이용함으로써, 웹 컨텐츠의 가시화와 은닉 컨텐츠의 웹 접근 통제를 통해 웹셸 등의 악성 컨텐츠 탐지 및 대응이 가능하다.
도 11은 일 실시예에 따른 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 시스템의 구조를 설명하기 위한 도면이다.
도 11을 참조하면, 일 실시예에 따른 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 시스템은 디지털 체인 원리 및 빅데이터 기반 AI 모델을 통해 악성코드의 웹 주소를 탐지할 수 있다. 실시예들은 디지털 체인 원리에 의해 1차 식별된 웹 컨텐츠에 대해 악성을 검증하는 인공지능(AI) 기술을 설명하기 위한 도면이다.
악성 웹 컨텐츠를 검증 하기 위한 인공지능 모델은 도면 11과 같다.
데이터 소스에는 내 외부 링크와 URL 정보, 도메인 정보, 컨텐츠의 메타 정보, 스크립트와 HTML 등을 사용한다. 수집된 데이터는 빅데이터 처리를 위해 no SQL 서버인 몽고 DB 에 저장된다.
모델 생성을 위한 알고리즘에는 분류/회귀 알고리즘과 클러스터링 알고리즘, 딥러닝을 사용한다. 모델 처리 과정은 데이터 전처리를 위해 데이터 분석과 데이터 변환, 특징 선정 과정을 거치며 모델 학습에서는 모델 구축과 모델 평가, 모델 최적화를 진행합니다. 모델의 예측과 분석 과정에서는 모델 분석과 모델 모니터링, 예측 결과의 시각화를 수행한다.
데이터 수집과 모델 생성을 통해 최종 6종의 단일모델과 복합모델이 생성되고, 디지털 체인 검증 모델과 링크 검증 모델, URL 모델, 도메인 모델, HTML과 스크립트 모델이 생성된다.
디지털 체인 원리는 디지털 서비스에서 데이터는 상호 유기적으로 연결된 구조를 가지나 비정상 웹 컨텐츠는 이러한 디지털 체인이 단절된 구조를 가진다. 보다 구체적으로, 정상적인 웹 컨텐츠는 디지털 체인으로 상호 유기적으로 연결되어 있는 구조이며, 비정상 컨텐츠(즉, 유포지)는 정상적인 웹 컨텐츠와 달리 “내부 링크”가 없는 디지털 체인이 단절된 형태이다. 이에 따라 실시예들은 내부 및 외부 링크의 연결과 단절 상태를 이용하여 정상과 비정상 웹 컨텐츠를 식별할 수 있다.
또한, 빅데이터 기반 AI 모델은 빅데이터를 기반으로 비정상 URL과 정상 URL의 특성을 찾아 AI 기반으로 자동 탐지할 수 있다.
일 실시예에 따른 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 시스템은 내부 및 외부 URL을 탐색하기 위한 웹 크롤러가 구성되며, 디지털 체인 기반 URL 탐색 및 비정상 검증을 수행할 수 있고, 수집된 크롤러의 정보를 기반으로 비정상 유무를 판정하는 AI 모델을 통해 비정상 URL를 탐지하고, URL의 비정상 여부를 검증하는 웹 서비스를 제공할 수 있다. 이 때, 데이터는 정상, 경유지 및 유포지로 구분될 수 있다.
도 12는 일 실시예에 따른 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 시스템의 구성도를 나타내는 도면이다.
도 12를 참조하면, 일 실시예에 따른 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 시스템은 URL 검증 요청을 웹 서버(1210)에 전달할 수 있다. 웹 서버(1210)는 URL 검증 요청을 받아 검증이 완료된 후 검증 결과를 다시 전달할 수 있다. 이 때, 검증은 AI 서버(1220) 및 크롤링 서버(1230)에 의해 진행될 수 있고, 웹 서버(1210)는 AI 서버(1220) 및 크롤링 서버(1230)로부터 검증 후 검증 결과를 전달 받을 수 있다.
크롤링 서버(1230)는 디지털 체인을 탐색하고, 도메인을 순회하여 다양한 피처를 수집할 수 있다. 또한, AI 서버(1220)는 비정상 웹 URL을 분류하고 디지털 체인을 검증할 수 있다. 더욱이 레이블 서버(1240)는 URL 레이블을 표시할 수 있다. 여기서, 웹 데이터베이스(1250)는 디지털 체인 검증 결과 및 AI 판정 결과를 저장할 수 있고, 빅데이터 데이터베이스(1260)는 크롤링 결과를 저장하고, 도메인 정보 및 AI 피처를 저장할 수 있다. 또한, 글로벌 위협 정보 회사(1270)와 연계하여 데이터를 실시간으로 확보하고 검증 기술을 교류할 수 있다.
실시예들은 비 룰(Rule) 기반 탐지 방식을 이용하여, 악성코드가 살아있는 유포지와 경유지를 동시에 탐지할 수 있다. 이에 따라 악성코드를 유포하는 URL을 탐지할 수 있다.
이를 위해, 실시예들은 학습 데이터를 확보할 수 있다. 예를 들어 자체 수집 비정상 URL 데이터 및 글로벌 위협정보 회사와 연계하여 데이터 실시간 확보 및 검증 기술 교류를 통해 학습 데이터를 확보할 수 있다.
또한, 실시예들은 디지털 체인 AI 모델의 탐지 성능을 개선할 수 있는 서브 기술을 개발하고 정교화할 수 있다. 예컨대, 도메인 선별 기준을 설정하고, 다양한 특징을 활용한 정상/비정상 식별 성능을 개선할 수 있다.
이와 같이, 기존 기술 대비 실시예들은 악성코드를 유포하는 URL 탐색 방식, 악성코드를 유포하는 검증 방식 및 유포지 룰(Rule)을 사용하지 않은 특성이 있다.
기존에는 악성코드를 유포하는 URL을 탐지하는 방식은 User Navigation 방식을 이용하여 크롤러가 내부 링크만을 순회하는 방식을 사용함에 따라 은닉된 유포지의 탐지가 불가능하였다.
기존의 악성코드를 유포하는 검증 방식은 HTML 소스 검증 및 다운로드 파일(exe) 검증을 사용하여 검증 시간이 오래 걸리고, 과도한 리소스 점유율, 필요 시간 증가 등 웹 페이지 내부 소스코드 전수 조사로 인한 과부하가 발생한다. 또한, 난독화되어 있는 소스코드는 검증이 불가능하다.
기존의 유포지 룰(Rule) 사용 방식은 무해한(Harmless) 유포지 룰(Rule) 기반 무해한 경유지를 탐지한다. 이에 따라 신규 유포지의 탐지가 불가능하고 악성코드를 유포하는 URL의 탐지가 불가능하다.
실시예들은 디지털 체인 원리 및 User Navigation 방식을 이용하여 크롤러를 통해 내부 링크뿐 아니라 외부 링크까지 순회하는 방식을 사용함으로써 은닉된 유포지, 즉 악성코드를 유포하는 URL을 탐지할 수 있다.
실시예들에 따른 악성코드를 유포하는 검증 방식은 디지털 체인 이론을 적용하여 빠른 검증이 가능하며, 1차적으로 비정상 의심 URL을 필터링하여 검증 대상 수를 대폭 줄일 수 있다. 또한, 실시예들은 유포지와 경유지의 다양한 빅데이터 특성 기반 인공지능 탐지를 통해 검증 속도가 빠르다.
이상에서 설명된 시스템 또는 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(Field Programmable Gate Array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (19)

  1. 컴퓨터 장치에 의해 수행되는 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법에 있어서,
    크롤러를 이용하여 웹 사이트의 내부 링크 및 외부 링크를 순회하며 정보를 수집하는 단계;
    수집된 상기 정보를 기반으로 상기 내부 링크 및 외부 링크의 연결 또는 단절 상태를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별하는 단계; 및
    리스트화된 공개 컨텐츠 목록 및 은닉 컨텐츠 목록을 이용하여 상기 정상 또는 비정상 웹 컨텐츠의 요청(REQUEST) 또는 응답(RESPONSE)을 점검하는 단계
    를 포함하고,
    상기 정상 또는 비정상 웹 컨텐츠를 식별하는 단계는,
    웹 사이트에서 정상 웹 컨텐츠의 경우 디지털 체인으로 상호 유기적으로 연결된 구조를 형성하며, 비정상 웹 컨텐츠의 경우 디지털 체인이 단절된 구조를 형성하는 디지털 체인 원리를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별하는, 비정상 웹 컨텐츠 탐지 방법.
  2. 제1항에 있어서,
    1차적으로 식별된 상기 정상 또는 비정상 웹 컨텐츠에 대해 AI(Artificial Intelligence) 모델을 통해 정상 또는 비정상 웹 컨텐츠를 검증하는 단계
    를 더 포함하는, 비정상 웹 컨텐츠 탐지 방법.
  3. 제2항에 있어서,
    상기 점검하는 단계는
    상기 공개 컨텐츠 목록 및 상기 은닉 컨텐츠 목록을 이용하여 웹 컨텐츠의 요청(REQUEST) 또는 응답(RESPONSE)을 조회하고, 해당 요청 또는 응답이 은닉 컨텐츠에 대한 것인지 여부를 탐지하여 공개 컨텐츠 또는 은닉 컨텐츠를 분류하는 것
    을 특징으로 하는, 비정상 웹 컨텐츠 탐지 방법.
  4. 제3항에 있어서,
    상기 검증하는 단계는
    상기 은닉 컨텐츠인 경우, 해당 요청(REQUEST) 또는 응답(RESPONSE)을 통제하여 상기 은닉 컨텐츠에 대한 접근과 실행을 차단하는 것
    을 특징으로 하는, 비정상 웹 컨텐츠 탐지 방법.
  5. 제1항에 있어서,
    상기 비정상 웹 컨텐츠 탐지 방법은
    상기 공개 컨텐츠 목록과 상기 은닉 컨텐츠 목록을 웹서버 외부에서 관리하며, 웹서버 외부에서 관리되는 목록을 기반으로 상기 은닉 컨텐츠를 검증하는 것
    을 특징으로 하는, 비정상 웹 컨텐츠 탐지 방법.
  6. 제1항에 있어서,
    상기 수집하는 단계는
    크롤러 서버에 검증 요청 도메인이 전송됨에 따라 상기 크롤러를 이용하여 상기 검증 요청 도메인의 내부 링크 및 외부 링크를 순회하여 정보를 수집하는 것
    을 특징으로 하는, 비정상 웹 컨텐츠 탐지 방법.
  7. 제6항에 있어서,
    상기 식별하는 단계는
    상기 크롤러 서버에서 수집된 상기 정보를 기반으로 상기 내부 링크 및 외부 링크의 연결 또는 단절 상태를 이용하여 1차적으로 정상 또는 비정상 웹 컨텐츠를 식별한 후, 의신 URL 데이터를 전송하는 것
    을 특징으로 하는, 비정상 웹 컨텐츠 탐지 방법.
  8. 제1항에 있어서,
    상기 수집하는 단계는
    상기 크롤러의 실시간 크롤링을 위해 크롤러 서버를 분산 형태로 구성하는 것
    을 특징으로 하는, 비정상 웹 컨텐츠 탐지 방법.
  9. 제2항에 있어서,
    상기 검증하는 단계는
    악성코드의 유포지와 경유지에 대한 빅데이터 특성 기반 인공지능 탐지를 통해 정상 또는 비정상 웹 컨텐츠를 검증하는 것
    을 특징으로 하는, 비정상 웹 컨텐츠 탐지 방법.
  10. 제2항에 있어서,
    상기 검증하는 단계는
    비 룰(Rule) 기반 탐지 방식을 이용하여, 악성코드가 살아있는 유포지와 경유지를 동시에 탐지하여, 악성코드를 유포하는 URL을 탐지하는 것
    을 특징으로 하는, 비정상 웹 컨텐츠 탐지 방법.
  11. 제2항에 있어서,
    상기 검증하는 단계는
    AI 서버에서 상기 AI 모델을 통해 정상 또는 비정상 웹 컨텐츠를 검증한 후, 웹 데이터베이스에 결과를 전송하여 판정 결과를 저장하는 것
    을 특징으로 하는, 비정상 웹 컨텐츠 탐지 방법.
  12. 컴퓨터 장치에 의해 수행되는 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법에 있어서,
    크롤러를 이용하여 웹 사이트의 내부 링크 및 외부 링크를 순회하며 정보를 수집하는 단계; 및
    수집된 상기 정보를 기반으로 상기 내부 링크 및 외부 링크의 연결 또는 단절 상태를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별하는 단계
    를 포함하고,
    상기 정상 또는 비정상 웹 컨텐츠를 식별하는 단계는,
    웹 사이트에서 정상 웹 컨텐츠의 경우 디지털 체인으로 상호 유기적으로 연결된 구조를 형성하며, 비정상 웹 컨텐츠의 경우 디지털 체인이 단절된 구조를 형성하는 디지털 체인 원리를 이용하여 정상 또는 비정상 웹 컨텐츠를 식별하는, 비정상 웹 컨텐츠 탐지 방법.
  13. 제12항에 있어서,
    1차적으로 식별된 상기 정상 또는 비정상 웹 컨텐츠에 대해 AI(Artificial Intelligence) 모델을 통해 정상 또는 비정상 웹 컨텐츠를 검증하는 단계
    를 더 포함하는, 비정상 웹 컨텐츠 탐지 방법.
  14. 제12항에 있어서,
    상기 내부 링크 및 외부 링크를 순회하며 정보를 수집하는 단계는,
    크롤러 서버에 검증 요청 도메인이 전송됨에 따라 상기 크롤러를 이용하여 상기 검증 요청 도메인의 내부 링크 및 외부 링크를 순회하여 정보를 수집하는 것
    을 특징으로 하는, 비정상 웹 컨텐츠 탐지 방법.
  15. 제14항에 있어서,
    상기 정상 또는 비정상 웹 컨텐츠를 식별하는 단계는,
    상기 크롤러 서버에서 수집된 상기 정보를 기반으로 상기 내부 링크 및 외부 링크의 연결 또는 단절 상태를 이용하여 1차적으로 정상 또는 비정상 웹 컨텐츠를 식별한 후, 의심 URL 데이터를 전송하는 것
    을 특징으로 하는, 비정상 웹 컨텐츠 탐지 방법.
  16. 제12항에 있어서,
    상기 내부 링크 및 외부 링크를 순회하며 정보를 수집하는 단계는,
    상기 크롤러의 실시간 크롤링을 위해 크롤러 서버를 분산 형태로 구성하는 것
    을 특징으로 하는, 비정상 웹 컨텐츠 탐지 방법.
  17. 제13항에 있어서,
    상기 AI 모델을 통해 정상 또는 비정상 웹 컨텐츠를 검증하는 단계는,
    악성코드의 유포지와 경유지에 대한 빅데이터 특성 기반 인공지능 탐지를 통해 정상 또는 비정상 웹 컨텐츠를 검증하는 것
    을 특징으로 하는, 비정상 웹 컨텐츠 탐지 방법.
  18. 제13항에 있어서,
    상기 AI 모델을 통해 정상 또는 비정상 웹 컨텐츠를 검증하는 단계는,
    비 룰(Rule) 기반 탐지 방식을 이용하여, 악성코드가 살아있는 유포지와 경유지를 동시에 탐지하여, 악성코드를 유포하는 URL을 탐지하는 것
    을 특징으로 하는, 비정상 웹 컨텐츠 탐지 방법.
  19. 제13항에 있어서,
    상기 AI 모델을 통해 정상 또는 비정상 웹 컨텐츠를 검증하는 단계는,
    AI 서버에서 상기 AI 모델을 통해 정상 또는 비정상 웹 컨텐츠를 검증한 후, 웹 데이터베이스에 결과를 전송하여 판정 결과를 저장하는 것
    을 특징으로 하는, 비정상 웹 컨텐츠 탐지 방법.
PCT/KR2023/018079 2022-11-18 2023-11-10 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법 및 시스템 WO2024106860A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2022-0155254 2022-11-18
KR1020220155254A KR20240073433A (ko) 2022-11-18 2022-11-18 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법 및 시스템

Publications (1)

Publication Number Publication Date
WO2024106860A1 true WO2024106860A1 (ko) 2024-05-23

Family

ID=91085118

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/018079 WO2024106860A1 (ko) 2022-11-18 2023-11-10 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법 및 시스템

Country Status (2)

Country Link
KR (1) KR20240073433A (ko)
WO (1) WO2024106860A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101052443B1 (ko) * 2009-05-15 2011-07-28 주식회사 엔에스에이치씨 악성코드 분석 방법 및 시스템
KR101567967B1 (ko) * 2015-05-15 2015-11-11 주식회사 블랙포트시큐리티 악성코드 유포지 실시간 탐지/수집 장치 및 방법
US20170180402A1 (en) * 2015-12-18 2017-06-22 F-Secure Corporation Detection of Coordinated Cyber-Attacks
KR101865378B1 (ko) * 2018-01-31 2018-06-07 주식회사 에프원시큐리티 웹 쉘 탐지 시스템
KR20220057426A (ko) * 2020-10-29 2022-05-09 한국인터넷진흥원 Url과 연관된 콘텐츠와 호스트 데이터를 고려한 악성 url 예측 방법 및 이를 구현하기 위한 장치

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101428727B1 (ko) 2012-11-09 2014-08-12 한국인터넷진흥원 악성코드 최종 유포지 및 경유지 탐지 시스템 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101052443B1 (ko) * 2009-05-15 2011-07-28 주식회사 엔에스에이치씨 악성코드 분석 방법 및 시스템
KR101567967B1 (ko) * 2015-05-15 2015-11-11 주식회사 블랙포트시큐리티 악성코드 유포지 실시간 탐지/수집 장치 및 방법
US20170180402A1 (en) * 2015-12-18 2017-06-22 F-Secure Corporation Detection of Coordinated Cyber-Attacks
KR101865378B1 (ko) * 2018-01-31 2018-06-07 주식회사 에프원시큐리티 웹 쉘 탐지 시스템
KR20220057426A (ko) * 2020-10-29 2022-05-09 한국인터넷진흥원 Url과 연관된 콘텐츠와 호스트 데이터를 고려한 악성 url 예측 방법 및 이를 구현하기 위한 장치

Also Published As

Publication number Publication date
KR20240073433A (ko) 2024-05-27

Similar Documents

Publication Publication Date Title
CN103685575B (zh) 一种基于云架构的网站安全监控方法
CN106411562B (zh) 一种电力信息网络安全联动防御方法及系统
Feng et al. Understanding and securing device vulnerabilities through automated bug report analysis
US7530105B2 (en) Tactical and strategic attack detection and prediction
US11956208B2 (en) Graphical representation of security threats in a network
WO2018182126A1 (ko) 안전 소프트웨어 인증 시스템 및 방법
WO2017034072A1 (ko) 네트워크 보안 시스템 및 보안 방법
CN103493061A (zh) 用于应对恶意软件的方法和装置
Zhang et al. Causality-based sensemaking of network traffic for android application security
US20230247042A1 (en) Techniques for forensic tracing of suspicious activity from cloud computing logs
WO2021112494A1 (ko) 엔드포인트에 기반한 관리형 탐지 및 대응 시스템과 방법
Grégio et al. An ontology of suspicious software behavior
CN111625821A (zh) 一种基于云平台的应用攻击检测系统
Chen et al. Detection, traceability, and propagation of mobile malware threats
Ghourabi et al. Data analyzer based on data mining for honeypot router
Bergman et al. Exploring dark web crawlers: a systematic literature review of dark web crawlers and their implementation
CN111611590A (zh) 涉及应用程序的数据安全的方法及装置
WO2024128738A1 (ko) 사이버 보안 위협 및 공격 표면 관리 방법 및 이러한 방법을 수행하는 장치
CN112437043B (zh) 基于双向访问控制的安全保障方法
KR101767591B1 (ko) 침입탐지 오탐 개선을 위한 시스템 및 방법
KR20070072835A (ko) 실시간 웹로그 수집을 통한 웹해킹 대응 방법
WO2024106860A1 (ko) 링크 특성 분석 기반의 비정상 웹 컨텐츠 탐지 방법 및 시스템
Tanaka et al. IoT system security issues and solution approaches
Arul et al. Supervised deep learning vector quantization to detect MemCached DDOS malware attack on cloud
Rahman et al. Classification of spamming attacks to blogging websites and their security techniques

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23891927

Country of ref document: EP

Kind code of ref document: A1