KR102408205B1 - Method and apparatus for detecting life cycle step of website - Google Patents

Method and apparatus for detecting life cycle step of website Download PDF

Info

Publication number
KR102408205B1
KR102408205B1 KR1020200136201A KR20200136201A KR102408205B1 KR 102408205 B1 KR102408205 B1 KR 102408205B1 KR 1020200136201 A KR1020200136201 A KR 1020200136201A KR 20200136201 A KR20200136201 A KR 20200136201A KR 102408205 B1 KR102408205 B1 KR 102408205B1
Authority
KR
South Korea
Prior art keywords
website
domain
life cycle
site
detecting
Prior art date
Application number
KR1020200136201A
Other languages
Korean (ko)
Other versions
KR20220052168A (en
Inventor
곽진
김득훈
정해선
Original Assignee
아주대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아주대학교산학협력단 filed Critical 아주대학교산학협력단
Priority to KR1020200136201A priority Critical patent/KR102408205B1/en
Publication of KR20220052168A publication Critical patent/KR20220052168A/en
Application granted granted Critical
Publication of KR102408205B1 publication Critical patent/KR102408205B1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/30Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information
    • H04L63/308Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information retaining data, e.g. retaining successful, unsuccessful communication attempts, internet access, or e-mail, internet telephony, intercept related information or call content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/563Data redirection of data network streams

Abstract

본 개시의 기술적 사상에 의한 일 양태에 따른 웹사이트의 생애주기 단계 탐지 방법은, 웹사이트에 대응하는 입력 도메인을 획득하는 단계, 상기 입력 도메인에 기초하여 상기 웹사이트가 기존 사이트인지 또는 신규 사이트인지 여부를 탐지하는 단계, 상기 입력 도메인을 이용하여 상기 웹사이트의 접속 요청을 전송하는 단계, 및 상기 접속 요청에 기초하여 상기 웹사이트의 생애주기 단계를 탐지하는 단계를 포함한다.According to an aspect of the present disclosure, a method for detecting a life cycle stage of a website includes: acquiring an input domain corresponding to the website; based on the input domain, whether the website is an existing site or a new site detecting whether or not there is, transmitting an access request of the website by using the input domain, and detecting a life cycle stage of the website based on the access request.

Description

웹사이트의 생애주기 단계 탐지 방법 및 장치{METHOD AND APPARATUS FOR DETECTING LIFE CYCLE STEP OF WEBSITE}Method and device for detecting life cycle stages of a website

본 개시(disclosure)의 기술적 사상은 웹사이트의 생애주기 단계를 탐지하는 방법 및 장치에 관한 것이다.The technical idea of the present disclosure relates to a method and apparatus for detecting a life cycle stage of a website.

웹사이트는 인터넷에서 사용자들이 정보나 콘텐츠가 필요할 때 언제든지 이를 제공할 수 있도록 웹서버에 다양한 정보나 콘텐츠를 저장해 놓은 집합체를 의미한다. 이러한 웹사이트는 대부분 적법한 사이트이나, 일부 웹사이트는 불법 사이트로서 예컨대 저작권을 위반하고 콘텐츠를 불법으로 유통하는 저작권 위반 사이트이거나, 유해한 콘텐츠를 유포하는 유해 사이트 등에 해당할 수 있다.A website refers to an aggregate in which various information or contents are stored on a web server so that users can provide information or contents whenever they need them on the Internet. Most of these websites are legal sites, but some websites are illegal sites, for example, copyright-violating sites that violate copyrights and illegally distribute content, or harmful sites that distribute harmful content.

기관들은 주기적인 모니터링 및 접속 차단 처리를 통해 이러한 불법 사이트를 차단시키고 있다. 그러나 종래의 불법 사이트 모니터링은 수동으로 이루어지는 바, 모든 불법 사이트를 수동으로 탐지 및 차단하는 것에는 한계가 있다.Organizations are blocking these illegal sites through periodic monitoring and blocking of access. However, since the conventional illegal site monitoring is performed manually, there is a limit to manually detecting and blocking all illegal sites.

또한, 불법 사이트가 차단되더라도, 불법 사이트의 운영자는 도메인을 부분적으로 변경하는 등의 회피 방법을 통해 불법 사이트를 손쉽게 재운영할 수 있다. 종래의 수동 탐지 방식에 따르면 이러한 도메인 변경까지 즉각적으로 탐지하여 차단하는 것은 사실상 불가능하다.In addition, even if the illegal site is blocked, the operator of the illegal site can easily re-operate the illegal site through an avoidance method such as partially changing a domain. According to the conventional manual detection method, it is virtually impossible to immediately detect and block such a domain change.

본 발명이 해결하고자 하는 일 과제는, 입력 도메인에 대응하는 웹사이트가 기존 사이트인지 또는 신규 사이트인지 여부를 자동으로 탐지할 수 있는 방법을 제공하는 것이다.An object of the present invention is to provide a method for automatically detecting whether a website corresponding to an input domain is an existing site or a new site.

본 발명이 해결하고자 하는 일 과제는, 입력 도메인에 대응하는 웹사이트의 생애주기 단계를 자동으로 탐지할 수 있는 방법을 제공하는 것이다.An object of the present invention is to provide a method for automatically detecting a life cycle stage of a website corresponding to an input domain.

상기와 같은 목적을 달성하기 위하여, 본 개시의 기술적 사상에 의한 일 양태(aspect)에 따른 웹사이트의 생애주기 단계 탐지 방법은, 웹사이트에 대응하는 입력 도메인을 획득하는 단계, 상기 입력 도메인에 기초하여 상기 웹사이트가 기존 사이트인지 또는 신규 사이트인지 여부를 탐지하는 단계, 상기 입력 도메인을 이용하여 상기 웹사이트의 접속 요청을 전송하는 단계, 및 상기 접속 요청에 기초하여 상기 웹사이트의 생애주기 단계를 탐지하는 단계를 포함한다.In order to achieve the above object, a method for detecting a life cycle stage of a website according to an aspect according to the technical spirit of the present disclosure includes: acquiring an input domain corresponding to the website; based on the input domain detecting whether the website is an existing site or a new site; transmitting a request for access to the website using the input domain; and a life cycle stage of the website based on the access request. detecting step.

실시 예에 따라, 상기 웹사이트가 기존 사이트인지 또는 신규 사이트인지 여부를 탐지하는 단계는, 상기 입력 도메인으로부터 키워드 도메인을 추출하는 단계, 추출된 키워드 도메인이 사이트 DB 내에 존재하는지 여부를 확인하는 단계, 및 상기 추출된 키워드 도메인이 상기 사이트 DB 내에 존재하는 경우, 상기 웹사이트가 기존 사이트인 것으로 탐지하는 단계를 포함할 수 있다.According to an embodiment, the step of detecting whether the website is an existing site or a new site includes extracting a keyword domain from the input domain, checking whether the extracted keyword domain exists in the site DB; and detecting that the website is an existing website when the extracted keyword domain exists in the site DB.

실시 예에 따라, 상기 웹사이트가 기존 사이트인지 또는 신규 사이트인지 여부를 탐지하는 단계는, 상기 추출된 키워드 도메인이 상기 사이트 DB 내에 존재하지 않는 경우, 상기 사이트 DB에 포함된 웹사이트들의 HTML 태그 순서들 각각과, 상기 입력 도메인에 대응하는 상기 웹사이트의 HTML 태그 순서 간의 유사도를 산출하는 단계, 상기 사이트 DB에 포함된 웹사이트들 중, 기준 값보다 높은 유사도를 갖는 웹사이트가 존재하는 경우, 상기 입력 도메인에 대응하는 웹사이트가 기존 사이트인 것으로 탐지하는 단계, 및 상기 사이트 DB에 포함된 웹사이트들 중, 상기 기준 값보다 높은 유사도를 갖는 웹사이트가 존재하지 않는 경우, 상기 입력 도메인에 대응하는 웹사이트가 신규 사이트인 것으로 탐지하는 단계를 더 포함할 수 있다.According to an embodiment, the detecting whether the website is an existing site or a new site may include, when the extracted keyword domain does not exist in the site DB, the HTML tag sequence of websites included in the site DB calculating a degree of similarity between each of the keywords and an HTML tag sequence of the website corresponding to the input domain; detecting that the website corresponding to the input domain is an existing site, and if there is no website having a similarity higher than the reference value among the websites included in the site DB, the website corresponding to the input domain The method may further include detecting that the website is a new site.

실시 예에 따라, 상기 웹사이트의 생애주기 단계를 탐지하는 단계는, 상기 접속 요청에 대응하는 응답 코드를 수신하는 단계, 및 수신된 응답 코드가 폐쇄 단계로 분류된 응답 코드인 경우, 상기 웹사이트의 생애주기 단계를 상기 폐쇄 단계로 탐지하는 단계를 포함할 수 있다.According to an embodiment, the detecting of the life cycle stage of the website includes: receiving a response code corresponding to the access request; and when the received response code is a response code classified as a closed phase, the website and detecting the life cycle stage of the as the closed stage.

실시 예에 따라, 상기 웹사이트의 생애주기 단계를 탐지하는 단계는, 상기 접속 요청에 대응하는 응답 도메인을 수신하는 단계, 상기 입력 도메인과 상기 응답 도메인을 비교하는 단계, 및 비교 결과에 기초하여 상기 웹사이트의 생애주기 단계를 탐지하는 단계를 포함할 수 있다.According to an embodiment, the detecting of the life cycle stage of the website may include receiving a response domain corresponding to the access request, comparing the input domain with the response domain, and based on a result of the comparison It may include detecting life cycle stages of the website.

실시 예에 따라, 상기 비교 결과에 기초하여 상기 웹사이트의 생애주기 단계를 탐지하는 단계는, 상기 입력 도메인과 상기 응답 도메인이 동일한 경우, 상기 웹사이트의 생애주기 단계를 운영 단계로 탐지하는 단계를 포함할 수 있다.According to an embodiment, the detecting of the life cycle stage of the website based on the comparison result may include detecting the life cycle stage of the website as an operation stage when the input domain and the response domain are the same. may include

실시 예에 따라, 상기 비교 결과에 기초하여 상기 웹사이트의 생애주기 단계를 탐지하는 단계는, 상기 입력 도메인과 상기 응답 도메인이 다르고, 상기 응답 도메인이 기 분류된 도메인에 포함되지 않는 경우, 상기 웹사이트의 생애주기 단계를 변경 단계로 탐지하는 단계를 포함할 수 있다.According to an embodiment, the detecting of the life cycle stage of the website based on the comparison result may include, when the input domain and the response domain are different and the response domain is not included in the pre-classified domain, the web site It may include detecting the life cycle stage of the site as a change stage.

실시 예에 따라, 상기 비교 결과에 기초하여 상기 웹사이트의 생애주기 단계를 탐지하는 단계는, 상기 입력 도메인과 상기 응답 도메인이 다르고, 상기 응답 도메인이 상기 기 분류된 도메인에 포함되는 경우, 상기 입력 도메인에 대응하는 상기 웹사이트의 우회 접속을 시도하는 단계, 및 상기 우회 접속의 결과에 기초하여 상기 웹사이트의 생애주기 단계를 탐지하는 단계를 더 포함할 수 있다.According to an embodiment, the detecting of the life cycle stage of the website based on the comparison result may include: when the input domain and the response domain are different and the response domain is included in the pre-classified domain, the input The method may further include: attempting a bypass access of the website corresponding to the domain; and detecting a life cycle stage of the website based on a result of the bypass access.

실시 예에 따라, 상기 웹사이트의 생애주기 단계를 탐지하는 단계는, 상기 웹사이트의 접속이 차단되는 경우, 상기 입력 도메인에 대응하는 상기 웹사이트의 우회 접속을 시도하는 단계, 및 상기 우회 접속의 결과에 기초하여 상기 웹사이트의 생애주기 단계를 탐지하는 단계를 포함할 수 있다.According to an embodiment, the detecting of the life cycle stage of the website may include: when access to the website is blocked, attempting a bypass access to the website corresponding to the input domain; and and detecting a life cycle stage of the website based on the result.

실시 예에 따라, 상기 우회 접속의 결과에 기초하여 상기 웹사이트의 생애주기 단계를 탐지하는 단계는, 상기 웹사이트의 접속이 차단되는 경우, 상기 웹사이트의 생애주기 단계를 폐쇄 단계로 탐지하는 단계, 상기 우회 접속에 따라 수신되는 응답 도메인이 상기 입력 도메인과 동일한 경우, 상기 웹사이트의 생애주기 단계를 대응 단계로 탐지하는 단계, 및 상기 응답 도메인이 상기 입력 도메인과 다른 경우, 상기 웹사이트의 생애주기 단계를 변경 단계로 탐지하는 단계를 포함할 수 있다.According to an embodiment, the detecting of the life cycle stage of the website based on the result of the bypass connection may include: when the access to the website is blocked, detecting the life cycle stage of the website as a closing stage , when the response domain received according to the bypass connection is the same as the input domain, detecting the life cycle stage of the website as a corresponding stage; and when the response domain is different from the input domain, the website lifetime detecting the cycle phase as a change phase.

본 개시의 기술적 사상에 의한 일 양태에 따른 웹사이트 생애주기 단계 탐지 장치는, 통신 인터페이스, 및 입력 도메인에 대응하는 웹사이트가 기존 사이트인지 또는 신규 사이트인지 여부를 탐지하고, 상기 입력 도메인을 이용하여 상기 웹사이트의 접속 요청을 전송하도록 상기 통신 인터페이스를 제어하고, 상기 접속 요청에 기초하여 상기 웹사이트의 생애주기 단계를 탐지하는 프로세서를 포함한다.An apparatus for detecting a website life cycle stage according to an aspect according to the technical idea of the present disclosure detects whether a website corresponding to a communication interface and an input domain is an existing site or a new site, and uses the input domain and a processor for controlling the communication interface to transmit the access request of the website, and detecting a life cycle stage of the website based on the access request.

본 개시의 기술적 사상에 의한 웹사이트 생애주기 탐지 방법 및 장치에 따르면, 탐지 대상이 되는 입력 도메인의 키워드 도메인을 추출하거나, 입력 도메인의 웹사이트의 HTML 태그 순서를 이용하여 상기 웹사이트가 기 존재하는 사이트인지 또는 신규로 생성된 사이트인지 여부를 자동으로 탐지할 수 있다. 이에 따라, 웹사이트들, 특히 저작권 침해 사이트나 유해사이트 등의 불법 사이트에 대한 보다 정확하고 효율적인 관리가 이루어질 수 있다.According to the method and apparatus for detecting a website life cycle according to the technical idea of the present disclosure, the keyword domain of the input domain to be detected is extracted or the website in which the website already exists by using the HTML tag sequence of the website of the input domain. Whether it is a site or a newly created site can be automatically detected. Accordingly, more accurate and efficient management of websites, particularly illegal sites such as copyright infringing sites or harmful sites, can be achieved.

또한, 본 개시의 기술적 사상에 의한 웹사이트 생애주기 탐지 방법 및 장치는, 입력 도메인을 이용한 접속(정상 접속 및 우회 접속) 시 접속 차단 여부, 응답 코드, 및/또는 응답 도메인에 기초하여 웹사이트의 생애주기 단계를 자동으로 탐지하여 관리할 수 있다. 즉, 종래와 달리 웹사이트의 생애주기 단계의 자동 탐지 및 관리가 가능해짐에 따라, 탐지 및 관리의 신속성, 정확성, 및 효율성이 극대화될 수 있다.In addition, the method and apparatus for detecting a website life cycle according to the technical spirit of the present disclosure provides a method and apparatus for detecting a website based on whether access is blocked when accessing an input domain (normal access and bypass access), a response code, and/or a response domain. Life cycle stages can be automatically detected and managed. That is, unlike the prior art, as automatic detection and management of the life cycle stage of a website is possible, the speed, accuracy, and efficiency of detection and management can be maximized.

본 개시의 기술적 사상에 따른 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.Effects according to the technical spirit of the present disclosure are not limited to the above-mentioned effects, and other effects not mentioned may be clearly understood by those of ordinary skill in the art to which the present invention belongs from the description below. There will be.

본 개시에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 웹사이트의 생애주기 단계를 설명하기 위한 도면이다.
도 2는 본 개시의 예시적 실시 예에 따른 웹사이트의 생애주기 단계 탐지 방법을 수행하는 시스템의 구성을 보여주는 블록도이다.
도 3은 본 개시의 예시적 실시 예에 따른 입력 도메인에 대응하는 웹사이트가 기존 웹사이트인지 여부를 탐지하는 동작을 설명하기 위한 플로우차트이다.
도 4는 입력 도메인으로부터 키워드 도메인을 추출하는 동작과 관련하여, 도메인을 포함하는 URL의 구조를 보여주는 예시도이다.
도 5a 내지 도 5b는 본 개시의 예시적 실시 예에 따른 웹사이트의 생애주기 단계를 탐지하는 동작을 설명하기 위한 플로우차트이다.
도 6은 접속 차단된 웹사이트를 우회 접속 목록에 추가하기 위해 탐지 시스템에 의해 실행되는 프로그램 코드의 예시도이다.
도 7은 도메인의 접속 요청에 대해 웹 서버로부터 제공되는 응답 코드를 분류한 표이다.
도 8은 접속 요청한 도메인에 대한 리다이렉트 여부에 기초하여 생애주기 단계를 탐지하기 위해 탐지 시스템에 의해 실행되는 프로그램 코드의 예시도이다.
도 9는 본 개시의 예시적 실시 예에 따른 웹사이트의 생애주기 단계를 탐지하는 디바이스의 개략적인 블록도이다.
In order to more fully understand the drawings cited in this disclosure, a brief description of each drawing is provided.
1 is a diagram for explaining the stages of the life cycle of a website.
2 is a block diagram showing the configuration of a system for performing a method for detecting a life cycle stage of a website according to an exemplary embodiment of the present disclosure.
3 is a flowchart illustrating an operation of detecting whether a website corresponding to an input domain is an existing website according to an exemplary embodiment of the present disclosure.
4 is an exemplary diagram illustrating a structure of a URL including a domain in relation to an operation of extracting a keyword domain from an input domain.
5A to 5B are flowcharts for explaining an operation of detecting a life cycle stage of a website according to an exemplary embodiment of the present disclosure.
6 is an exemplary diagram of a program code executed by a detection system to add a blocked website to a bypass access list.
7 is a table in which response codes provided from a web server are classified in response to a domain access request.
8 is an exemplary diagram of a program code executed by a detection system to detect a life cycle stage based on whether or not a redirect to a domain requesting access is made.
9 is a schematic block diagram of a device for detecting a life cycle stage of a website according to an exemplary embodiment of the present disclosure.

본 개시의 기술적 사상에 따른 예시적인 실시 예들은 당해 기술 분야에서 통상의 지식을 가진 자에게 본 개시의 기술적 사상을 더욱 완전하게 설명하기 위하여 제공되는 것으로, 아래의 실시 예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 개시의 기술적 사상의 범위가 아래의 실시 예들로 한정되는 것은 아니다. 오히려, 이들 실시 예들은 본 개시를 더욱 충실하고 완전하게 하며 당업자에게 본 발명의 기술적 사상을 완전하게 전달하기 위하여 제공되는 것이다.Exemplary embodiments according to the technical spirit of the present disclosure are provided to more fully explain the technical spirit of the present disclosure to those of ordinary skill in the art, and the following embodiments are modified in various other forms may be, and the scope of the technical spirit of the present disclosure is not limited to the following embodiments. Rather, these embodiments are provided to more fully and complete the present disclosure, and to fully convey the technical spirit of the present invention to those skilled in the art.

본 개시에서 제1, 제2 등의 용어가 다양한 부재, 영역, 층들, 부위 및/또는 구성 요소들을 설명하기 위하여 사용되지만, 이들 부재, 부품, 영역, 층들, 부위 및/또는 구성 요소들은 이들 용어에 의해 한정되어서는 안 됨은 자명하다. 이들 용어는 특정 순서나 상하, 또는 우열을 의미하지 않으며, 하나의 부재, 영역, 부위, 또는 구성 요소를 다른 부재, 영역, 부위 또는 구성 요소와 구별하기 위하여만 사용된다. 따라서, 이하 상술할 제1 부재, 영역, 부위 또는 구성 요소는 본 개시의 기술적 사상의 가르침으로부터 벗어나지 않고서도 제2 부재, 영역, 부위 또는 구성 요소를 지칭할 수 있다. 예를 들면, 본 개시의 권리 범위로부터 이탈되지 않은 채 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.Although the terms first, second, etc. are used in this disclosure to describe various members, regions, layers, regions, and/or components, these members, parts, regions, layers, regions, and/or components refer to these terms It is self-evident that it should not be limited by These terms do not imply a specific order, upper and lower, or superiority, and are used only to distinguish one member, region, region, or component from another member, region, region, or component. Accordingly, a first member, region, region, or component to be described below may refer to a second member, region, region, or component without departing from the teachings of the present disclosure. For example, without departing from the scope of the present disclosure, a first component may be referred to as a second component, and similarly, the second component may also be referred to as a first component.

달리 정의되지 않는 한, 여기에 사용되는 모든 용어들은 기술 용어와 과학 용어를 포함하여 본 개시의 개념이 속하는 기술 분야에서 통상의 지식을 가진 자가 공통적으로 이해하고 있는 바와 동일한 의미를 지닌다. 또한, 통상적으로 사용되는, 사전에 정의된 바와 같은 용어들은 관련되는 기술의 맥락에서 이들이 의미하는 바와 일관되는 의미를 갖는 것으로 해석되어야 하며, 여기에 명시적으로 정의하지 않는 한 과도하게 형식적인 의미로 해석되어서는 아니 될 것이다.Unless defined otherwise, all terms used herein have the same meaning as commonly understood by one of ordinary skill in the art to which the concepts of this disclosure belong, including technical and scientific terms. In addition, commonly used terms as defined in the dictionary should be construed as having a meaning consistent with their meaning in the context of the relevant technology, and unless explicitly defined herein, in an overly formal sense. shall not be interpreted.

어떤 실시 예가 달리 구현 가능한 경우에 특정한 과정의 순서는 설명되는 순서와 다르게 수행될 수도 있다. 예를 들면, 연속하여 설명되는 두 과정이 실질적으로 동시에 수행될 수도 있고, 설명되는 순서와 반대의 순서로 수행될 수도 있다.In the case where certain embodiments can be implemented differently, the order of specific processes may be performed differently from the described order. For example, two processes described in succession may be performed substantially simultaneously, or may be performed in an order opposite to the described order.

여기에서 사용된 '및/또는' 용어는 언급된 부재들의 각각 및 하나 이상의 모든 조합을 포함한다.As used herein, the term 'and/or' includes each and every combination of one or more of the recited elements.

이하에서는 첨부한 도면들을 참조하여 본 개시의 기술적 사상에 의한 실시 예들에 대해 상세히 설명한다.Hereinafter, embodiments according to the technical spirit of the present disclosure will be described in detail with reference to the accompanying drawings.

도 1은 웹사이트의 생애주기 단계를 설명하기 위한 도면이다.1 is a diagram for explaining the stages of the life cycle of a website.

도 1을 참조하면, 일반적으로 웹사이트의 생애주기 단계는 생성 단계(10), 운영 단계(20), 대응 단계(30), 변경 단계(40), 및 폐쇄 단계(50)를 포함할 수 있다. 다만, 실시 예에 따라 웹사이트의 생애주기 단계가 도 1에 도시된 생애주기 단계로만 구분되지는 않을 수 있다.Referring to FIG. 1 , in general, the life cycle phases of a website may include a creation phase 10 , an operation phase 20 , a response phase 30 , a change phase 40 , and a closing phase 50 . . However, depending on the embodiment, the life cycle stages of the website may not be divided into only the life cycle stages shown in FIG. 1 .

생성 단계(10)는, 도메인의 최초 등록을 통해 웹사이트가 최초로 생성되는 단계를 의미할 수 있다. 해당 웹사이트는 생성 단계(10) 이후 운영 단계(20)로 전환되는 것이 일반적일 수 있다. 다만, 해당 웹사이트가 우회 접속을 통해서만 접속 가능하도록 의도적으로 생성되는 경우(예컨대 특정 국가에서만 서비스 제공 등), 해당 웹사이트의 생애주기 단계는 생성 단계(10) 이후 대응 단계(30)로 전환될 수 있다. 또한, 해당 웹사이트가 다른 웹사이트로의 리다이렉트를 위해 의도적으로 생성된 경우에는, 생애주기 단계가 생성 단계(10) 이후 변경 단계(40)로 전환될 수 있다. 한편, 해당 웹사이트가 생성 후 곧바로 폐쇄되는 경우에는, 생애주기 단계가 생성 단계(10) 이후 폐쇄 단계(50)로 전환될 수도 있다.The creation step 10 may refer to a step in which a website is initially created through initial registration of a domain. It may be common for the website to be converted to the operation stage 20 after the creation stage 10 . However, if the website is intentionally created so that it can be accessed only through bypass access (eg, providing services only in a specific country, etc.), the life cycle stage of the website will be converted to the corresponding stage 30 after the creation stage 10. can In addition, when the corresponding website is intentionally created for redirection to another website, the life cycle stage may be switched to the change stage 40 after the creation stage 10 . On the other hand, when the website is closed immediately after creation, the life cycle stage may be switched to the closing stage 50 after the creation stage 10 .

운영 단계(20)는, 별도의 우회 접속 없이, 입력 도메인을 통해 웹사이트에 접속 가능한 단계를 의미할 수 있다. 적법한 웹사이트들의 경우 기관 등에 의해 접속이 차단되지 않을 것이므로, 해당 웹사이트가 폐쇄되거나 웹사이트의 관리자에 의해 의도적으로 도메인이 변경되지 않는 경우에는, 해당 웹사이트의 생애주기 단계는 운영 단계를 지속적으로 유지할 수 있다. 한편, 상기 입력 도메인을 이용한 접속이 기관 등에 의해 특정 국가에서 차단됨에 따라 VPN(virtual private network) 등을 통한 우회 접속만이 가능해지는 경우, 상기 웹사이트의 생애주기 단계는 대응 단계(30)로 전환될 수 있다. The operation step 20 may refer to a step in which a website can be accessed through an input domain without a separate bypass connection. In the case of legitimate websites, access will not be blocked by institutions, etc., so if the website is closed or the domain is not intentionally changed by the website administrator, the website's life cycle phase is the continuous operation phase. can keep On the other hand, when only bypass access through a VPN (virtual private network) is possible as access using the input domain is blocked in a specific country by an institution, etc., the life cycle phase of the website is switched to the corresponding step 30 can be

대응 단계(30)는, 입력 도메인에 대해 특정 국가 또는 특정 IP 주소에서의 정상 접속은 차단되지만, 다른 국가 또는 다른 IP 주소를 이용한 우회 접속은 가능한 단계를 의미한다. 또는, 대응 단계(30)는 상기 입력 도메인에 대응하는 웹사이트의 이전 도메인에 대해 우회 접속만이 가능하고 다른 도메인으로 리다이렉트되지 않는 단계를 의미할 수도 있다. 대응 단계(30)는 해당 웹사이트가 저작권 침해, 유해 콘텐츠 제공 등의 불법 사이트임을 기관 등이 인지하여, 인터넷 서비스 제공자(ISP)가 해당 웹사이트의 도메인을 이용한 정상 접속을 차단한 단계이다.Corresponding step 30 means a step in which normal access from a specific country or specific IP address is blocked for the input domain, but bypass access using another country or other IP address is possible. Alternatively, the corresponding step 30 may refer to a step in which only a bypass connection to the previous domain of the website corresponding to the input domain is possible and the user is not redirected to another domain. The response step 30 is a step in which the Internet Service Provider (ISP) blocks normal access using the domain of the website by recognizing that the website is an illegal website such as copyright infringement or providing harmful content.

변경 단계(40)는, 입력 도메인에 대해 정상 접속은 가능하나 다른 도메인으로 리다이렉트되는 단계를 의미하거나, 상기 입력 도메인에 대응하는 웹사이트의 이전 도메인에 대하여 정상 접속은 차단되지만 우회 접속은 가능하며, 우회 접속 시 다른 도메인으로 리다이렉트되는 단계를 의미할 수 있다. The change step 40 means a step in which normal access to the input domain is possible but redirects to another domain, or normal access to the previous domain of the website corresponding to the input domain is blocked but bypass access is possible, It may mean a step of redirecting to another domain when a bypass connection is made.

폐쇄 단계(50)는, 입력 도메인 및 이전 도메인 등 모든 도메인에 대하여 정상 접속 및 우회 접속 모두가 불가능한 단계를 의미할 수 있다. 즉, 폐쇄 단계(50)는 웹 서버를 통해 더 이상 콘텐츠, 정보, 또는 서비스가 제공되지 않는 단계를 의미할 수 있다.The closing step 50 may mean a step in which both normal access and bypass access are impossible for all domains, such as an input domain and a previous domain. That is, the closing step 50 may mean a step in which content, information, or services are no longer provided through the web server.

본 개시의 실시 예에 따른 웹사이트의 생애주기 단계 탐지 방법은, 특정 웹사이트의 도메인에 기초하여, 해당 웹사이트의 생애주기 단계를 자동으로 탐지함으로써, 기관 등 관리자로 하여금 해당 웹사이트에 대한 보다 손쉬운 대응을 가능하게 한다. The method for detecting the life cycle stage of a website according to an embodiment of the present disclosure automatically detects the life cycle stage of the website based on the domain of the specific website, thereby allowing an administrator, such as an institution, to learn more about the website. Allows for an easy response.

이하 도면들을 참조하여, 본 개시의 실시 예에 따른 웹사이트의 생애주기 단계 탐지 방법에 대해 구체적으로 설명하기로 한다.Hereinafter, a method for detecting a life cycle stage of a website according to an embodiment of the present disclosure will be described in detail with reference to the drawings.

도 2는 본 개시의 예시적 실시 예에 따른 웹사이트의 생애주기 단계 탐지 방법을 수행하는 시스템의 구성을 보여주는 블록도이다.2 is a block diagram showing the configuration of a system for performing a method for detecting a life cycle stage of a website according to an exemplary embodiment of the present disclosure.

도 2를 참조하면, 본 개시의 실시 예에 따른 웹사이트의 생애주기 단계 탐지 방법을 수행하는 시스템(100; 이하, '탐지 시스템'이라 정의함)은 적어도 하나의 컴퓨팅 장치를 포함할 수 있다. 상기 적어도 하나의 컴퓨팅 장치 각각은 프로세서, 메모리, 및/또는 통신 인터페이스 등을 포함하는 하드웨어 기반의 장치에 해당한다. 이 경우, 탐지 시스템(100)에 포함되는 구성들은 하드웨어, 소프트웨어, 또는 이들의 조합으로 구현될 수 있으며, 상기 적어도 하나의 컴퓨팅 장치에 통합 또는 분할되어 구현될 수 있다.Referring to FIG. 2 , a system 100 (hereinafter, referred to as a 'detection system') for performing a method for detecting a life cycle stage of a website according to an embodiment of the present disclosure may include at least one computing device. Each of the at least one computing device corresponds to a hardware-based device including a processor, a memory, and/or a communication interface. In this case, the components included in the detection system 100 may be implemented as hardware, software, or a combination thereof, and may be implemented by being integrated or divided into the at least one computing device.

탐지 시스템(100)은 사이트 탐지부(110), 생애주기 탐지부(120), 및 사이트 데이터베이스(DB)(130)를 포함할 수 있다.The detection system 100 may include a site detection unit 110 , a life cycle detection unit 120 , and a site database (DB) 130 .

사이트 탐지부(110)는 탐지 대상이 되는 도메인(입력 도메인)의 정보가 획득되면, 획득된 입력 도메인에 대응하는 웹사이트가 기존 사이트인지 또는 신규 사이트인지 여부를 탐지할 수 있다. 일 실시 예에 따라, 사이트 탐지부(110)는 키워드 도메인 추출부(112), 및 태그 순서 비교부(114)를 포함할 수 있다.When information on a domain (input domain) to be detected is acquired, the site detector 110 may detect whether a website corresponding to the acquired input domain is an existing site or a new site. According to an embodiment, the site detection unit 110 may include a keyword domain extraction unit 112 and a tag order comparison unit 114 .

키워드 도메인 추출부(112)는, 획득된 입력 도메인으로부터 키워드 도메인을 추출할 수 있다. 키워드 도메인이란 URL(uniform resource locator)에 포함된 도메인 중, 해당 웹사이트를 식별할 수 있는 단어나 문자열을 의미할 수 있다. 예컨대, 아주대학교 웹사이트의 URL인 "https://www.ajou.ac.kr/kr/index-2021.do"에서 키워드 도메인은 'ajou'에 해당할 수 있다.The keyword domain extraction unit 112 may extract a keyword domain from the obtained input domain. The keyword domain may refer to a word or string for identifying a corresponding website among domains included in a uniform resource locator (URL). For example, in the URL "https://www.ajou.ac.kr/kr/index-2021.do" of the Ajou University website, the keyword domain may correspond to 'ajou'.

일반적으로, 저작권 침해 사이트나 기타 유해사이트와 같은 불법 사이트의 관리자는, 사용 중인 도메인이 차단되는 경우 키워드 도메인에 다양한 규칙을 적용하여 이전 도메인을 일부 수정한 최신 도메인을 생성하여, 불법 사이트에 대한 접속 차단을 회피한다. 이에 기초하여, 키워드 도메인 추출부(112)는 입력 도메인으로부터 키워드 도메인을 추출하고, 추출된 키워드 도메인을 사이트 DB(130)에 등록된 불법 사이트들의 키워드 도메인들과 비교할 수 있다. 비교 결과에 기초하여, 키워드 도메인 추출부(112)는 입력 도메인에 대응하는 웹사이트가 기존 사이트인지 또는 신규 사이트인지 여부를 탐지할 수 있다. 키워드 도메인 추출부(112)에 대해서는 추후 도 3 및 도 4를 통해 보다 상세히 설명하기로 한다.In general, administrators of illegal sites, such as copyright infringing sites or other harmful sites, apply various rules to keyword domains when the domain being used is blocked, create a newer domain with some modifications to the previous domain, and access illegal sites Avoid blocking. Based on this, the keyword domain extraction unit 112 may extract a keyword domain from the input domain and compare the extracted keyword domain with keyword domains of illegal sites registered in the site DB 130 . Based on the comparison result, the keyword domain extraction unit 112 may detect whether the website corresponding to the input domain is an existing site or a new site. The keyword domain extraction unit 112 will be described in more detail later with reference to FIGS. 3 and 4 .

한편, 불법 사이트의 관리자가 기존 키워드 도메인이 아닌 다른 키워드 도메인을 이용한 최신 도메인을 생성하는 경우, 키워드 도메인 추출부(112)는 상기 불법 사이트가 사이트 DB에 등록되지 않은 신규 사이트인 것으로 탐지하게 될 것이다. 이 경우 상기 불법 사이트에 대한 생애주기 단계가 정확히 파악될 수 없다는 문제가 발생하므로, 이를 방지하기 위해 사이트 탐지부(110)는 태그 순서 비교부(114)를 더 포함할 수 있다.On the other hand, when the administrator of the illegal site creates a newer domain using a keyword domain other than the existing keyword domain, the keyword domain extraction unit 112 will detect that the illegal site is a new site not registered in the site DB. . In this case, a problem arises that the life cycle stage of the illegal site cannot be accurately identified. To prevent this, the site detection unit 110 may further include a tag sequence comparison unit 114 .

태그 순서 비교부(114)는, 상기 입력 도메인에 대응하는 웹사이트의 기본 구조를 나타내는 HTML 태그 순서에 대한 정보를 이용하여, 상기 웹사이트가 기존 사이트인지 또는 신규 사이트인지 여부를 탐지할 수 있다. 구체적으로, 태그 순서 비교부(114)는 상기 웹사이트의 HTML 태그 순서를, 사이트 DB(130) 등에 저장된 불법 사이트들의 HTML 태그 순서들과 비교함으로써, 상기 입력 도메인에 대응하는 웹사이트가 기존 사이트인지 여부를 탐지할 수 있다. 태그 순서 비교부(114)와 관련된 내용은 추후 도 3을 통해 보다 상세히 설명하기로 한다.The tag order comparison unit 114 may detect whether the website is an existing site or a new site by using information about an HTML tag order indicating a basic structure of a website corresponding to the input domain. Specifically, the tag sequence comparison unit 114 compares the HTML tag sequence of the website with the HTML tag sequences of illegal sites stored in the site DB 130, etc. to determine whether the website corresponding to the input domain is an existing site. whether or not it can be detected. Content related to the tag sequence comparison unit 114 will be described in more detail later with reference to FIG. 3 .

생애주기 탐지부(120)는, 상기 입력 도메인에 대응하는 웹사이트의 생애주기 단계를 탐지할 수 있다. 실시 예에 따라, 생성 단계(10)의 경우 실질적으로 탐지하기 어려운 측면이 있으므로, 생애주기 탐지부(120)는 상기 입력 도메인에 대응하는 웹사이트의 생애주기 단계가 운영 단계(20), 대응 단계(30), 변경 단계(40), 및 폐쇄 단계(50) 중 어느 단계인지 여부를 탐지할 수 있다. 이를 위해, 본 개시의 실시 예에 따른 생애주기 탐지부(120)는 응답 코드 확인부(122), 응답 도메인 확인부(124), 및 우회 접속 실행부(126)를 포함할 수 있다.The life cycle detector 120 may detect a life cycle stage of a website corresponding to the input domain. According to an embodiment, since the generation step 10 is difficult to detect substantially, the life cycle detection unit 120 determines that the life cycle phase of the website corresponding to the input domain is the operation phase 20 and the corresponding phase. It is possible to detect whether any of the (30), the changing phase (40), and the closing phase (50) are present. To this end, the life cycle detection unit 120 according to an embodiment of the present disclosure may include a response code verification unit 122 , a response domain verification unit 124 , and a bypass connection execution unit 126 .

응답 코드 확인부(122)는, 상기 입력 도메인을 이용한 상기 웹사이트의 접속 요청에 대해, 상기 웹사이트의 웹 서버로부터 전송되는 응답 코드를 수신 및 확인할 수 있다. 생애주기 탐지부(120)는 응답 코드 확인부(122)에 의해 확인된 응답 코드에 기초하여 상기 웹사이트의 생애주기 단계를 탐지할 수 있다. 예컨대, 생애주기 탐지부(120)는 확인된 응답 코드가 폐쇄 단계(50)로 분류된 응답 코드들 중 어느 하나인 경우, 상기 웹사이트의 생애주기 단계가 폐쇄 단계(50)인 것으로 탐지할 수 있다. 이와 관련된 구체적인 내용은 추후 도 5a 내지 도 7을 참조하여 설명하기로 한다.The response code check unit 122 may receive and confirm a response code transmitted from a web server of the website in response to a request for accessing the website using the input domain. The life cycle detection unit 120 may detect the life cycle stage of the website based on the response code confirmed by the response code verification unit 122 . For example, the life cycle detection unit 120 may detect that the life cycle stage of the website is the closing stage 50 when the confirmed response code is any one of the response codes classified as the closing stage 50 . have. Specific details related thereto will be described later with reference to FIGS. 5A to 7 .

응답 도메인 확인부(124)는, 상기 입력 도메인을 이용한 상기 웹사이트의 접속 요청 시, 실제 응답되는 도메인(응답 도메인)을 확인하여 상기 웹사이트의 생애주기 단계를 탐지할 수 있다. 생애주기 탐지부(120)는 상기 입력 도메인과 상기 응답 도메인의 동일 여부에 기초하여 상기 생애주기 단계를 탐지할 수 있다. 이에 대해서는 추후 도 5a 내지 도 8을 통해 보다 상세히 설명하기로 한다.The response domain check unit 124 may detect a life cycle stage of the website by checking an actual response domain (response domain) when accessing the website using the input domain is requested. The life cycle detector 120 may detect the life cycle stage based on whether the input domain and the response domain are the same. This will be described in more detail later with reference to FIGS. 5A to 8 .

우회 접속 실행부(126)는, 상기 입력 도메인을 이용한 접속이 차단되거나(응답 코드가 수신되지 않는 경우), 상기 입력 도메인에 대한 응답 도메인이 기 분류된 도메인(예컨대, 정부 기관(방송통신심의위원회)의 도메인 등)인 경우, VPN(virtual private network)을 이용한 우회 접속을 실행할 수 있다. 실시 예에 따라, 우회 접속 실행부(126)는 VPN 애플리케이션을 포함할 수 있고, 탐지 시스템(100)은 상기 VPN 애플리케이션을 실행한 후 상기 입력 도메인에 대한 우회 접속을 시도할 수 있다. 탐지 시스템(100)은 우회 접속의 성공 여부에 기초하여 상기 웹사이트의 생애주기 단계를 탐지할 수 있다.The bypass connection execution unit 126 is configured to block access using the input domain (when a response code is not received), or a domain in which a response domain for the input domain is pre-classified (eg, a government agency (Broadcasting and Communications Review Committee) ), you can run a bypass connection using a VPN (virtual private network). According to an embodiment, the bypass connection execution unit 126 may include a VPN application, and the detection system 100 may attempt a bypass access to the input domain after executing the VPN application. The detection system 100 may detect a life cycle stage of the website based on whether the bypass connection is successful or not.

사이트 DB(130)는 탐지 대상 웹사이트에 대한 정보를 저장할 수 있다. 예컨대 상기 탐지 대상 웹사이트는 저작권 침해 사이트나 유해사이트를 포함하는 불법 사이트일 수 있다. 사이트 DB(130)에 저장되는 정보는 탐지 대상 웹사이트에 대응하는 적어도 하나의 도메인(이전 도메인 및/또는 최신 도메인), 키워드 도메인, HTML 태그 순서 정보, 웹사이트의 속성(저작권 침해 여부, 유해성 등)을 포함할 수 있다. 사이트 DB(130)는 탐지 시스템(10)에 포함된 적어도 하나의 컴퓨팅 장치에 구현될 수 있으나, 실시 예에 따라서는 탐지 시스템(10)과 연결되는 별도의 데이터베이스 서버에 구현될 수도 있다.The site DB 130 may store information on a detection target website. For example, the detection target website may be an illegal site including a copyright infringement site or a harmful site. Information stored in the site DB 130 includes at least one domain (old domain and/or newest domain) corresponding to the detection target website, keyword domain, HTML tag sequence information, and website attributes (copyright infringement, harmfulness, etc.) ) may be included. The site DB 130 may be implemented in at least one computing device included in the detection system 10 , but may also be implemented in a separate database server connected to the detection system 10 according to an embodiment.

도 3은 본 개시의 예시적 실시 예에 따른 입력 도메인에 대응하는 웹사이트가 기존 웹사이트인지 여부를 탐지하는 동작을 설명하기 위한 플로우차트이다. 도 4는 입력 도메인으로부터 키워드 도메인을 추출하는 동작과 관련하여, 도메인을 포함하는 URL의 구조를 보여주는 예시도이다.3 is a flowchart illustrating an operation of detecting whether a website corresponding to an input domain is an existing website according to an exemplary embodiment of the present disclosure. 4 is an exemplary diagram illustrating a structure of a URL including a domain in relation to an operation of extracting a keyword domain from an input domain.

도 3을 참조하면, 탐지 시스템(10)은 탐지할 도메인(입력 도메인)을 획득할 수 있다(S300). 상기 입력 도메인은 입력 수단(키보드 등)을 통해 입력되는 URL에 포함되거나, 탐지 시스템(10)과 통신 연결되는 다른 디바이스로부터 수신되는 URL에 포함될 수 있다. 상기 입력 도메인은 저작권 침해나 유해 콘텐츠 제공 등의 불법 사이트로 검출된 웹사이트의 URL의 도메인일 수 있으나, 이에 한정되는 것은 아니다.Referring to FIG. 3 , the detection system 10 may acquire a domain (input domain) to be detected ( S300 ). The input domain may be included in a URL input through an input means (such as a keyboard) or may be included in a URL received from another device connected to the detection system 10 in communication. The input domain may be a domain of a URL of a website detected as an illegal site such as copyright infringement or harmful content provision, but is not limited thereto.

탐지 시스템(10)은 획득된 입력 도메인으로부터 키워드 도메인을 추출할 수 있다(S310). 사이트 탐지부(110)의 키워드 도메인 추출부(112)는, 기 정의된 방식에 기초하여, 상기 입력 도메인으로부터 키워드 도메인으로 추정되는 부분을 추출할 수 있다. The detection system 10 may extract a keyword domain from the obtained input domain (S310). The keyword domain extraction unit 112 of the site detection unit 110 may extract a portion estimated to be a keyword domain from the input domain based on a predefined method.

이와 관련하여 도 4를 참조하면, URL(400)은 프로토콜(410), 도메인(420), 서브 디렉터리(430), 및 파일명(440) 등을 포함할 수 있다. 도메인(420)은 적어도 하나의 서브 도메인(422, 424)과, 최상위 도메인(426)을 포함할 수 있다.In this regard, referring to FIG. 4 , the URL 400 may include a protocol 410 , a domain 420 , a sub-directory 430 , and a file name 440 . The domain 420 may include at least one sub-domain 422 and 424 and a top-level domain 426 .

프로토콜(410)은 통신 시스템 간의 데이터 교환을 위해 사용되는 통신 규약으로서, 도 4의 URL(400)에서는 HTTP 프로토콜이 사용됨을 알 수 있다. 서브 디렉터리(430) 및 파일명(440)은 웹사이트 내에서 제공되는 웹페이지들 중 어느 하나를 나타내기 위한 부분에 해당한다. 즉 프로토콜(410), 서브 디렉터리(430) 및 파일명(440)은 도메인(420)에 포함되지 않는 부분으로서 키워드 도메인에 해당하지 않을 수 있다.The protocol 410 is a communication protocol used for data exchange between communication systems, and it can be seen that the HTTP protocol is used in the URL 400 of FIG. 4 . The sub-directory 430 and the file name 440 correspond to portions for indicating any one of web pages provided within the website. That is, the protocol 410 , the sub-directory 430 , and the file name 440 are not included in the domain 420 and may not correspond to the keyword domain.

도메인(420)은 숫자로 이루어진 인터넷 상의 컴퓨터 주소(예컨대 웹사이트의 웹 서버의 주소)를 문자로 표현한 것이다. 도메인(420)은 최상위 도메인(426), 서브 도메인(422, 424), 호스트명 등을 포함할 수 있다. 일반적으로 최상위 도메인(426)은 국가나 기관 분류, 등록처 등을 나타내는 것으로서, 웹사이트의 키워드 도메인과는 거리가 있다. 서브 도메인(422, 424)은 웹사이트(웹 서버)의 관리자가 임의로 정의할 수 있는 부분으로서, 일반적으로 상기 웹사이트를 식별하기 위한 키워드 도메인이 포함될 수 있다.The domain 420 is a character representation of a computer address on the Internet made of numbers (eg, the address of a web server of a website). The domain 420 may include a top-level domain 426 , sub-domains 422 and 424 , a host name, and the like. In general, the top-level domain 426 indicates a country or institution classification, a place of registration, and the like, and is far from a keyword domain of a website. The sub-domains 422 and 424 are parts that can be arbitrarily defined by the administrator of the website (web server), and in general, keyword domains for identifying the website may be included.

따라서, 키워드 도메인 추출부(112)는 입력 도메인을 포함하는 URL이 획득되면, 획득된 URL의 서브 도메인으로부터 키워드 도메인을 추출할 수 있다. 예컨대, 키워드 도메인 추출부(112)는 불법 사이트의 일반적인 도메인 변경 규칙을 이용하여 상기 키워드 도메인을 추출할 수 있다. 상기 도메인 변경 규칙은 다양할 수 있으나, 일부 예를 설명하면 다음과 같다. Accordingly, when the URL including the input domain is obtained, the keyword domain extraction unit 112 may extract the keyword domain from the subdomain of the obtained URL. For example, the keyword domain extraction unit 112 may extract the keyword domain using a general domain change rule of an illegal site. The domain change rule may vary, but some examples will be described as follows.

일례로, 이전 도메인의 서브 도메인이 하나인 경우 상기 서브 도메인이 키워드 도메인에 대응할 수 있다. 이 경우, 최신 도메인은 상기 키워드 도메인의 끝에 숫자를 추가하거나, 새로운 서브 도메인을 기존 서브 도메인의 우측에 추가하거나, 최상위 도메인을 변경함으로써 생성될 수 있다.For example, when there is one sub-domain of the previous domain, the sub-domain may correspond to the keyword domain. In this case, the latest domain may be created by adding a number to the end of the keyword domain, adding a new subdomain to the right of the existing subdomain, or changing the top-level domain.

일례로, 이전 도메인의 서브 도메인이 두 개인 경우, 키워드 도메인은 우측의 서브 도메인에 해당할 수 있다. 이 경우, 최신 도메인은 좌측의 서브 도메인을 변경 또는 삭제하거나, 상기 키워드 도메인의 끝에 숫자를 추가하거나, 최상위 도메인을 변경함으로써 생성될 수 있다.For example, when there are two sub-domains of the previous domain, the keyword domain may correspond to the right sub-domain. In this case, the latest domain may be created by changing or deleting the left sub-domain, adding a number to the end of the keyword domain, or changing the top-level domain.

키워드 도메인 추출부(112)는 상술한 도메인 변경 규칙에 기초하여, 입력 도메인으로부터 키워드 도메인을 추출할 수 있다. 일례로, 서브 도메인의 말미에 숫자가 추가된 경우(예를 들어, 'ajou1'), 키워드 도메인 추출부(112)는 상기 서브 도메인으로부터 숫자를 제거한 나머지 부분('ajou')을 키워드 도메인으로 추출할 수 있다. 실시 예에 따라, 키워드 도메인 추출부(112)는 상기 도메인 변경 규칙에 기초하여, 입력 도메인으로부터 복수의 키워드 도메인들을 추출할 수도 있다. 이 경우, 탐지 시스템(100)은 추출된 복수의 키워드 도메인들 각각에 대해 이하의 S320 단계를 수행할 수 있다.The keyword domain extractor 112 may extract a keyword domain from the input domain based on the domain change rule described above. For example, when a number is added to the end of the subdomain (eg, 'ajou1'), the keyword domain extraction unit 112 extracts the remaining part ('ajou') from which the number is removed from the subdomain as the keyword domain. can do. According to an embodiment, the keyword domain extraction unit 112 may extract a plurality of keyword domains from the input domain based on the domain change rule. In this case, the detection system 100 may perform the following step S320 for each of the plurality of extracted keyword domains.

탐지 시스템(100)은 추출된 키워드 도메인이 사이트 DB(130) 내에 존재하는 지 여부를 확인할 수 있다(S320). 탐지 시스템(100)의 키워드 도메인 추출부(112) 또는 프로세서(미도시)는, 추출된 키워드 도메인이 사이트 DB(130) 내에 저장되어 있는지 여부를 확인할 수 있다.The detection system 100 may check whether the extracted keyword domain exists in the site DB 130 (S320). The keyword domain extraction unit 112 or processor (not shown) of the detection system 100 may check whether the extracted keyword domain is stored in the site DB 130 .

확인 결과, 추출된 키워드 도메인이 사이트 DB(130) 내에 존재하는 경우(S320의 YES), 탐지 시스템(100)은 상기 입력 도메인이 기존 사이트의 최신 도메인인 것으로 탐지할 수 있다(S330). 실시 예에 따라, 탐지 시스템(100)은 상기 입력 도메인에 대한 정보를 사이트 DB(130)에 업데이트할 수 있다.As a result of checking, if the extracted keyword domain exists in the site DB 130 (YES in S320), the detection system 100 may detect that the input domain is the latest domain of the existing site (S330). According to an embodiment, the detection system 100 may update the information on the input domain in the site DB 130 .

반면, 상기 추출된 키워드 도메인이 사이트 DB(130) 내에 존재하지 않는 경우(S320의 NO), 탐지 시스템(100)은 상기 입력 도메인에 대응하는 웹사이트의 HTML 태그 순서를 이용하여 상기 웹사이트가 기존 사이트인지 또는 신규 사이트인지 여부를 탐지할 수 있다. On the other hand, if the extracted keyword domain does not exist in the site DB 130 (NO in S320), the detection system 100 uses the HTML tag sequence of the website corresponding to the input domain to determine if the website is existing. It can detect whether it is a site or a new site.

구체적으로, 탐지 시스템(100)은 사이트 DB(130) 내의 웹사이트들의 HTML 태그 순서들 각각과, 상기 입력 도메인에 대응하는 웹사이트의 HTML 태그 순서 간의 유사도를 산출할 수 있다(S340).Specifically, the detection system 100 may calculate a similarity between each of the HTML tag sequences of the websites in the site DB 130 and the HTML tag sequences of the website corresponding to the input domain ( S340 ).

HTML 태그 순서는 웹사이트의 고유한 구조를 나타내는 정보이므로, 상기 입력 도메인에 대응하는 웹사이트의 HTML 태그 순서와 유사한 HTML 태그 순서를 갖는 기존 사이트가 존재할 경우, 상기 입력 도메인에 대응하는 웹사이트는 기존 사이트와 동일한 사이트인 것으로 간주될 수 있다.Since the HTML tag sequence is information representing the unique structure of a website, if there is an existing site having an HTML tag sequence similar to that of the website corresponding to the input domain, the website corresponding to the input domain is It may be considered to be the same site as the site.

예컨대, 태그 순서 비교부(114)는 파이썬(python)의 HTML_similarity 라이브러리 등의 툴(tool)을 활용하여, 사이트 DB(130) 내의 사이트(웹사이트)들의 HTML 태그 순서들 각각과, 상기 입력 도메인에 대응하는 웹사이트의 HTML 태그 순서 간의 유사도를 산출할 수 있다.For example, the tag sequence comparison unit 114 utilizes a tool such as an HTML_similarity library of Python, each of the HTML tag sequences of the sites (websites) in the site DB 130, and the input domain. A degree of similarity between the HTML tag sequences of corresponding websites may be calculated.

유사도의 산출 결과에 기초하여, 탐지 시스템(100)은 사이트 DB(130) 내의 사이트들 중 기설정된 기준 값보다 높은 유사도를 갖는 사이트가 존재하는지 여부를 확인할 수 있다(S350).Based on the result of calculating the degree of similarity, the detection system 100 may check whether a site having a similarity higher than a preset reference value among sites in the site DB 130 exists ( S350 ).

확인 결과, 상기 기준 값보다 높은 유사도를 갖는 사이트가 존재하는 경우(S350의 YES), 탐지 시스템(100)은 상기 입력 도메인에 대응하는 웹사이트가 상기 기준 값보다 높은 유사도를 갖는 기존 사이트임을 인식하고, 이에 기초하여 상기 입력 도메인은 기존 사이트의 최신 도메인인 것으로 탐지할 수 있다(S360). As a result of checking, if there is a site having a similarity higher than the reference value (YES in S350), the detection system 100 recognizes that the website corresponding to the input domain is an existing site having a similarity higher than the reference value, and , based on this, it can be detected that the input domain is the latest domain of the existing site (S360).

반면, 상기 기준 값보다 높은 유사도를 갖는 사이트가 존재하지 않는 경우(S350의 NO), 탐지 시스템(100)은 상기 입력 도메인에 대응하는 웹사이트가 신규 사이트인 것으로 탐지할 수 있다(S370).On the other hand, if there is no site having a similarity higher than the reference value (NO in S350), the detection system 100 may detect that the website corresponding to the input domain is a new site (S370).

예컨대, 상기 기준 값이 '90%'로 설정된 경우, 탐지 시스템(100)은 상기 90%보다 높은 유사도를 갖는 사이트가 존재하는지 여부를 확인할 수 있다. 확인 결과 90%보다 높은 유사도(예컨대 95%)를 갖는 사이트가 존재하는 경우, 탐지 시스템(100)은 상기 입력 도메인에 대응하는 웹사이트는 상기 사이트와 동일한 것으로 판단하고, 상기 입력 도메인은 기존 사이트의 최신 도메인인 것으로 탐지할 수 있다.For example, when the reference value is set to '90%', the detection system 100 may check whether a site having a similarity higher than 90% exists. As a result of the confirmation, if there is a site having a similarity higher than 90% (eg, 95%), the detection system 100 determines that the website corresponding to the input domain is the same as the site, and the input domain is that of the existing site. It can be detected that the domain is up-to-date.

도 3 내지 도 4의 실시 예에 따르면, 탐지 시스템(100)은 탐지 대상이 되는 입력 도메인의 키워드 도메인을 추출하거나, 입력 도메인의 웹사이트의 HTML 태그 순서를 이용하여 상기 웹사이트(불법 사이트)가 기 존재하는 불법 사이트인지 또는 신규로 생성된 불법 사이트인지 여부를 자동으로 탐지할 수 있다. 이에 따라, 불법 사이트들에 대한 보다 정확하고 효율적인 관리가 이루어질 수 있다.3 to 4 , the detection system 100 extracts the keyword domain of the input domain to be detected or uses the HTML tag sequence of the website of the input domain to detect the website (illegal site). Whether it is an existing illegal site or a newly created illegal site can be automatically detected. Accordingly, more accurate and efficient management of illegal sites can be made.

도 5a 내지 도 5b는 본 개시의 예시적 실시 예에 따른 웹사이트의 생애주기 단계를 탐지하는 동작을 설명하기 위한 플로우차트이다. 도 6은 접속 차단된 웹사이트를 우회 접속 목록에 추가하기 위해 탐지 시스템에 의해 실행되는 프로그램 코드의 예시도이다. 도 7은 도메인의 접속 요청에 대해 웹 서버로부터 제공되는 응답 코드를 분류한 표이다. 도 8은 접속 요청한 도메인에 대한 리다이렉트 여부에 기초하여 생애주기 단계를 탐지하기 위해 탐지 시스템에 의해 실행되는 프로그램 코드의 예시도이다.5A to 5B are flowcharts for explaining an operation of detecting a life cycle stage of a website according to an exemplary embodiment of the present disclosure. 6 is an exemplary diagram of a program code executed by a detection system to add a blocked website to a bypass access list. 7 is a table in which response codes provided from a web server are classified in response to a domain access request. 8 is an exemplary diagram of a program code executed by a detection system to detect a life cycle stage based on whether or not a redirect to a domain requesting access is made.

도 5a 내지 도 5b를 참조하면, 탐지 시스템(100)은 입력 도메인에 대응하는 웹사이트의 접속 요청을 전송할 수 있다(S500).5A to 5B , the detection system 100 may transmit a request for access to a website corresponding to an input domain ( S500 ).

탐지 시스템(100)은 상기 입력 도메인을 포함하는 URL을 이용하여, 상기 입력 도메인에 대응하는 웹사이트의 접속 요청을 인터넷 서비스 제공자(Internet Service Provider (ISP))의 DNS 서버로 전송할 수 있다. 상기 DNS 서버는 수신된 접속 요청에 포함된 URL을 상기 웹사이트에 대응하는 웹 서버의 IP 주소로 변환함으로써, 상기 웹 서버로의 접속을 진행하게 된다.The detection system 100 may transmit a request for accessing a website corresponding to the input domain to a DNS server of an Internet service provider (ISP) by using the URL including the input domain. The DNS server converts the URL included in the received access request into an IP address of a web server corresponding to the website, thereby proceeding to access the web server.

탐지 시스템(100)은 상기 웹사이트로의 접속 차단 여부를 확인할 수 있다(S505). The detection system 100 may check whether access to the website is blocked (S505).

예컨대, 상기 접속 요청에 대한 응답 코드가 수신되거나 응답 도메인이 수신되는 경우, 탐지 시스템(100)은 상기 웹사이트로의 접속이 차단되지 않은 것으로 확인할 수 있다. 반면, 상기 접속 요청에 대해 접속 에러가 발생하거나, 응답 코드 또는 응답 도메인이 수신되지 않는 경우, 탐지 시스템(100)은 상기 웹사이트로의 접속이 차단된 것으로 확인할 수 있다.For example, when a response code to the access request is received or a response domain is received, the detection system 100 may confirm that access to the website is not blocked. On the other hand, when an access error occurs in response to the access request or a response code or response domain is not received, the detection system 100 may determine that access to the website is blocked.

상기 입력 도메인에 대응하는 웹사이트의 접속 요청이 차단된 경우(S505의 YES), 탐지 시스템(100)은 도 5b에서 후술할 바와 같이 상기 입력 도메인에 대한 우회 접속을 시도할 수 있다(S545).When the access request of the website corresponding to the input domain is blocked (YES in S505), the detection system 100 may attempt a bypass access to the input domain as described later with reference to FIG. 5B (S545).

이와 관련하여 도 6을 참조하면, 탐지 시스템(100)(또는 생애주기 탐지부(120))은 접속 차단 여부에 기초하여, 상기 입력 도메인에 대한 우회 접속 시도 필요 여부를 분류할 수 있다. 도 6에서는 파이썬 Requests 라이브러리의 "Connection Error" 발생 여부에 기초하여 우회 접속 시도가 필요한 사이트(도메인)를 분류하는 프로그램 코드(600)가 개시되어 있다. 다만 이는 설명의 편의를 위한 일례에 해당하는 것으로서, 상기 입력 도메인에 대한 우회 접속 시도 필요 여부를 분류하는 방법은 다양하게 구현될 수 있다.In this regard, referring to FIG. 6 , the detection system 100 (or the life cycle detection unit 120 ) may classify whether a bypass access attempt is required for the input domain based on whether access is blocked. In FIG. 6, a program code 600 for classifying a site (domain) requiring a bypass connection attempt based on whether or not "Connection Error" of the Python Requests library occurs is disclosed. However, this corresponds to an example for convenience of description, and a method for classifying whether a bypass access attempt is required for the input domain may be implemented in various ways.

반면, 상기 입력 도메인에 대응하는 웹사이트의 접속 요청이 차단되지 않은 경우(S505의 NO), 탐지 시스템(100)은 상기 접속 요청에 대응하는 응답 코드를 확인할 수 있다(S510).On the other hand, when the access request of the website corresponding to the input domain is not blocked (NO in S505), the detection system 100 may check a response code corresponding to the access request (S510).

상기 응답 코드는, 상기 접속 요청에 응답하여 웹 서버가 전송하는 코드로서, HTTP 응답 메시지에 포함되는 HTTP 응답 코드(또는 HTTP 상태 코드)에 해당할 수 있다. 도 7에 도시된 응답 코드 테이블(700)을 참조하면, 상기 응답 코드는 세 자리의 숫자로 구성될 수 있다. The response code is a code transmitted by the web server in response to the access request, and may correspond to an HTTP response code (or HTTP status code) included in an HTTP response message. Referring to the response code table 700 shown in FIG. 7 , the response code may be composed of three digits.

상기 응답 코드는 첫번째 자리의 숫자를 기준으로 그 상태가 크게 분류될 수 있다. 구체적으로 첫번째 자리의 숫자가 '1'임은, 웹 서버가 요청을 수신하였고 작업을 계속 중임을 나타내는 상태를 의미하고, 상기 첫번째 자리의 숫자가 '2'임은 접속 성공한 상태를 의미한다. 상기 첫번째 자리의 숫자가 '3'임은, 접속 요청한 도메인(신규 도메인)과 응답 도메인이 상이한 상태, 즉 리다이렉션(redirection)이 발생한 상태를 의미할 수 있다.The state of the response code may be largely classified based on the number of the first digit. Specifically, when the first digit is '1', it means that the web server has received a request and continues to work, and the first digit of '2' means that the connection is successful. When the first digit is '3', it may mean a state in which an access request domain (new domain) and a response domain are different, that is, a state in which redirection has occurred.

한편, 첫번째 자리의 숫자가 '4'임은, 상기 접속 요청에 대해 오류가 발생한 상태를 의미할 수 있다. 구체적인 응답 코드들을 일부 살펴보면, '400' 응답 코드는 서버가 요청의 구문을 인식하지 못한 상태(잘못된 요청)를 의미하고, '401'은 접속을 위한 인증이 필요한 상태(권한 없음)를 의미할 수 있다. '402'은 결제가 필요한 상태(결제 필요), '403'은 서버가 요청을 거부하는 상태(금지)를 의미하며, 특히 응답 페이지에 "Forbidden" 키워드가 포함된 경우에는 모든 사용자 접근을 차단하며 웹사이트가 운영되지 않는 상태로서 폐쇄 단계(50)에 대응할 수 있다. '404'는 요청한 페이지를 찾을 수 없는 상태(찾을 수 없음)로서 상기 신규 도메인에 대응하는 웹 서버가 존재하지 않음을 의미할 수 있다.Meanwhile, when the first digit is '4', it may mean that an error has occurred with respect to the access request. Looking at some of the specific response codes, a '400' response code means that the server did not recognize the syntax of the request (bad request), and '401' means a status that requires authentication for access (no permission). have. '402' means payment is required (payment required), '403' means the server rejects the request (prohibited). In particular, if the response page contains the "Forbidden" keyword, all user access is blocked. It may correspond to the closing step 50 as a state in which the website is not operated. '404' indicates that the requested page cannot be found (not found) and may mean that a web server corresponding to the new domain does not exist.

한편, 첫번째 자리의 숫자가 '5'임은, 상기 접속 요청에 대해 서버 오류가 발생한 상태를 의미할 수 있다. 이 중 '500' 응답 코드는 서버 내부의 에러로 인해 도메인 서버가 정상 운영되지 않는 상태를 의미한다. Meanwhile, when the first digit is '5', it may mean that a server error has occurred with respect to the access request. Among them, the '500' response code means that the domain server is not operating normally due to an internal error in the server.

탐지 시스템(100)은 상기 응답 코드에 기초하여, 상기 입력 도메인에 대응하는 웹사이트의 생애주기 단계를 탐지할 수 있다.The detection system 100 may detect a life cycle stage of a website corresponding to the input domain based on the response code.

다시 도 5a를 참조하면, 상기 응답 코드가 폐쇄 단계로 분류된 응답 코드로 확인되는 경우, 탐지 시스템(100)은 상기 입력 도메인에 대응하는 웹사이트의 생애주기 단계가 폐쇄 단계(50)인 것으로 탐지할 수 있다(S515).Referring back to FIG. 5A , when the response code is identified as a response code classified as a closed phase, the detection system 100 detects that the life cycle phase of the website corresponding to the input domain is the closed phase 50 . It can be done (S515).

일례로, 상기 폐쇄 단계로 분류된 응답 코드는 '404' 및 '500'을 포함할 수 있다. 또한, '403' 응답 코드는 응답 페이지에 "Forbidden" 키워드가 포함된 경우 폐쇄 단계로 분류될 수 있다. 탐지 시스템(100)은 상기 접속 요청에 대응하여 수신되는 응답 코드가 '404', '500', 또는 응답 페이지에 "Forbidden" 키워드가 포함된 '403'인 경우, 상기 입력 도메인에 대응하는 웹사이트의 생애주기 단계가 폐쇄 단계(50)인 것으로 탐지할 수 있다.For example, the response code classified as the closing stage may include '404' and '500'. In addition, the '403' response code may be classified as a closed stage when the "Forbidden" keyword is included in the response page. When the response code received in response to the access request is '404', '500', or '403' including the keyword "Forbidden" in the response page, the detection system 100 is a website corresponding to the input domain. It can be detected that the life cycle stage of is a closed stage (50).

한편, 탐지 시스템(100)은 상기 접속 요청에 따라 접속된 웹사이트의 도메인(응답 도메인)을 확인할 수 있다(S520). 확인 결과, 상기 입력 도메인과 상기 응답 도메인이 동일한 경우(S525의 YES), 탐지 시스템(100)은 상기 입력 도메인에 대응하는 웹사이트의 생애주기 단계가 운영 단계(20)인 것으로 탐지할 수 있다(S530).Meanwhile, the detection system 100 may check the domain (response domain) of the website accessed according to the access request (S520). As a result of the check, if the input domain and the response domain are the same (YES in S525), the detection system 100 may detect that the life cycle phase of the website corresponding to the input domain is the operation phase 20 ( S530).

상기 입력 도메인과 상기 응답 도메인이 동일함은, 상기 입력 도메인을 이용하여 웹사이트에 정상적으로 접속할 수 있음을 의미한다. 따라서, 탐지 시스템(100)은 상기 입력 도메인에 대응하는 웹사이트의 생애주기 단계가 운영 단계(20)인 것으로 탐지할 수 있다. 비록 도시되지는 않았으나, 탐지 시스템(100)은 응답 코드의 첫번째 숫자가 '2'인 경우, 상기 생애주기 단계가 운영 단계(20)인 것으로 탐지할 수도 있다.When the input domain and the response domain are the same, it means that a website can be normally accessed using the input domain. Accordingly, the detection system 100 may detect that the life cycle stage of the website corresponding to the input domain is the operation stage 20 . Although not shown, the detection system 100 may detect that the life cycle phase is the operation phase 20 when the first digit of the response code is '2'.

반면, 상기 입력 도메인과 상기 응답 도메인이 다른 경우(S525의 NO), 탐지 시스템(100)은 상기 응답 도메인이 기 분류된 도메인인지 여부를 확인할 수 있다(S535). On the other hand, when the input domain and the response domain are different (NO in S525), the detection system 100 may check whether the response domain is a pre-classified domain (S535).

상기 입력 도메인과 상기 응답 도메인이 다름은, 상기 입력 도메인을 이용한 접속 시 리다이렉션이 발생함을 의미할 수 있다. 탐지 시스템(100)은 상기 입력 도메인과 상기 응답 도메인의 동일 여부를 비교하여 리다이렉션의 발생을 감지할 수 있다. 또는, 탐지 시스템(100)은 응답 코드가 '3xx'인 경우 상기 입력 도메인과 상기 응답 도메인이 다른 것으로 판단함으로써 리다이렉션의 발생을 감지할 수도 있다.The difference between the input domain and the response domain may mean that redirection occurs when accessing the input domain using the input domain. The detection system 100 may detect the occurrence of redirection by comparing whether the input domain and the response domain are the same. Alternatively, when the response code is '3xx', the detection system 100 may detect the occurrence of redirection by determining that the input domain and the response domain are different.

상기 응답 도메인이 기 분류된 도메인인 경우(S535의 YES), 탐지 시스템(100)은 도 5b에서 후술할 바와 같이 상기 입력 도메인에 대한 우회 접속을 시도할 수 있다(S545). 반면, 상기 응답 도메인이 기 분류된 도메인이 아닌 경우(S535의 NO), 탐지 시스템(100)은 상기 입력 도메인에 대응하는 웹사이트의 생애주기 단계가 변경 단계(40)인 것으로 탐지할 수 있다(S540).When the response domain is a pre-classified domain (YES in S535), the detection system 100 may attempt a bypass access to the input domain as described later with reference to FIG. 5B (S545). On the other hand, if the response domain is not a pre-classified domain (NO in S535), the detection system 100 may detect that the life cycle phase of the website corresponding to the input domain is the change phase 40 ( S540).

리다이렉션은 웹사이트 운영자에 의해 의도되거나, 기관(방송통신심의위원회 등)에 의해 강제로 발생(예컨대 "warning.or.kr"도메인으로 리다이렉션)될 수 있다. Redirection may be intentional by the website operator, or may be forced by an institution (such as the Korea Communications Standards Commission) (eg, redirection to the "warning.or.kr" domain).

기관 등에 의해 강제로 발생하는 리다이렉션의 경우, 상기 입력 도메인에 대응하는 웹사이트가 아닌 다른 웹사이트로 접속되게 된다. 이러한 리다이렉션은 웹사이트 운영자에 의해 의도된 리다이렉션이 아니므로, 상기 웹사이트의 생애주기 단계를 탐지하기 위해서는 우회 접속을 시도할 필요가 있다. 특히, 기관 등에 의해 강제로 발생하는 리다이렉션의 경우, 리다이렉션되는 도메인이 일정(한국의 경우 "warning.or.kr"도메인)하므로, 해당 도메인을 우회 접속 시도가 필요한 도메인으로 분류할 수 있다. 즉, 기관에 의해 강제로 발생하는 리다이렉션 시의 응답 도메인은 상기 기 분류된 도메인에 포함될 수 있다. 탐지 시스템(100)은 응답 도메인이 상기 기 분류된 도메인과 동일한 경우, 우회 접속을 시도할 수 있다.In the case of redirection that is forcibly generated by an institution or the like, a website other than the website corresponding to the input domain is accessed. Since this redirection is not a redirection intended by the website operator, it is necessary to attempt a bypass connection in order to detect the lifecycle stage of the website. In particular, in the case of redirection that is forced by an institution, etc., since the redirected domain is constant (“warning.or.kr” domain in Korea), the domain can be classified as a domain requiring a bypass access attempt. That is, the response domain at the time of redirection forcibly generated by the institution may be included in the pre-classified domain. The detection system 100 may attempt a bypass connection when the response domain is the same as the previously classified domain.

반면, 웹사이트 운영자에 의해 의도되는 리다이렉션은, 웹사이트 운영자가 상기 웹사이트의 접속 도메인을 상기 입력 도메인에서 다른 도메인(최신 도메인)으로 변경한 것일 수 있다. 즉, 웹사이트의 접속 도메인이 최신 도메인으로 변경되었으므로, 상기 웹사이트의 생애주기 단계는 변경 단계(40)에 해당할 수 있다. 상기 최신 도메인에 대응하는 응답 도메인은 상기 기 분류된 도메인에 포함되지 않으므로, 탐지 시스템(100)은 상기 웹사이트의 생애주기 단계를 변경 단계(40)로 탐지할 수 있다.On the other hand, in the redirection intended by the website operator, the website operator may change the access domain of the website from the input domain to another domain (the latest domain). That is, since the access domain of the website has been changed to the latest domain, the life cycle phase of the website may correspond to the change phase 40 . Since the response domain corresponding to the latest domain is not included in the pre-classified domain, the detection system 100 may detect the life cycle phase of the website as the changing phase 40 .

도 5b를 참조하면, 탐지 시스템(100)은 S505 단계에 따라 접속이 차단되거나, S535 단계에 따라 응답 도메인이 기 분류된 도메인인 경우, 상기 입력 도메인에 대응하는 웹사이트에 대한 우회 접속을 시도할 수 있다(S545).Referring to FIG. 5B , the detection system 100 attempts a bypass access to the website corresponding to the input domain when the access is blocked according to step S505 or the response domain is a pre-classified domain according to step S535. It can be (S545).

도 2에서 상술한 바와 같이, 생애주기 탐지부(120)의 우회 접속 실행부(126)는 우회 접속을 위한 VPN 애플리케이션을 포함할 수 있다. 우회 접속 실행부(126)는 VPN을 통해, 상기 입력 도메인을 이용하여 웹사이트에 대한 우회 접속을 시도할 수 있다.As described above in FIG. 2 , the bypass connection execution unit 126 of the life cycle detection unit 120 may include a VPN application for bypass connection. The bypass connection execution unit 126 may attempt a bypass access to the website using the input domain through the VPN.

우회 접속의 시도에도 불구하고 접속이 차단된다면(S550의 YES), 웹사이트에 대한 정상 접속 및 우회 접속 모두가 불가능함을 의미할 수 있다. 이에 따라, 탐지 시스템(100)은 상기 웹사이트의 생애주기 단계를 폐쇄 단계(50)로 탐지할 수 있다(S555). If the access is blocked despite the bypass access attempt (YES in S550), it may mean that both the normal access and the bypass access to the website are impossible. Accordingly, the detection system 100 may detect the life cycle stage of the website as the closing stage 50 (S555).

한편, 우회 접속 시 상기 웹사이트로의 접속이 가능한 경우(S550의 NO), 탐지 시스템(100)은 상기 입력 도메인과 응답 도메인을 비교하여 생애주기 단계를 탐지할 수 있다(S560). On the other hand, when access to the website is possible during bypass access (NO in S550), the detection system 100 may detect a life cycle stage by comparing the input domain with the response domain (S560).

비교 결과 상기 입력 도메인과 상기 응답 도메인이 동일한 경우(S560의 YES), 탐지 시스템(100)은 상기 입력 도메인에 대응하는 웹사이트의 생애주기 단계를 대응 단계(30)로 탐지할 수 있다(S565). 반면, 상기 입력 도메인과 상기 응답 도메인이 다른 경우(S560의 NO)(리다이렉션이 발생한 경우), 탐지 시스템(100)은 상기 입력 도메인에 대응하는 웹사이트의 생애주기 단계를 변경 단계(40)로 탐지할 수 있다(S570).As a result of the comparison, if the input domain and the response domain are the same (YES in S560), the detection system 100 may detect the life cycle stage of the website corresponding to the input domain as the corresponding step 30 (S565) . On the other hand, when the input domain and the response domain are different (NO in S560) (when redirection occurs), the detection system 100 detects the life cycle stage of the website corresponding to the input domain as a change step 40 You can (S570).

도 8에 도시된 프로그램 코드(800)의 일 실시 예를 참조하면, 탐지 시스템(100)의 응답 도메인 확인부(124)는 상기 입력 도메인을 이용한 접속(정상 접속 및 우회 접속) 시, 상기 입력 도메인과 응답 도메인을 비교함으로써 리다이렉션의 발생 여부를 판단할 수 있다. Referring to an embodiment of the program code 800 shown in FIG. 8 , the response domain check unit 124 of the detection system 100 performs a connection (normal connection and bypass connection) using the input domain, the input domain. By comparing the response domain with the response domain, it is possible to determine whether redirection has occurred.

예컨대, 리다이렉션이 발생하고, 응답 도메인을 포함하는 응답 URL(res.url)이 기 분류된 도메인을 포함하는 URL("http://warning.or.kr")인 경우, 탐지 시스템(100)은 상기 입력 도메인에 대해 우회 접속을 시도할 수 있다. For example, when redirection occurs and the response URL (res.url) including the response domain is a URL ("http://warning.or.kr") including the pre-classified domain, the detection system 100 is A bypass connection may be attempted to the input domain.

한편, 리다이렉션이 발생하지 않고, 우회 접속을 위한 VPN이 사용된 경우, 탐지 시스템(100)은 상기 입력 도메인에 대응하는 웹사이트의 생애주기 단계를 대응 단계(30)로 탐지할 수 있다. 반면 리다이렉션이 발생하지 않고, 정상 접속이 이루어진 경우, 탐지 시스템(100)은 상기 웹사이트의 생애주기 단계를 운영 단계(20)로 탐지할 수 있다. On the other hand, when redirection does not occur and a VPN for bypass connection is used, the detection system 100 may detect the life cycle stage of the website corresponding to the input domain as the corresponding stage 30 . On the other hand, when redirection does not occur and a normal connection is made, the detection system 100 may detect the life cycle stage of the website as the operation stage 20 .

한편, 리다이렉션이 발생하고, 응답 URL(res.url)에 포함되는 응답 도메인이 기 분류된 도메인에 해당하지 않는 경우, 탐지 시스템(100)은 상기 웹사이트의 생애주기 단계를 변경 단계(40)로 탐지할 수 있다.On the other hand, when redirection occurs and the response domain included in the response URL (res.url) does not correspond to a pre-classified domain, the detection system 100 changes the life cycle phase of the website to a changing phase 40 . can detect

탐지 시스템(100)은, 상술한 바와 같이 탐지된 생애주기 단계에 대한 정보를 사이트 DB(130)에 업데이트함으로써, 웹사이트의 생애주기 단계에 대한 정보를 최신 정보로 관리할 수 있다.The detection system 100 can manage the information on the life cycle stage of the website with the latest information by updating the information on the life cycle stage detected as described above in the site DB 130 .

도 5a 내지 도 8에 도시된 실시 예에 따르면, 본 개시에 따른 탐지 시스템(100)은 입력 도메인을 이용한 접속(정상 접속 및 우회 접속) 시 접속 차단 여부, 응답 코드, 및/또는 응답 도메인에 기초하여 웹사이트의 생애주기 단계를 탐지하여 관리할 수 있다. 즉, 종래와 달리 웹사이트의 생애주기 단계의 자동 탐지 및 관리가 가능해짐에 따라, 탐지 및 관리의 신속성, 정확성, 및 효율성이 극대화될 수 있다.According to the embodiment shown in FIGS. 5A to 8 , the detection system 100 according to the present disclosure is based on whether access is blocked, a response code, and/or a response domain during access (normal access and bypass access) using an input domain. Thus, it is possible to detect and manage the stages of the life cycle of a website. That is, unlike the prior art, as automatic detection and management of the life cycle stage of a website is possible, the speed, accuracy, and efficiency of detection and management can be maximized.

도 9는 본 개시의 예시적 실시 예에 따른 웹사이트의 생애주기 단계를 탐지하는 디바이스의 개략적인 블록도이다.9 is a schematic block diagram of a device for detecting a life cycle stage of a website according to an exemplary embodiment of the present disclosure.

도 9를 참조하면, 본 개시의 실시 예에 따른 디바이스(900)는 도 2에서 상술한 탐지 시스템(100)을 구성하는 적어도 하나의 컴퓨팅 장치 중 어느 하나에 대응할 수 있다.Referring to FIG. 9 , a device 900 according to an embodiment of the present disclosure may correspond to any one of at least one computing device constituting the detection system 100 described above in FIG. 2 .

이러한 디바이스(900)는 프로세서(910), 통신 인터페이스(920), 및 메모리(930)를 포함할 수 있다. 다만, 디바이스(900)의 구성 요소가 전술한 예에 한정되는 것은 아니다. 예를 들어, 디바이스(900)는 전술한 구성 요소들보다 더 많은 구성 요소를 포함하거나 더 적은 구성 요소를 포함할 수 있다. 또한, 프로세서(910)는 적어도 하나일 수 있으며, 통신 인터페이스(920) 및 메모리(930) 또한 각각 적어도 하나일 수 있다. 또한, 프로세서(910), 통신 인터페이스(920), 및 메모리(930) 중 둘 이상이 하나의 칩으로 결합된 형태일 수도 있다.The device 900 may include a processor 910 , a communication interface 920 , and a memory 930 . However, the components of the device 900 are not limited to the above-described example. For example, the device 900 may include more or fewer components than the aforementioned components. In addition, the processor 910 may be at least one, and the communication interface 920 and the memory 930 may also be at least one each. In addition, two or more of the processor 910 , the communication interface 920 , and the memory 930 may be combined into one chip.

일 실시 예에 따라, 프로세서(910)는 기 정의된 도메인 변경 규칙들(패턴들)에 기초하여 입력 도메인으로부터 키워드 도메인을 추출하는 키워드 도메인 추출부(112)에 대응할 수 있다. 프로세서(910)는 추출된 키워드 도메인을 사이트 DB(130)에 저장된 키워드 도메인들과 비교함으로써, 상기 입력 도메인에 대응하는 웹사이트가 기존 사이트인지 또는 신규 사이트인지 여부를 탐지할 수 있다.According to an embodiment, the processor 910 may correspond to the keyword domain extractor 112 that extracts a keyword domain from an input domain based on predefined domain change rules (patterns). The processor 910 may detect whether the website corresponding to the input domain is an existing site or a new site by comparing the extracted keyword domain with keyword domains stored in the site DB 130 .

일 실시 예에 따라, 프로세서(910)는 입력 도메인에 대응하는 웹사이트의 HTML 태그 순서를, 사이트 DB(130)에 저장된 웹사이트들 각각의 HTML 태그 순서와 비교하여 유사도를 산출하는 태그 순서 비교부(114)에 대응할 수 있다. 프로세서(910)는 산출된 유사도들에 기초하여 상기 입력 도메인에 대응하는 웹사이트가 기존 사이트인지 또는 신규 사이트인지 여부를 탐지할 수 있다.According to an embodiment, the processor 910 compares the HTML tag sequence of the website corresponding to the input domain with the HTML tag sequence of each of the websites stored in the site DB 130 to calculate the similarity of the tag sequence comparison unit It can correspond to (114). The processor 910 may detect whether the website corresponding to the input domain is an existing site or a new site based on the calculated similarities.

일 실시 예에 따라, 프로세서(910)는 상기 입력 도메인을 이용한 접속 요청을 전송하도록 통신 인터페이스(920)를 제어하고, 통신 인터페이스(920)를 통해 응답 코드 및/또는 응답 도메인을 포함하는 응답 메시지를 수신할 수 있다. 프로세서(910)는 수신된 응답 코드 및/또는 응답 도메인에 기초하여 상기 입력 도메인에 대응하는 웹사이트의 생애주기 단계를 탐지하는 응답 코드 확인부(122) 및/또는 응답 도메인 확인부(124)에 대응할 수 있다.According to an embodiment, the processor 910 controls the communication interface 920 to transmit an access request using the input domain, and receives a response message including a response code and/or a response domain through the communication interface 920 . can receive The processor 910 provides a response code verification unit 122 and/or a response domain verification unit 124 for detecting a life cycle stage of a website corresponding to the input domain based on the received response code and/or response domain. can respond

일 실시 예에 따라, 프로세서(910)는 VPN을 통해 상기 입력 도메인에 대응하는 웹사이트의 우회 접속을 실행하는 우회 접속 실행부(126)에 대응할 수 있다. 프로세서(910)는 우회 접속 시의 접속 여부나 응답 도메인에 기초하여 상기 웹사이트의 생애주기 단계를 탐지할 수 있다.According to an embodiment, the processor 910 may correspond to the bypass connection execution unit 126 that executes a bypass connection of a website corresponding to the input domain through a VPN. The processor 910 may detect a life cycle stage of the website based on whether or not a connection is made or a response domain during the bypass connection.

일 실시 예에 따라, 프로세서(910)는 상술한 탐지 결과(기존 사이트 여부 및/또는 생애주기 단계)에 기초하여 사이트 DB(130)에 저장된 정보를 업데이트할 수 있다.According to an embodiment, the processor 910 may update information stored in the site DB 130 based on the above-described detection result (existing site status and/or life cycle stage).

이러한 프로세서(910)는 CPU, AP(application processor), 집적 회로, 마이크로컴퓨터, ASIC(application specific integrated circuit), FPGA(field programmable gate array), 및/또는 NPU(neural processing unit) 등의 하드웨어를 포함할 수 있다.The processor 910 includes hardware such as a CPU, an application processor (AP), an integrated circuit, a microcomputer, an application specific integrated circuit (ASIC), a field programmable gate array (FPGA), and/or a neural processing unit (NPU). can do.

통신 인터페이스(920)는 디바이스(900)를 네트워크를 통해 다른 디바이스, DNS 서버, 웹사이트의 웹 서버 등과 연결시킬 수 있다. 이러한 통신 인터페이스(920)는 기 공지된 각종 유무선 통신 방식들 중 적어도 하나를 지원하는 모뎀을 포함할 수 있다.The communication interface 920 may connect the device 900 to another device, a DNS server, a web server of a website, and the like through a network. The communication interface 920 may include a modem supporting at least one of various known wired/wireless communication methods.

본 개시의 일 실시 예에 따르면, 메모리(930)는 디바이스(900)의 동작에 필요한 프로그램 및 데이터를 저장할 수 있다.According to an embodiment of the present disclosure, the memory 930 may store programs and data necessary for the operation of the device 900 .

또한, 메모리(930)는 프로세서(910)를 통해 생성되거나 획득된 데이터 중 적어도 하나를 저장할 수 있다. 실시 예에 따라, 메모리(930)는 도 2에서 상술한 사이트 DB(130)를 포함할 수도 있다.Also, the memory 930 may store at least one of data generated or acquired through the processor 910 . According to an embodiment, the memory 930 may include the site DB 130 described above with reference to FIG. 2 .

메모리(930)는 롬(ROM), 램(RAM), 플래시 메모리, SSD, HDD 등의 저장 매체 또는 저장 매체들의 조합으로 구성될 수 있다.The memory 930 may be configured of a storage medium such as ROM, RAM, flash memory, SSD, HDD, or a combination of storage media.

상기한 실시 예들의 설명은 본 개시의 더욱 철저한 이해를 위하여 도면을 참조로 예를 든 것들에 불과하므로, 본 개시의 기술적 사상을 한정하는 의미로 해석되어서는 안될 것이다. Since the descriptions of the above embodiments are merely those given with reference to the drawings for a more thorough understanding of the present disclosure, they should not be construed as limiting the technical spirit of the present disclosure.

또한, 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 개시의 기본적 원리를 벗어나지 않는 범위 내에서 다양한 변화와 변경이 가능함은 명백하다 할 것이다.In addition, it will be apparent to those of ordinary skill in the art to which the present disclosure pertains that various changes and modifications can be made without departing from the basic principles of the present disclosure.

Claims (15)

적어도 하나의 컴퓨팅 장치를 이용한 웹사이트의 생애주기 단계 탐지 방법에 있어서,
웹사이트에 대응하는 입력 도메인을 획득하는 단계;
상기 입력 도메인에 기초하여, 상기 웹사이트가 기존 사이트인지 또는 신규 사이트인지 여부를 탐지하는 단계;
상기 입력 도메인을 이용하여, 상기 웹사이트의 접속 요청을 전송하는 단계; 및
상기 접속 요청에 기초하여, 상기 웹사이트의 생애주기 단계를 탐지하는 단계를 포함하고,
상기 웹사이트가 기존 사이트인지 또는 신규 사이트인지 여부를 탐지하는 단계는,
상기 입력 도메인으로부터 사이트 키워드 도메인을 추출하여, 추출된 키워드 도메인이 사이트 DB 내에 존재하는지 여부를 확인하는 단계;
상기 추출된 키워드 도메인이 상기 사이트 DB 내에 존재하지 않는 경우, 상기 사이트 DB에 포함된 웹사이트들의 HTML 태그 순서들 각각과, 상기 입력 도메인에 대응하는 상기 웹사이트의 HTML 태그 순서 간의 유사도를 산출하는 단계; 및
산출된 유사도에 기초하여, 상기 입력 도메인에 대응하는 상기 웹사이트가 기존 사이트인지 또는 신규 사이트인지 여부를 탐지하는 단계를 포함하는,
웹사이트의 생애주기 단계 탐지 방법.
A method for detecting a life cycle stage of a website using at least one computing device, the method comprising:
obtaining an input domain corresponding to the website;
detecting whether the website is an existing site or a new site based on the input domain;
transmitting a request for access to the website by using the input domain; and
based on the access request, detecting a life cycle stage of the website;
The step of detecting whether the website is an existing site or a new site comprises:
extracting a site keyword domain from the input domain and checking whether the extracted keyword domain exists in the site DB;
When the extracted keyword domain does not exist in the site DB, calculating a similarity between each of the HTML tag sequences of the websites included in the site DB and the HTML tag sequence of the website corresponding to the input domain; ; and
based on the calculated similarity, detecting whether the website corresponding to the input domain is an existing site or a new site,
How to detect stages in the life cycle of a website.
제1항에 있어서,
상기 웹사이트가 기존 사이트인지 또는 신규 사이트인지 여부를 탐지하는 단계는,
상기 입력 도메인으로부터 키워드 도메인을 추출하는 단계;
추출된 키워드 도메인이 사이트 DB 내에 존재하는지 여부를 확인하는 단계; 및
상기 추출된 키워드 도메인이 상기 사이트 DB 내에 존재하는 경우, 상기 웹사이트가 기존 사이트인 것으로 탐지하는 단계를 더 포함하는,
웹사이트의 생애주기 단계 탐지 방법.
According to claim 1,
The step of detecting whether the website is an existing site or a new site comprises:
extracting a keyword domain from the input domain;
checking whether the extracted keyword domain exists in the site DB; and
If the extracted keyword domain exists in the site DB, further comprising the step of detecting that the website is an existing site,
How to detect stages in the life cycle of a website.
제1항에 있어서,
상기 산출된 유사도에 기초하여, 상기 입력 도메인에 대응하는 상기 웹사이트가 기존 사이트인지 또는 신규 사이트인지 여부를 탐지하는 단계는,
상기 사이트 DB에 포함된 웹사이트들 중, 기준 값보다 높은 유사도를 갖는 웹사이트가 존재하는 경우, 상기 입력 도메인에 대응하는 웹사이트가 기존 사이트인 것으로 탐지하는 단계; 및
상기 사이트 DB에 포함된 웹사이트들 중, 상기 기준 값보다 높은 유사도를 갖는 웹사이트가 존재하지 않는 경우, 상기 입력 도메인에 대응하는 웹사이트가 신규 사이트인 것으로 탐지하는 단계를 더 포함하는,
웹사이트 생애주기 단계 탐지 방법.
According to claim 1,
Detecting whether the website corresponding to the input domain is an existing site or a new site based on the calculated similarity includes:
detecting that a website corresponding to the input domain is an existing website, when a website having a similarity higher than a reference value exists among websites included in the site DB; and
The method further comprising: detecting that the website corresponding to the input domain is a new website when there is no website having a similarity higher than the reference value among the websites included in the site DB;
How to detect the stages of a website life cycle.
제1항에 있어서,
상기 웹사이트의 생애주기 단계를 탐지하는 단계는,
상기 접속 요청에 대응하는 응답 코드를 수신하는 단계; 및
수신된 응답 코드가 폐쇄 단계로 분류된 응답 코드인 경우, 상기 웹사이트의 생애주기 단계를 상기 폐쇄 단계로 탐지하는 단계를 포함하는,
웹사이트 생애주기 단계 탐지 방법.
According to claim 1,
The step of detecting the life cycle stage of the website comprises:
receiving a response code corresponding to the access request; and
detecting the life cycle stage of the website as the closing stage when the received response code is a response code classified as the closing stage;
How to detect the stages of a website life cycle.
제1항에 있어서,
상기 웹사이트의 생애주기 단계를 탐지하는 단계는,
상기 접속 요청에 대응하는 응답 도메인을 수신하는 단계;
상기 입력 도메인과 상기 응답 도메인을 비교하는 단계; 및
비교 결과에 기초하여 상기 웹사이트의 생애주기 단계를 탐지하는 단계를 포함하는,
웹사이트 생애주기 단계 탐지 방법.
According to claim 1,
The step of detecting the life cycle stage of the website comprises:
receiving a response domain corresponding to the access request;
comparing the input domain and the response domain; and
detecting a life cycle stage of the website based on the comparison result;
How to detect the stages of a website life cycle.
제5항에 있어서,
상기 비교 결과에 기초하여 상기 웹사이트의 생애주기 단계를 탐지하는 단계는,
상기 입력 도메인과 상기 응답 도메인이 동일한 경우, 상기 웹사이트의 생애주기 단계를 운영 단계로 탐지하는,
웹사이트 생애주기 단계 탐지 방법.
6. The method of claim 5,
The step of detecting the life cycle stage of the website based on the comparison result comprises:
When the input domain and the response domain are the same, detecting the life cycle stage of the website as an operation stage,
How to detect the stages of a website life cycle.
제5항에 있어서,
상기 비교 결과에 기초하여 상기 웹사이트의 생애주기 단계를 탐지하는 단계는,
상기 입력 도메인과 상기 응답 도메인이 다르고, 상기 응답 도메인이 기 분류된 도메인에 포함되지 않는 경우, 상기 웹사이트의 생애주기 단계를 변경 단계로 탐지하는,
웹사이트 생애주기 단계 탐지 방법.
6. The method of claim 5,
The step of detecting the life cycle stage of the website based on the comparison result comprises:
detecting the life cycle phase of the website as a change phase when the input domain and the response domain are different and the response domain is not included in the pre-classified domain;
How to detect the stages of a website life cycle.
제7항에 있어서,
상기 비교 결과에 기초하여 상기 웹사이트의 생애주기 단계를 탐지하는 단계는,
상기 입력 도메인과 상기 응답 도메인이 다르고, 상기 응답 도메인이 상기 기 분류된 도메인에 포함되는 경우, 상기 입력 도메인에 대응하는 상기 웹사이트의 우회 접속을 시도하는 단계; 및
상기 우회 접속의 결과에 기초하여 상기 웹사이트의 생애주기 단계를 탐지하는 단계를 더 포함하는,
웹사이트 생애주기 단계 탐지 방법.
8. The method of claim 7,
The step of detecting the life cycle stage of the website based on the comparison result comprises:
attempting a bypass access to the website corresponding to the input domain when the input domain and the response domain are different and the response domain is included in the pre-classified domain; and
detecting a life cycle stage of the website based on a result of the bypass connection;
How to detect the stages of a website life cycle.
제1항에 있어서,
상기 웹사이트의 생애주기 단계를 탐지하는 단계는,
상기 웹사이트의 접속이 차단되는 경우, 상기 입력 도메인에 대응하는 상기 웹사이트의 우회 접속을 시도하는 단계; 및
상기 우회 접속의 결과에 기초하여 상기 웹사이트의 생애주기 단계를 탐지하는 단계를 포함하는,
웹사이트 생애주기 단계 탐지 방법.
According to claim 1,
The step of detecting the life cycle stage of the website comprises:
when access to the website is blocked, attempting a bypass access to the website corresponding to the input domain; and
detecting a life cycle stage of the website based on a result of the bypass connection;
How to detect the stages of a website life cycle.
제8항 또는 제9항에 있어서,
상기 우회 접속의 결과에 기초하여 상기 웹사이트의 생애주기 단계를 탐지하는 단계는,
상기 웹사이트의 접속이 차단되는 경우, 상기 웹사이트의 생애주기 단계를 폐쇄 단계로 탐지하는 단계;
상기 우회 접속에 따라 수신되는 응답 도메인이 상기 입력 도메인과 동일한 경우, 상기 웹사이트의 생애주기 단계를 대응 단계로 탐지하는 단계; 및
상기 응답 도메인이 상기 입력 도메인과 다른 경우, 상기 웹사이트의 생애주기 단계를 변경 단계로 탐지하는 단계를 포함하는,
웹사이트 생애주기 단계 탐지 방법.
10. The method according to claim 8 or 9,
Detecting the life cycle stage of the website based on the result of the bypass connection,
detecting a life cycle phase of the website as a closed phase when access to the website is blocked;
detecting a life cycle stage of the website as a corresponding stage when the response domain received according to the bypass connection is the same as the input domain; and
detecting the life cycle stage of the website as a change stage when the response domain is different from the input domain;
How to detect the stages of a website life cycle.
통신 인터페이스; 및
입력 도메인에 대응하는 웹사이트가 기존 사이트인지 또는 신규 사이트인지 여부를 탐지하고,
상기 입력 도메인을 이용하여 상기 웹사이트의 접속 요청을 전송하도록 상기 통신 인터페이스를 제어하고,
상기 접속 요청에 기초하여 상기 웹사이트의 생애주기 단계를 탐지하는 프로세서를 포함하고,
상기 프로세서는,
상기 입력 도메인으로부터 사이트 키워드 도메인을 추출하고,
상기 탐지 장치에 포함되거나, 상기 통신 인터페이스를 통해 연결된 장치에 포함된 사이트 DB 내에, 상기 키워드 도메인이 DB 내에 존재하는지 여부를 확인하고,
상기 추출된 키워드 도메인이 상기 사이트 DB 내에 존재하지 않는 경우, 상기 사이트 DB에 포함된 웹사이트들의 HTML 태그 순서들 각각과, 상기 입력 도메인에 대응하는 상기 웹사이트의 HTML 태그 순서 간의 유사도를 산출하고,
산출된 유사도에 기초하여, 상기 웹사이트가 기존 사이트인지 또는 신규 사이트인지 여부를 탐지하는,
웹사이트 생애주기 탐지 장치.
communication interface; and
Detect whether the website corresponding to the input domain is an existing site or a new site,
controlling the communication interface to transmit a request for access to the website by using the input domain;
A processor for detecting a life cycle stage of the website based on the access request,
The processor is
extracting a site keyword domain from the input domain;
Checking whether the keyword domain exists in the DB in the site DB included in the detection device or included in the device connected through the communication interface,
If the extracted keyword domain does not exist in the site DB, calculating a similarity between each of the HTML tag sequences of the websites included in the site DB and the HTML tag sequence of the website corresponding to the input domain;
based on the calculated similarity, detecting whether the website is an existing site or a new site,
Website lifecycle detection device.
제11항에 있어서,
상기 프로세서는,
상기 추출된 키워드 도메인이 상기 사이트 DB 내에 존재하는 경우, 상기 웹사이트가 기존 사이트인 것으로 탐지하는,
웹사이트 생애주기 탐지 장치.
12. The method of claim 11,
The processor is
When the extracted keyword domain exists in the site DB, detecting that the website is an existing site,
Website lifecycle detection device.
제11항에 있어서,
상기 프로세서는,
상기 사이트 DB에 포함된 웹사이트들 중, 기준 값보다 높은 유사도를 갖는 웹사이트가 존재하는 경우, 상기 입력 도메인에 대응하는 웹사이트가 기존 사이트인 것으로 탐지하고,
상기 사이트 DB에 포함된 웹사이트들 중, 상기 기준 값보다 높은 유사도를 갖는 웹사이트가 존재하지 않는 경우, 상기 입력 도메인에 대응하는 웹사이트가 신규 사이트인 것으로 탐지하는,
웹사이트 생애주기 탐지 장치.
12. The method of claim 11,
The processor is
If there is a website having a similarity higher than a reference value among websites included in the site DB, it is detected that the website corresponding to the input domain is an existing website,
Detecting that a website corresponding to the input domain is a new website when there is no website having a similarity higher than the reference value among websites included in the site DB;
Website lifecycle detection device.
제11항에 있어서,
상기 프로세서는,
상기 접속 요청에 대응하는 응답 코드를 수신하고,
수신된 응답 코드가 폐쇄 단계로 분류된 응답 코드인 경우, 상기 웹사이트의 생애주기 단계를 폐쇄 단계로 탐지하는,
웹사이트 생애주기 탐지 장치.
12. The method of claim 11,
The processor is
receiving a response code corresponding to the access request;
When the received response code is a response code classified as a closing stage, detecting the life cycle stage of the website as a closing stage,
Website lifecycle detection device.
제11항에 있어서,
상기 프로세서는,
상기 접속 요청에 대응하는 응답 도메인을 수신하고,
수신된 응답 도메인과 상기 입력 도메인의 동일 여부에 기초하여 상기 웹사이트의 생애주기 단계를 탐지하는,
웹사이트 생애주기 탐지 장치.
12. The method of claim 11,
The processor is
receiving a response domain corresponding to the access request;
detecting the life cycle stage of the website based on whether the received response domain and the input domain are the same,
Website lifecycle detection device.
KR1020200136201A 2020-10-20 2020-10-20 Method and apparatus for detecting life cycle step of website KR102408205B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200136201A KR102408205B1 (en) 2020-10-20 2020-10-20 Method and apparatus for detecting life cycle step of website

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200136201A KR102408205B1 (en) 2020-10-20 2020-10-20 Method and apparatus for detecting life cycle step of website

Publications (2)

Publication Number Publication Date
KR20220052168A KR20220052168A (en) 2022-04-27
KR102408205B1 true KR102408205B1 (en) 2022-06-13

Family

ID=81390876

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200136201A KR102408205B1 (en) 2020-10-20 2020-10-20 Method and apparatus for detecting life cycle step of website

Country Status (1)

Country Link
KR (1) KR102408205B1 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102561918B1 (en) * 2022-12-27 2023-08-02 주식회사 데이터코볼트 Method for machine learning-based harmful web site classification
KR102561917B1 (en) * 2022-12-27 2023-08-02 주식회사 데이터코볼트 Method for harmful web site classification
KR102595595B1 (en) * 2023-07-24 2023-10-31 (주)에잇스니핏 Method and device for blocking illegal and harmful information sites using website structure information

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100972959B1 (en) * 2009-09-25 2010-07-29 주식회사 로그 Method and apparatus for providing website information

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101908665B1 (en) * 2016-11-16 2018-10-16 (주)아이와즈 Artificial intelligence system for detecting life cycle of osp site using machine learning

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100972959B1 (en) * 2009-09-25 2010-07-29 주식회사 로그 Method and apparatus for providing website information

Also Published As

Publication number Publication date
KR20220052168A (en) 2022-04-27

Similar Documents

Publication Publication Date Title
KR102408205B1 (en) Method and apparatus for detecting life cycle step of website
KR101001132B1 (en) Method and System for Determining Vulnerability of Web Application
WO2021109669A1 (en) Method and device for detecting malicious domain name access, and computer readable storage medium
CN109768992B (en) Webpage malicious scanning processing method and device, terminal device and readable storage medium
EP3552098B1 (en) Operating system update management for enrolled devices
US8689276B2 (en) System and method for controlling access to files
US20090064337A1 (en) Method and apparatus for preventing web page attacks
US20130263263A1 (en) Web element spoofing prevention system and method
KR20090019451A (en) The method and apparatus for alarming phishing and pharming
US10362044B2 (en) Identifying command and control endpoint used by domain generation algorithm (DGA) malware
JP2010516007A (en) Method and apparatus for detecting computer fraud
US9058490B1 (en) Systems and methods for providing a secure uniform resource locator (URL) shortening service
EP1999609A2 (en) Client side attack resistant phishing detection
US11120122B2 (en) Augmenting password generation and validation
CN107733699B (en) Internet asset security management method, system, device and readable storage medium
US8127033B1 (en) Method and apparatus for accessing local computer system resources from a browser
US8566589B1 (en) Method and apparatus for identifying a web server
KR101372906B1 (en) Method and system to prevent malware code
CN112751804A (en) Method, device and equipment for identifying counterfeit domain name
WO2019123757A1 (en) Classification device, classification method, and classification program
CN111131166B (en) User behavior prejudging method and related equipment
US11330010B2 (en) Detecting malicious web pages by analyzing elements of hypertext markup language (HTML) files
WO2020022456A1 (en) Information processing device, information processing method, and information processing program
KR102514214B1 (en) Method and system for preventing network pharming using big data and artificial intelligence
US20220006819A1 (en) Detection of malicious C2 channels abusing social media sites

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant