KR102150530B1 - 분산 웹 크롤러에 대한 방어 방법 및 장치 - Google Patents

분산 웹 크롤러에 대한 방어 방법 및 장치 Download PDF

Info

Publication number
KR102150530B1
KR102150530B1 KR1020180090057A KR20180090057A KR102150530B1 KR 102150530 B1 KR102150530 B1 KR 102150530B1 KR 1020180090057 A KR1020180090057 A KR 1020180090057A KR 20180090057 A KR20180090057 A KR 20180090057A KR 102150530 B1 KR102150530 B1 KR 102150530B1
Authority
KR
South Korea
Prior art keywords
address
items
sender
list
accesses
Prior art date
Application number
KR1020180090057A
Other languages
English (en)
Other versions
KR20200014638A (ko
Inventor
노인우
Original Assignee
네이버웹툰 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 네이버웹툰 주식회사 filed Critical 네이버웹툰 주식회사
Priority to KR1020180090057A priority Critical patent/KR102150530B1/ko
Publication of KR20200014638A publication Critical patent/KR20200014638A/ko
Application granted granted Critical
Publication of KR102150530B1 publication Critical patent/KR102150530B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities

Abstract

다양한 실시예들에 따라서 웹 서버 또는 상기 웹 서버와 통신하는 다른 서버에 의해 수행되는 분산 웹 크롤러에 대한 방어 방법이 제공된다. 분산 웹 크롤러에 대한 방어 방법은 상기 웹 서버 내의 전체 아이템들 중에서 일부인 제1 아이템들을 포함하는 롱테일(long tail) 그룹을 정의하는 단계, 송신자 아이피(IP) 주소와 액세스 타겟의 정보를 포함하는 요청을 수신하는 단계, 상기 액세스 타겟이 상기 롱테일 그룹에 포함되는지의 여부를 판단하는 단계, 상기 액세스 타겟이 상기 롱테일 그룹에 포함되는 경우, 상기 송신자 IP 주소의 액세스 횟수를 증가시키는 단계, 상기 액세스 횟수가 미리 설정한 설정값(threshold)을 초과하는 경우, 상기 송신자 IP 주소를 차단 리스트에 추가하는 단계, 및 상기 액세스 타겟이 상기 롱테일 그룹에 포함되지 않거나, 상기 액세스 횟수가 미리 설정한 설정값을 초과하지 않는 경우, 상기 요청에 응답하는 단계를 포함한다.

Description

분산 웹 크롤러에 대한 방어 방법 및 장치{Method and apparatus for defending against distributed web-crawler}
본 개시는 분산 웹 크롤러에 대한 방어 방법 및 장치에 관한 것으로서, 더욱 구체적으로는 정보 비대칭성을 이용하여 분산 웹 크롤러를 탐지하고 차단하는 방법 및 이를 이용한 장치에 관한 것이다.
웹 크롤러(web crawler)는 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램이다. 웹 크롤러가 하는 작업을 '웹 크롤링'(web crawling) 혹은 '스파이더링'(spidering)이라 부른다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링한다. 웹 크롤러는 일반적으로 방문한 웹 사이트의 모든 웹 페이지의 복사본을 생성하는 데 사용되며, 검색 엔진은 이와 같이 생성된 웹 페이지를 더욱 빠르게 검색하기 위하여 인덱싱한다.
최근 웹 크롤러를 이용하여 웹 서버 내의 컨텐츠를 모두 복사한 후 이를 상업적으로 도용하는 문제가 발생하고 있다. 예를 들면, 웹 크롤러를 이용하여 구인구직 정보를 제공하는 웹 서버 내의 모든 정보를 복사한 후, 다른 이름의 새로운 웹 서버를 구축하는 사례가 있었다. 또한, 검색 엔진의 웹 크롤링과 같이 정상적인 웹 크롤러라고 하더라도 웹 서버에 상당한 양의 트래픽을 만들기 때문에, 웹 크롤러를 차단하는 방법도 발전하고 있다. 예를 들면, 어떤 아이피(IP) 주소를 갖는 클라이언트가 미리 설정한 한도 이상으로 웹 서버에 접속 또는 접근하는 경우에, 이 웹 서버는 해당 IP 주소의 클라이언트를 웹 크롤러로 간주하고 해당 아이피로부터의 접근을 차단할 수 있다. 이러한 차단을 회피하기 위하여, 웹 크롤러는 IP 주소를 변경해가며 웹 크롤링 작업을 수행하는 분산 웹 크롤링 기술을 사용한다.
본 개시의 다양한 실시예들이 해결하고자 하는 과제는 분산 웹 크롤러가 사용하는 IP 주소들을 탐지하여 차단하면서도 정상적인 사용자의 IP 주소가 차단되는 오탐지를 최소화할 수 있는 분산 웹 크롤러에 대한 방어 방법 및 장치를 제공하는 것이다.
상술한 기술적 과제들을 달성하기 위한 기술적 수단으로서, 본 개시의 제1 측면에 따르면, 웹 서버 또는 상기 웹 서버와 통신하는 다른 서버에 의해 수행되는 분산 웹 크롤러에 대한 방어 방법은 상기 웹 서버 내의 전체 아이템들 중에서 일부인 제1 아이템들을 포함하는 롱테일(long tail) 그룹을 정의하는 단계, 송신자 아이피(IP) 주소와 액세스 타겟의 정보를 포함하는 요청을 수신하는 단계, 상기 액세스 타겟이 상기 롱테일 그룹에 포함되는지의 여부를 판단하는 단계, 상기 액세스 타겟이 상기 롱테일 그룹에 포함되는 경우, 상기 송신자 IP 주소의 액세스 횟수를 증가시키는 단계, 상기 액세스 횟수가 미리 설정한 설정값(threshold)을 초과하는 경우, 상기 송신자 IP 주소를 차단 리스트에 추가하는 단계, 및 상기 액세스 타겟이 상기 롱테일 그룹에 포함되지 않거나, 상기 액세스 횟수가 미리 설정한 설정값을 초과하지 않는 경우, 상기 요청에 응답하는 단계를 포함한다.
본 개시의 제2 측면에 따른 분산 웹 크롤러에 대한 방어 장치는 송신자 아이피(IP) 주소와 액세스 타겟의 정보를 포함하는 요청을 수신하는 통신부, 상기 요청에 의해 액세스될 수 있는 전체 아이템들 중에서 일부인 제1 아이템들을 포함하는 롱테일(long tail) 그룹을 정의하도록 구성되는 아이템 분류 모듈, 및 상기 액세스 타겟이 상기 롱테일 그룹에 포함되는지의 여부를 판단하고, 상기 액세스 타겟이 상기 롱테일 그룹에 포함되는 경우, 상기 송신자 IP 주소의 액세스 횟수를 증가시키고, 상기 액세스 횟수가 미리 설정한 설정값(threshold)을 초과하는 경우, 상기 송신자 IP 주소를 차단 리스트에 추가하고, 상기 액세스 타겟이 상기 롱테일 그룹에 포함되지 않거나, 상기 액세스 횟수가 미리 설정한 설정값을 초과하지 않는 경우, 상기 요청에 응답하도록 구성되는 분산 웹 크롤러 방어 모듈을 포함한다.
본 개시의 제3 측면에 따르면, 컴퓨터를 이용하여 분산 웹 크롤러에 대한 방어 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램이 제공된다.
본 개시의 다양한 실시예들에 따른 분산 웹 크롤러에 대한 방어 방법 및 장치는 정보 비대칭성을 이용하여 분산 웹 크롤러가 사용하는 아이피들을 탐지하여 차단할 수 있다. 분산 웹 크롤러의 아이피를 차단하는 과정에서, 정상적인 사용자의 아이피를 분산 웹 크롤러의 아이피로 오인하여 차단하는 오탐지(false positive)를 최소화할 수 있다.
도 1은 일 실시예에 따른 크롤링 방어 장치의 내부 구성을 설명하기 위한 개략적인 블록도이다.
도 2는 웹 서버의 아이템들의 액세스 횟수를 개략적으로 나타낸 그래프이다.
도 3은 웹 서버의 아이템들을 분류한 그룹들 각각에 대한 실제 데이터의 그래프를 도시한다.
도 4는 일 실시예에 따른 크롤링 방어 장치의 프로세서 및 메모리를 개략적으로 도시한다.
도 5는 일 실시예에 따른 분산 웹 크롤러에 대한 방어 방법을 설명하기 위한 순서도이다.
도 6은 다른 실시예에 따른 분산 웹 크롤러에 대한 방어 방법을 설명하기 위한 순서도이다.
도 7은 또 다른 실시예에 따라서 웹 서버 내의 아이템들을 분류하는 방법을 설명하기 위한 순서도이다.
아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 다양한 실시예들을 상세히 설명한다. 그러나 본 개시의 기술적 사상은 다양한 형태로 변형되어 구현될 수 있으므로 본 명세서에서 설명하는 실시예들로 제한되지 않는다. 본 개시의 다양한 실시예들을 설명함에 있어서 관련된 공지 기술을 구체적으로 설명하는 것이 본 개시의 기술적 사상의 요지를 흐릴 수 있다고 판단되는 경우 그 공지 기술에 대한 구체적인 설명을 생략한다. 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
명세서 전체에서, 어떤 요소가 다른 요소와 '연결'된다고 할 때, 이는 '직접 연결'되는 경우뿐만 아니라, 그 중간에 다른 요소를 사이에 두고 '전기적으로 연결'되는 경우도 포함한다. 어떤 요소가 다른 요소를 '포함'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 요소 외에 또 다른 요소를 배제하는 것이 아니라, 또 다른 요소를 더 포함할 수 있는 것을 의미한다.
일부 실시예들은 기능적인 블록 구성들 및/또는 다양한 처리 단계들로 설명될 수 있다. 기능 블록들의 일부 또는 전부는 특정 기능을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 개시의 기능 블록들은 하나 이상의 마이크로프로세서들에 의해 구현되거나, 소정의 기능을 위한 회로 구성들에 의해 구현될 수 있다. 기능 블록은 해당 기능을 실행하는 모듈로 지칭될 수 있다. 본 개시의 기능 블록들은 다양한 프로그래밍 언어 또는 스크립트 언어(scripting language)로 구현될 수 있다. 본 개시의 기능 블록들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 본 개시에서 하나의 기능 블록이 실행하는 기능이 복수의 기능 블록들에 의해 실행될 수도 있고, 본 개시에서 복수의 기능 블록들이 실행하는 기능들이 하나의 기능 블록에 의해 수행될 수도 있다.
도면에 도시된 요소들 간의 연결 선 또는 연결 부재들은 기능적 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것일 뿐이다. 실제 장치에서는 대체 가능하거나 추가되는 다양한 기능적 연결, 물리적 연결, 또는 회로적 연결에 의해 요소들 간의 연결이 구현될 수 있다.
도 1은 일 실시예에 따른 크롤링 방어 장치의 내부 구성을 설명하기 위한 개략적인 블록도이다.
도 1을 참조하면, 크롤링 방어 장치(100)는 프로세서(110), 메모리(120), 버스(130), 통신 인터페이스(140), 입출력 인터페이스(150) 및 저장 장치(160)를 포함할 수 있다.
크롤링 방어 장치(100)는 일 실시예에 따라서 분산 웹 크롤러에 대한 방어 기능을 수행할 수 있으며, 분산 웹 크롤러에 대한 방어 장치로 지칭될 수 있다. 일 예에 따르면, 크롤링 방어 장치(100)는 웹 서버로 기능하면서, 웹 서버의 아이템들을 웹 크롤링하려는 분산 웹 크롤러를 차단할 수 있다. 웹 서버는 웹 브라우저와 같은 클라이언트의 요청을 수신하여, 요청한 페이지가 들어있는 파일을 클라이언트에게 제공한다. 예를 들면, 사용자가 웹 브라우저에서 URL(uniform resource locator)로 'http://인터넷 호스트 주소/경로 이름'을 입력하면, 인터넷 호스트 주소에 해당하는 웹 서버에게 경로 이름에 해당하는 페이지를 요청하고, 웹 서버는 해당 페이지의 파일을 찾아서 웹 브라우저로 보낸다. 이 과정을 거친 후, 사용자는 요청한 웹 브라우저를 통해 URL에 해당하는 페이지를 볼 수 있다.
본 명세서에서, 아이템들은 클라이언트의 요청에 의해 액세스될 수 있는 파일들을 포함할 수 있다. 아이템들은 웹 서버에 저장되는 파일들을 포함할 수 있다. 예컨대, 아이템들은 html 파일과 같은 웹 페이지 파일, gif 파일이나 jpg 파일과 같은 그림 파일, 오디오 파일 등을 포함하며, 자바 스크립트나 다양한 종류의 문서 파일, 프로그램 파일 등을 포함할 수 있다.
다른 예에 따르면, 크롤링 방어 장치(100)는 웹 서버로 기능하는 컴퓨터 장치와 통신하는 장치로서, 웹 서버의 프록시 서버 기능을 할 수도 있다. 웹 서버로 기능하는 컴퓨터 장치는 분산된 복수의 컴퓨터 장치일 수 있다. 크롤링 방어 장치(100)는 웹 서버의 프록시 서버로서, 클라이언트와 웹 서버 사이에서 데이터를 중계하는 역할을 수행하면서, 웹 서버의 아이템들을 웹 크롤링하려는 분산 웹 크롤러를 차단할 수 있다.
도 2의 크롤링 방어 장치(100)가 웹 서버로 기능하면서 분산 웹 크롤러의 IP 주소들을 차단하는 것으로 설명되지만, 크롤링 방어 장치(100)는 웹 서버와 통신하는 장치로서, 웹 서버와 클라이언트 사이에서 데이터를 중계하는 프록시 서버로 기능하면서 분산 웹 크롤러의 IP 주소들을 차단할 수도 있다는 것에 주의하여야 한다.
크롤링 방어 장치(100)는 웹 서버 내의 전체 아이템들 중에서 일부인 제1 아이템들을 포함하는 롱테일(long tail) 그룹을 정의할 수 있다. 크롤링 방어 장치(100)는 송신자 아이피(IP) 주소와 액세스 타겟의 정보를 포함하는 요청을 수신하고, 수신된 요청의 액세스 타겟이 롱테일 그룹에 포함되는지의 여부를 판단할 수 있다. 크롤링 방어 장치(100)는 액세스 타겟이 롱테일 그룹에 포함되는 경우, 수신된 요청의 송신자 IP 주소의 액세스 횟수를 증가시킬 수 있다. 크롤링 방어 장치(100)는 송신자 IP 주소의 액세스 횟수가 미리 설정한 설정값(threshold)을 초과하는 경우, 송신자 IP 주소를 차단 리스트에 추가할 수 있다. 크롤링 방어 장치(100)는 수신된 요청의 액세스 타겟이 롱테일 그룹에 포함되지 않거나, 송신자 IP 주소의 액세스 횟수가 미리 설정한 설정값을 초과하지 않는 경우, 요청에 응답할 수 있다.
프로세서(110)는 중앙처리장치를 포함할 수 있으며, 기본적인 산술, 로직 및 입출력 연산을 수행함으로써 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 프로세서(110)는 메모리(120)에 저장된 프로그램 코드에 따른 명령을 실행하도록 구성될 수 있다.
프로세서(110)는 크롤링 방어 장치(100)의 적어도 하나의 다른 구성요소들(120-160)의 제어 및/또는 통신에 관한 연산이나 데이터 처리를 실행할 수 있다. 프로세서(110)는 클라이언트로부터의 요청을 수신하고 요청에 대한 응답을 제공하도록 통신 인터페이스(140)를 제어할 수 있다. 프로세서(110)는 입력 신호를 수신하고 출력 신호를 송신하기 위하여 입출력 인터페이스(150)를 제어할 수 있다. 프로세서(110)는 저장 장치(160)에 저장된 데이터를 메모리(120)로 옮기거나 메모리(120)에 저장된 데이터를 저장 장치(160)로 옮길 수 있다. 프로세서(110)는 분산 웹 크롤러의 IP 주소를 탐지하여 차단하기 위한 분산 웹 크롤러 방어 모듈 및 웹 서버 내의 아이템들을 분류하기 위한 아이템 분류 모듈을 포함할 수 있다.
메모리(120)는 크롤링 방어 장치(100)가 판독할 수 있는 기록 매체로서, 휘발성 및/또는 비휘발성 메모리를 포함할 수 있다. 메모리(120)에는 크롤링 방어 장치(100)의 운영 시스템(OS)과 적어도 하나의 프로그램 코드가 저장될 수 있다. 일 예에 따르면, 메모리(120)는 웹 서버로 기능하기 위한 프로그램 코드, 분산 웹 크롤러 방어 기능을 수행하기 위한 프로그램 코드, 및 아이템 분류 기능을 수행하기 위한 프로그램 코드를 저장할 수 있다.
일 예에 따르면, 소프트웨어 구성요소들은 저장장치(160)로부터 로딩될 수 있다. 저장 장치(160)는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록 매체를 포함할 수 있다. 다른 예에 따르면, 저장 장치(160)는 통신 인터페이스(140)를 통해 크롤링 방어 장치(100)에 연결될 수 있다.
버스(130)는 구성요소들(110-120, 140-160)을 서로 연결하고, 구성요소들(110-120, 140-160) 간에 예컨대, 제어 메시지 또는 데이터를 전달하는 회로를 포함할 수 있다.
통신 인터페이스(140)은 네트워크에 연결되어 클라이언트와 통신하기 위한 기능을 제공할 수 있다. 통신 인터페이스(140)은 클라이언트로부터 요청을 수신하고, 요청에 대한 응답을 클라이언트로 송신할 수 있다. 요청은 요청을 송신한 클라이언트의 IP 주소와 액세스하고자 적어도 하나의 아이템을 나타내는 액세스 타겟의 정보를 포함할 수 있다. 액세스 타겟은 웹 서버의 아이템들 중 하나일 수 있다.
네트워크는 PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 네트워크는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.
네트워크에 접속된 클라이언트 장치에는 웹 브라우저와 같은 프로그램 또는 어플리케이션이 설치될 수 있으며, 클라이언트 장치는 웹 브라우저 등을 이용하여 크롤링 방어 장치(100)에 접속하여 크롤링 방어 장치(100) 내의 아이템들에 접속할 수 있다. 네트워크에는 웹 크롤러가 접속될 수 있다. 웹 크롤러는 복수의 IP 주소를 확보하고, IP 주소를 바꿔가며 크롤링 방어 장치(100)에 접속하여 아이템들을 다운로드할 수 있다. 웹 크롤러는 크롤링 방어 장치(100) 내의 모든 아이템들을 다운로드하는 것을 목표로 하고 있다.
입출력 인터페이스(150)는 사용자 또는 다른 외부 기기로부터 입력된 명령 또는 데이터를 크롤링 방어 장치(100)의 다른 구성요소(들)에 전달하거나, 크롤링 방어 장치(100)의 다른 구성요소(들)로부터 수신된 명령 또는 데이터를 사용자 또는 다른 외부 기기로 출력할 수 있다. 크롤링 방어 장치(100)는 입출력 인터페이스(150)를 통해 연결되는 입력 장치 및/또는 출력 장치를 포함할 수 있다. 입력 장치는 예컨대 키보드 및 마우스를 포함할 수 있고, 출력 장치는 예컨대 디스플레이 장치를 포함할 수 있다.
저장 장치(160)에는 클라이언트의 요청에 의해 액세스될 수 있는 아이템들이 저장될 수 있다. 예컨대, 저장 장치(160)는 웹 페이지 파일, 이미지 파일, 오디오 파일, 문서 파일, 프로그램 파일 등이 저장될 수 있으며, 이러한 파일들은 클라이언트의 요청에 의해 액세스될 수 있다. 아이템들은 메모리(120)에 저장되거나, 메모리(120)와 저장 장치(160)에 저장될 수 있다. 다른 예에 따라서, 크롤링 방어 장치(100)가 웹 서버의 프록시 서버로 기능하는 경우, 아이템들은 통신 인터페이스(140)를 통해 접속할 수 있는 다른 컴퓨터 장치에 저장될 수 있다. 저장 장치(160)는 데이터베이스를 포함할 수 있다.
도 2는 웹 서버의 아이템들의 액세스 횟수를 개략적으로 나타낸 그래프이다.
웹 서버의 아이템들은 클라이언트의 요청에 의해 액세스될 수 있다. 아이템들 중 어떤 아이템(예컨대, logosmall.gif와 같은 파일)은 매우 빈번하게 액세스되는 반면에, 상당히 많은 아이템들에는 거의 액세스되지 않을 수 있다. 예를 들면, 웹 서버 내의 아이템들 중 대략 50% 이상의 아이템들에는 한 달에 10회 이하로 액세스될 수 있다. 일반적으로 아이템들의 액세스 횟수는 도 2에 도시된 바와 같이, 멱 법칙(power law)을 따른다고 알려져 있다. 전술한 바와 같이, 도 1의 크롤링 방어 장치(100)가 웹 서버로 기능할 수도 있고, 웹 서버로 기능하는 다른 컴퓨팅 장치와 클라이언트 사이에서 데이터를 중계할 수도 있다.
도 2의 가로축은 아이템들에 대응하며, 액세스 횟수가 많은 순서로 정렬되어 있다. 도 2의 세로축은 동일한 기간 동안 아이템들 각각에 액세스한 횟수를 의미한다. 본 발명의 발명자는 웹 서버의 아이템들에 액세스한 횟수가 일정하지 않고 도 2에 도시된 바와 같이 매우 편차가 크다는 사실과 이러한 사실을 웹 크롤러는 알 수 없다는 점을 이용하여 분산 웹 크롤러의 분산된 IP 주소들을 탐지할 수 있다는 아이디어를 생각하였다.
도 2에 도시된 바와 같이, 웹 서버의 아이템들은 3개의 그룹(GRa, GRb, GRc)으로 분류될 수 있다.
액세스 횟수가 제1 기준값을 초과하는 아이템들은 제1 그룹(GRa)으로 분류될 수 있다. 액세스 횟수가 제1 기준값 이하 제2 기준값을 초과하는 아이템들은 제2 그룹(GRb)으로 분류될 수 있다. 액세스 횟수가 제2 기준값 이하인 아이템들은 제3 그룹(GRc)으로 분류될 수 있다. 제3 그룹(GRc)은 도 2의 그래프에서 긴 꼬리(long tail)와 같으므로 롱테일 그룹으로 지칭될 수 있다.
제1 그룹(GRa)에 포함되는 아이템들의 갯수는 전체 아이템들의 1% 이하일 수 있다. 제2 그룹(GRa)에 포함되는 아이템들의 갯수는 전체 아이템들의 30% 이하일 수 있다. 제3 그룹(GRc)에 포함되는 아이템들의 갯수는 전체 아이템들의 70% 이상일 수 있다. 제1 기준값 및 제2 기준값, 그리고 그에 따른 각 그룹들(GRa, GRb, GRc)에 포함되는 아이템들의 개수는 웹 서버의 종류나 특성에 따라 결정될 수 있다. 예를 들면, 구인구직 정보를 제공하는 웹 서버의 경우, 대기업이나 공기업과 같이 많은 사람이 관심을 갖는 회사의 구인 정보에 집중하여 액세스 횟수가 높기 때문에, 제3 그룹(GRc)에 포함되는 아이템들의 갯수가 전체 아이템들의 95% 이상일 수도 있다. 여기서, 웹 서버의 전체 아이템은 편의 상 그룹들(GRa, GRb, GRc)로 분류된 아이템들을 지칭한다. 명문 상 전체 아이템은 새로 등록되어 아직 분류되지 않은 아이템들도 포함하는 개념이지만, 본 명세서에서 전체 아이템이라는 표현은 특별히 언급한 경우가 아니라면 미분류 아이템들을 포함하지 않는 것으로 이해되어야 한다. 제3 그룹(GRc)에 포함되는 아이템들의 갯수는 전체 아이템들의 70% 이상 99% 이하일 수 있다.
도 2에 도시된 바와 같이, 전체 평균은 제3 그룹(GRc)에 포함되는 아이템들의 갯수가 많기 때문에 제1 기준값보다 제2 기준값에 가까울 수 있다.
도 3은 웹 서버의 아이템들을 분류한 그룹들 각각에 대한 실제 데이터의 그래프를 도시한다.
도 3의 그래프들은 약 한 달 동안 어떤 웹 서버에 수신되는 요청들의 로그를 분석하여 생성된 그래프들이다. 전체 아이템들 중에서 가장 많이 액세스된 아이템은 무려 7만번 이상 액세스된 반면에, 7649개의 전체 아이템 중에서 5355개의 아이템들에는 9회 이하로 액세스 되었다. 전체 아이템들의 평균 액세스 횟수는 184.76이었다.
전체 아이템들 중에서 상위 0.5%의 아이템들을 제1 그룹(GRa)으로 분류하였으며, 제1 그룹(GRa)의 아이템들은 총 38개였고, 최대 액세스 횟수는 76,040회이고, 평균 액세스 횟수는 21,250회이었다.
전체 아이템들 중에서 상위 0.5% 내지 상위 30%의 아이템들을 제2 그룹(GRb)으로 분류하였으며, 제2 그룹(GRb)의 아이템들은 총 2,256개였고, 최대 액세스 횟수는 7,043회이고, 평균 액세스 횟수는 264회이었다.
전체 아이템들 중에서 상위 30% 이하의 아이템들을 제3 그룹(GRc)으로 분류하였으며, 제3 그룹(GRc)의 아이템들은 총 5,355개였고, 최대 액세스 횟수는 9회이고, 평균 액세스 횟수는 1.88회이었다.
도 3에 제1 그룹(GRa)의 그래프, 제2 그룹(GRb)의 그래프 및 제3 그룹(GRc)의 그래프 각각은 정확히 제1 내지 제3 그룹(GRa, GRb, GRc)의 아이템들과 일치하는 것은 아니다.
도 2에서 예시적으로 3개의 그룹으로 분류되었지만, 아이템들은 2개의 그룹(예컨대, 액세스 횟수가 높은 인기 그룹과 액세스 횟수가 낮은 롱테일 그룹)으로 분류될 수 있다. 예컨대, 아이템들은 액세스 횟수에 따라 인기(popular) 그룹과 롱테일 그룹으로 분류될 수 있으며, 도 2 및 도 3의 그래프에서 제1 그룹(GRa)과 제2 그룹(GRb)의 아이템들은 인기(popular) 그룹에 포함되고, 제3 그룹(GRc)의 아이템들은 롱테일 그룹에 포함될 수 있다.
다른 실시예에 따르면, 아이템들 중 액세스 횟수가 적은 일부의 아이템들만을 롱테일 그룹으로 분류하고, 롱테일 그룹의 아이템들만 별도로 관리될 수 있다. 이 경우, 주기적으로 웹 서버의 요청 로그를 분석하고, 아이템들 중 일부를 롱테일 그룹으로 분류할 수 있다. 분류 작업 후에 새로 추가되는 아이템들은 별도의 리스트로 관리될 수 있다.
도 4는 일 실시예에 따른 크롤링 방어 장치의 프로세서 및 메모리를 개략적으로 도시한다.
도 4를 참조하면, 프로세서(110)는 분산 웹 크롤러 방어 모듈(112) 및 아이템 분류 모듈(114)을 포함하며, 메모리(120)와 데이터를 주고 받을 수 있다. 메모리(120)에는 차단 리스트(121), IP 리스트(122) 및 롱테일 그룹(123)이 저장될 수 있다. 롱테일 그룹(123)은 웹 서버의 아이템들 중에서 제3 그룹(GRc)으로 분류된 아이템들의 리스트를 지칭할 수 있다. 다른 실시예에 따르면, 메모리(120)에는 인기 그룹(124) 및 미분류 아이템 리스트(125) 중 적어도 하나를 포함할 수 있다. 인기 그룹(124)은 웹 서버의 아이템들 중에서 제1 그룹(GRa) 및 제2 그룹(GRb)으로 분류된 아이템들의 리스트를 지칭할 수 있다. 인기 그룹(124)이나 롱테일 그룹(123)에 속하는 아이템들은 기분류 아이템으로 지칭될 수 있다. 메모리(120)에는 미분류 아이템 리스트(125) 대신에 신규 아이템 리스트가 저장될 수 있으며, 신규 아이템 리스트는 웹 서버에 새로 추가된 아이템들이 저장될 수 있다. 웹 서버에 새로운 아이템이 추가되면, 프로세서(110)는 새로운 아이템을 신규 아이템 리스트에 추가할 수 있다. 프로세서(110)가 프록시 서버로 기능하는 경우, 프로세서(110)는 웹 서버로부터 새로 추가된 아이템들에 관한 정보를 수신할 수 있다.
프로세서(110)는 통신 인터페이스(140)를 통해 클라이언트로부터 요청을 수신할 수 있다. 요청은 요청을 송신한 클라이언트의 송신자 IP 주소와 액세스하고자 적어도 하나의 아이템을 나타내는 액세스 타겟의 정보를 포함할 수 있다. 액세스 타겟은 웹 서버의 아이템들 중 하나일 수 있다.
아이템 분류 모듈(114)은 웹 서버의 아이템들 중에서 롱테일 그룹(123)에 속하는 제1 아이템들을 정의할 수 있다. 제1 아이템들 또는 이들의 식별 정보는 메모리(120)의 롱테일 그룹(123)에 저장되어 관리될 수 있다. 제1 아이템은 롱테일 그룹(123)에 속하는 아이템들을 지칭하기 위한 것이다. 다른 실시예에 따라서, 아이템 분류 모듈(114)이 전체 아이템들에 대하여 분류 작업을 다시 할 경우, 롱테일 그룹(123)에 속하던 아이템이 롱테일 그룹(123)에 속하지 않게 되거나, 롱테일 그룹(123)에 속하지 않던 아이템이 롱테일 그룹(123)에 속하게 될 수 있다.
분산 웹 크롤러 방어 모듈(112)은 액세스 타겟이 롱테일 그룹(123)에 포함되는지의 여부를 판단할 수 있다. 즉, 분산 웹 크롤러 방어 모듈(112)은 액세스 타겟과 롱테일 그룹(123)을 기초로, 클라이언트가 요청을 통해 액세스하고자 하는 아이템이 롱테일 그룹(123)에 속하는 제1 아이템들 중 하나인지의 여부를 판단할 수 있다.
분산 웹 크롤러 방어 모듈(112)은 액세스 타겟이 롱테일 그룹(123)에 포함되는 경우, IP 리스트(122)에서 송신자 IP 주소의 액세스 횟수를 증가시킬 수 있다. IP 리스트(122)는 웹 서버에 액세스한 클라이언트들의 IP 주소를 저장하며, 각각의 클라이언트들이 롱테일 그룹(123)의 제1 아이템들에 액세스한 횟수를 저장할 수 있다. IP 리스트(122)에서 액세스 횟수가 무한정 늘어나는 것을 방지하고, 동일 기간 동안의 액세스 횟수를 비교하기 위하여, 분산 웹 크롤러 방어 모듈(122)은 미리 설정한 기간마다 액세스 횟수를 0으로 리셋할 수 있다.
분산 웹 크롤러 방어 모듈(112)은 IP 리스트(122)에서 액세스 횟수가 미리 설정한 설정값(threshold)를 초과하는 경우, 송신자 IP 주소를 차단 리스트(121)에 추가하고, 요청을 차단할 수 있다. 차단 리스트(121)에는 웹 서버에 액세스할 수 없는 IP 주소의 리스트가 저장될 수 있다. 분산 웹 크롤러는 복수의 IP 주소를 이용하여 웹 크롤링을 수행하므로, 크롤링 방어 장치(100)는 분산 웹 크롤러가 사용하는 복수의 IP 주소를 탐지하고 이들을 차단 리스트(121)에 추가함으로써, 분산 웹 크롤러로부터 웹 서버를 방어할 수 있다.
여기서, 설정값은 웹 서버의 아이템들을 롱테일 그룹(GRc)으로 분류하는 기준인 기준값의 1.2배 이상 2.0배 이하의 값으로 미리 설정될 수 있다. 본 발명의 테스트에 따르면, 설정값이 기준값의 1.2배보다 낮을 경우 정상적인 사용자의 IP 주소를 분산 웹 크롤러의 IP 주소로 오인하는 오탐지가 발생할 가능성이 크게 높아졌다. 또한, 설정값이 기준값의 2.0배보다 높을 경우 분산 웹 크롤러가 사용하는 IP 주소들의 탐지하기 어려웠다.
분산 웹 크롤러 방어 모듈(112)은 액세스 타겟이 롱테일 그룹(123)에 포함되지 않거나, IP 리스트(122)에서 액세스 타겟의 액세스 횟수가 미리 설정한 설정값을 초과하지 않는 경우에만, 클라이언트의 요청에 응답하도록 구성될 수 있다. 크롤링 방어 장치(100)가 웹 서버로 기능하는 경우라면, 분산 웹 크롤러 방어 모듈(122)은 통신 인터페이스(140)를 통해 요청에 대응하는 데이터를 클라이언트에게 송신함으로써, 요청에 응답할 수 있다. 다른 실시예에 따라서, 크롤링 방어 장치(100)가 프록시 서버로 기능하는 경우라면, 분산 웹 크롤러 방어 모듈(122)은 통신 인터페이스(140)를 통해 웹 서버로 기능하는 컴퓨팅 장치로 요청을 전달하고 컴퓨팅 장치로부터 수신되는 요청에 대한 응답을 다시 클라이언트로 전달함으로써, 요청에 응답할 수 있다. 크롤링 방어 장치(100)가 프록시 서버로 기능하는 경우라고 하더라도, 요청에 대응하는 데이터가 크롤링 방어 장치(100)의 캐쉬 메모리에 저장되어 있는 경우라면, 크롤러 방어 모듈(122)은 요청에 대응하는 데이터를 직접 클라이언트로 송신할 수도 있다.
분산 웹 크롤러 방어 모듈(112)은 클라이언트의 요청에 포함되는 송신자 IP 주소가 차단 리스트(121)에 포함되는지의 여부를 판단할 수 있다. 분산 웹 크롤러 방어 모듈(112)은 송신자 IP 주소가 차단 리스트(121)에 포함되는 경우, 요청을 차단하도록 구성될 수 있다. 차단 리스트(121)에는 분산 웹 크롤러가 사용하는 것으로 의심되는 IP 주소들이 저장되어 있으므로, 차단 리스트(121)에 포함되는 IP 주소를 갖는 클라이언트로부터의 요청을 차단함으로써, 크롤링 방어 장치(100)는 분산 웹 크롤러로부터 웹 서버를 방어할 수 있다.
아래에서는 도 5 내지 도 7의 순서도를 참조하여, 분산 웹 크롤러 방어 모듈(112) 및 아이템 분류 모듈(114)을 포함하는 프로세서(110)의 동작을 더욱 자세히 설명한다.
도 5는 일 실시예에 따른 분산 웹 크롤러에 대한 방어 방법을 설명하기 위한 순서도이다.
도 5를 참조하여 설명되는 분산 웹 크롤러에 대한 방어 방법은 도 1 및 도 4를 참조하여 설명된 크롤링 방어 장치의 프로세서에 의해 수행될 수 있다.
도 5를 참조하면, 요청이 수신될 수 있다(S10). 예를 들면, 크롤링 방어 장치(100)의 프로세서(110)는 클라이언트로부터 송신된 요청을 수신할 수 있다. 클라이언트는 네트워크에 접속된 컴퓨팅 장치 또는 이 컴퓨팅 장치에 설치된 웹 브라우저 또는 웹 크롤러일 수 있다. 요청은 웹 서버에 액세스하기 위한 요청일 수 있으며, 크롤링 방어 장치(100)는 웹 서버로 기능하거나, 웹 서버와 클라이언트 사이에서 요청 및 응답과 같은 데이터를 중계하는 프록시 서버로 기능할 수 있다. 요청은 송신자 IP 주소 및 클라이언트가 액세스하고자 하는 웹 서버 내의 아이템을 지칭하는 액세스 타겟의 정보를 포함할 수 있다. 송신자 IP 주소는 웹 브라우저가 설치된 컴퓨팅 장치의 IP 주소이거나, 분산 웹 크롤러가 웹 크롤링에 사용하는 복수의 IP 주소들 중 하나일 수 있다. 단계(S10)에서 수신된 요청은 제1 요청이라고 지칭한다. 제1 요청에 포함된 송신자 IP 주소는 제1 IP 주소라고 지칭하고, 제1 요청을 송신한 클라이언트를 제1 클라이언트라고 지칭한다.
제1 IP 주소가 차단된 IP 주소인지의 여부가 판단될 수 있다(S20). 예를 들면, 프로세서(110)는 제1 IP 주소가 메모리(120)에 저장된 차단 리스트(121)에 포함되는지의 여부를 판단할 수 있다. 차단 리스트(121)에는 분산 웹 크롤러가 사용하는 것으로 의심되는 IP 주소들이 저장되어 있을 수 있다.
제1 IP 주소가 차단된 IP 주소인 경우, 제1 요청은 차단될 수 있다(S21). 예를 들면, 프로세서(110)는 제1 IP 주소가 차단 리스트(121)에 포함되는 경우, 제1 클라이언트의 제1 요청을 차단할 수 있다.
제1 IP 주소가 차단된 IP 주소가 아닌 경우, 제1 요청의 액세스 타겟이 롱테일 그룹(123)에 포함되는지의 여부가 판단될 수 있다(S30). 예를 들면, 제1 클라이언트가 액세스하고자 하는 액세스 타겟이 롱테일 그룹(123)에 저장된 제1 아이템들 중 하나인지의 여부를 판단될 수 있다.
액세스 타겟이 롱테일 그룹(123)에 포함되는 경우, 제1 IP 주소가 신규 IP 주소인지의 여부가 판단될 수 있다(S31). 예를 들면, 프로세서(110)는 제1 IP 주소가 IP 리스트(123)에 포함되는지의 여부를 판단함으로써, 제1 IP 주소가 신규 IP 주소인지의 여부를 판단할 수 있다. 만약 제1 IP 주소가 신규 IP 주소인 경우, 제1 IP 주소는 IP 리스트(123)에 추가될 수 있다(S32). 예를 들면, 제1 IP 주소가 IP 리스트(123)에 없는 경우, 프로세서(110)는 제1 IP 주소를 IP 리스트(123)에 추가하면서, 액세스 횟수를 0으로 기록할 수 있다. IP 리스트(123)에는 IP 주소와 액세스 횟수가 저장될 수 있다. IP 리스트(123)에 저장되는 액세스 횟수는 미리 설정된 기간 동안에 해당 IP 주소의 클라이언트가 롱테일 그룹(123)에 속한 제1 아이템들에 액세스한 횟수를 계수하기 위한 것이다. 미리 설정된 기간의 액세스 횟수가 계수될 수 있도록, 프로세서(110)는 IP 리스트(123)에 저장된 액세스 횟수를 주기적으로 리셋할 수 있다. 즉, 프로세서(110)는 IP 리스트(123)에 저장된 액세스 횟수를 주기적으로 0으로 설정할 수 있다.
단계(S31)에서 제1 IP 주소가 신규 IP 주소가 아닌 경우, 예컨대 제1 IP 주소가 IP 리스트(123)에 포함된 IP 주소인 경우, 또는 단계(S32)에서 제1 IP 주소가 IP 리스트(123)에 추가된 경우, 액세스 횟수가 증가될 수 있다(S33). 예를 들면, 프로세서(110)는 제1 IP 주소의 액세스 횟수를 1만큼 증가시킬 수 있다. 제1 IP 주소가 IP 리스트(123)에 새로 추가된 경우라면, 프로세서(110)는 IP 리스트(123)에서 제1 IP 주소의 액세스 횟수를 1로 설정할 수 있다.
제1 IP 주소의 액세스 횟수가 미리 설정된 설정값을 초과하는지의 여부가 판단될 수 있다(S34). 예를 들면, 프로세서(110)는 제1 IP 주소의 액세스 횟수를 미리 설정된 설정값과 비교하여, 액세스 횟수가 미리 설정된 설정값을 초과하는지의 여부를 판단할 수 있다. 설정값은 아이템들을 롱테일 그룹(123)으로 분류하는 기준인 기준값에 기초하여 설정될 수 있다.
제1 IP 주소의 액세스 횟수가 미리 설정된 설정값을 초과할 경우, 제1 IP 주소는 차단 리스트에 추가될 수 있다(S35). 예를 들면, 프로세서(110)는 제1 IP 주소의 액세스 횟수가 미리 설정된 설정값을 초과할 경우 제1 IP 주소를 차단 리스트(121)에 추가할 수 있다. 그 후, 프로세서(110)는 제1 클라이언트의 제1 요청을 차단할 수 있다(S21).
단계(S30)에서 액세스 타겟이 롱테일 그룹(123)에 포함되지 않는 경우, 제1 요청에 응답할 수 있다(S40). 예를 들면, 액세스 타겟이 롱테일 그룹(132)에 저장된 제1 아이템들 중 어느 것과도 일치하지 않는 경우, 프로세서(110)는 제1 요청에 대응하는 데이터를 송신하거나, 제1 요청을 웹 서버로 전달할 수 있다. 또한, 단계(S34)에서 제1 IP 주소의 액세스 횟수가 미리 설정된 설정값을 초과하지 않는 경우, 제1 요청에 응답할 수 있다(S40).
프로세서(110)는 웹 서버의 아이템들 중에서 액세스 빈도가 낮은 아이템들을 분류함으로써 롱테일 그룹(123)에 속하는 제1 아이템들을 결정할 수 있다. 예컨대, 프로세서(110)는 미리 설정된 기간 동안 기준값 이하의 횟수로 액세스되는 아이템들을 롱테일 그룹(123)으로 분류할 수 있다. 따라서, 롱테일 그룹(123)에 속하는 제1 아이템들은 확률적으로 통계적으로 액세스 빈도가 낮은 아이템들이다. 이때, 미리 설정된 기간은 예컨대 하루, 3일, 1주, 2주, 한달 등에서 선택될 수 있다. 기준값은 하루 동안의 액세스 횟수로 설정될 수 있으며, 어떤 기간 동안의 총 액세스 횟수를 해당 기간으로 나눔으로써 하루 평균 액세스 횟수로 설정될 수도 있다.
단계(S34)의 미리 설정된 설정값은 아이템들을 롱테일 그룹(123)으로 분류하는 기준인 기준값의 1.2배 내지 2.0배로 미리 설정될 수 있다. 설정값은 미리 설정된 기간 동안의 액세스 횟수와 비교될 수 있으며, 기준값을 결정하는데 사용된 미리 설정된 기간과 설정값과 비교되는 액세스 횟수의 미리 설정된 기간은 서로 동일할 수 있다. 예컨대, 설정값과 관계되는 미리 설정된 기간 역시 예컨대 하루, 3일, 1주, 2주, 한달 등에서 선택될 수 있다.
프로세서(110)는 수신되는 요청들을 통해, 또는 수신되는 요청들의 로그를 분석함으로써, 액세스 빈도가 낮은 아이템들에 관한 정보를 생성할 수 있다. 그러나, 웹 서버 내의 모든 아이템들에 액세스하도록 설계되는 분산 웹 크롤러는 이러한 액세스 빈도에 관한 정보를 알 수 없다. 일 실시예에 따른 분산 웹 크롤러에 대한 방어 방법은 이러한 정보의 비대칭성을 이용한다.
만약 분산 웹 크롤러가 100개의 IP 주소를 사용한다고 하더라도, 웹 서버 내에 10,000개의 아이템들이 존재한다고 하면, 각 IP 주소마다 평균적으로 100개의 아이템들에 액세스해야 한다. 10,000개의 아이템들 중 예컨대 7000개의 아이템들은 액세스 빈도가 낮은 아이템들로서, 예컨대 이들에 대한 액세스 횟수는 10회 이하일 수 있다. 웹 크롤러가 100개의 IP 주소를 이용하여 7000개의 액세스 빈도가 낮은 아이템들에 액세스해야 하므로, 각 IP 주소마다 평균적으로 70개의 액세스 빈도가 낮은 아이템들에 액세스해야 한다. 본 실시예에 따르면, 어떤 IP 주소를 갖는 클라이언트가 액세스 빈도가 낮은 아이템들에 액세스하는 횟수가 예컨대 20회를 초과할 경우에, 그 IP 주소는 분산 웹 크롤러가 사용하는 IP 주소일 가능성이 매우 높다. 이 IP 주소가 차단되면, 분산 웹 크롤러가 사용할 수 있는 IP 주소가 감소하게 되므로, 남아있는 IP 주소 각각이 액세스 빈도가 낮은 아이템들에 액세스해야 하는 평균 횟수가 증가하게 된다. 그 결과, 분산 웹 크롤러가 사용하는 IP 주소는 더욱 빨리 탐지되고, 차단될 수 있다. 이러한 방식으로 본 실시예에 따르면 분산 웹 크롤러가 사용하는 IP 주소들은 모두 탐지될 수 있으며 차단될 수 있다.
도 6은 다른 실시예에 따른 분산 웹 크롤러에 대한 방어 방법을 설명하기 위한 순서도이다.
도 6을 참조로 설명되는 분산 웹 크롤러에 대한 방어 방법은 도 1 및 도 4를 참조하여 설명된 크롤링 방어 장치의 프로세서, 특히, 아이템 분류 모듈에 의해 수행될 수 있다.
도 6의 단계들(S50-55)은 새로운 아이템을 롱테일 그룹으로 분류하기 위한 방법으로서, 도 5의 단계(S30)과 단계(S40) 사이에서 추가적으로 수행될 수 있다.
단계(S30)에서 제1 요청의 액세스 타겟이 롱테일 그룹(123)에 포함되지 않을 경우, 액세스 타겟의 아이템은 롱테일 그룹(123)으로 분류하기 위하여 미리 설정된 기간 동안의 액세스 횟수가 계수되었던 아이템이거나 아직 분류되지 않은 아이템일 수 있다.
액세스 타겟이 미분류 아이템인지의 여부가 판단될 수 있다(S50). 일 실시예에 따라서, 메모리(120)에 롱테일 그룹(123) 외에 인기 그룹(124)이 저장된 경우라면, 프로세서(110)는 액세스 타겟이 인기 그룹(124)에 포함되는지의 여부를 기초로 액세스 타겟이 미분류 아이템인지의 여부를 판단할 수 있다. 액세스 타겟이 미리 설정된 기간 동안의 액세스 횟수를 기초로 롱테일 그룹(123) 또는 인기 그룹(124)으로 분류되었던 기분류 아이템이라면, 단계(S50)에서 인기 그룹(124)에 포함될 것이다.
다른 실시예에 따라서, 웹 서버 내의 아이템들을 롱테일 그룹(123)으로 분류한 후에, 웹 서버에 새로 추가된 아이템들을 저장하는 신규 아이템 리스트가 메모리(120)에 저장된다면, 프로세서(110)는 액세스 타겟이 신규 아이템 리스트에 포함되는지의 여부를 기초로 미분류 아이템인지의 여부를 판단할 수 있다.
단계(S50)에서 액세스 타겟이 미분류 아이템이 아니라 기분류 아이템인 경우, 단계(S40)에서 요청에 대응하여 응답이 출력될 수 있다.
단계(S50)에서 액세스 타겟이 미분류 아이템인 경우, 액세스 타겟이 신규 아이템인지의 여부가 판단될 수 있다(S51). 프로세서(110)는 미분류 아이템 리스트(125)를 기초로 액세스 타겟에 해당하는 미분류 아이템이 신규 아이템인지의 여부를 판단할 수 있다. 만약 액세스 타겟에 해당하는 미분류 아이템이 미분류 아이템 리스트(125)에 포함되지 않을 경우, 미분류 아이템 리스트(125)에 추가할 수 있다(S52). 또한, 프로세서(110)는 미분류 아이템 리스트(125)에서 액세스 타겟에 해당하는 미분류 아이템의 액세스 횟수를 0으로 설정할 수 있다. 또한, 프로세서(110)는 액세스 타겟에 해당하는 미분류 아이템이 미분류 아이템 리스트(125)에 추가된 추가 시간을 저장할 수 있다. 일 예에 따르면, 미분류 아이템 리스트(125)에는 미분류 아이템들 또는 이들의 식별 정보, 미분류 아이템들의 액세스 횟수, 및 미분류 아이템들이 미분류 아이템 리스트(125)에 추가된 추가 시간이 저장될 수 있다.
단계(S51)에서 액세스 타겟이 신규 아이템이 아니어서 미분류 아이템 리스트(125)에 포함되어 있었거나, 단계(S52)에서 액세스 타겟이 새롭게 미분류 아이템 리스트(125)에 포함된 후에, 해당 액세스 타겟의 액세스 횟수가 증가될 수 있다(S53). 프로세서(110)는 미분류 아이템 리스트(125)에서 해당 액세스 타겟의 액세스 횟수를 1만큼 증가시킬 수 있다.
단계(S54)에서 액세스 타겟에 해당하는 미분류 아이템이 분류 대상인지의 여부가 판단될 수 있다(S54). 프로세서(110)는 액세스 타겟에 해당하는 미분류 아이템이 미분류 아이템 리스트(125)에 추가된 추가 시간 및 현재 시간의 차이를 기초로 액세스 타겟에 해당하는 미분류 아이템이 분류 대상인지의 여부를 판단할 수 있다. 프로세서(110)는 현재 시간과 추가 시간의 차이가 미리 설정한 기간을 초과하는지의 여부를 기초로 액세스 타겟에 해당하는 미분류 아이템이 분류 대상인지의 여부를 판단할 수 있다. 여기서 미리 설정한 기간은 예컨대 1일, 3일, 1주, 2주, 한 달 등 중에서 선택될 수 있다. 분류 대상인지의 여부를 판단하는데 사용되는 미리 설정한 기간은 설정값 및 기준값을 설정하는데 사용된 미리 설정한 기간과 동일할 수도 있고, 다를 수도 있다. 예컨대, 설정값 및 기준값이 하루 동안의 액세스 횟수를 기준으로 설정되었다고 하더라도, 분류 대상인지의 여부가 판단되는데 사용되는 미리 설정한 기간은 예컨대, 2일, 3일, 또는 7일과 같이 여러 날일 수 있다.
단계(S54)에서 액세스 타겟에 해당하는 미분류 아이템이 분류 대상이 아닌 경우, 단계(S40)에서 요청에 대응하여 응답이 출력될 수 있다.
단계(S54)에서 액세스 타겟에 해당하는 미분류 아이템이 분류 대상인 경우, 단계(S55)에서 액세스 타겟에 해당하는 미분류 아이템이 분류될 수 있다. 미분류 아이템 리스트(125)에 저장된 액세스 횟수는 미리 설정한 기간 동안 액세스 타겟에 해당하는 미분류 아이템에 액세스된 횟수를 의미한다. 이때 미리 설정된 기간이 아이템들을 분류하는데 사용된 미리 설정된 기간과 동일할 경우, 프로세서(110)는 미분류 아이템 리스트(125)에서 액세스 타겟에 해당하는 미분류 아이템의 액세스 횟수를 기준값과 비교함으로써, 미분류 아이템을 분류할 수 있다. 예컨대, 프로세서(110)는 미분류 아이템의 액세스 횟수가 기준값 이하인 경우, 미분류 아이템을 롱테일 그룹(123)으로 분류하고, 미분류 아이템 리스트(125)에서 삭제할 수 있다. 프로세서(110)는 미분류 아이템의 액세스 횟수가 기준값을 초과하는 경우, 미분류 아이템을 인기 그룹(124)으로 분류하고, 미분류 아이템 리스트(125)에서 삭제할 수 있다. 다른 예에 따라서, 분류 대상인지의 여부를 판단하는데 사용되는 미리 설정한 기간이 아이템들을 분류하는데 사용된 미리 설정된 기간과 다를 경우, 평균이나 기준값의 배수가 이용될 수 있다.
단계(S55)에서 액세스 타겟에 해당하는 미분류 아이템이 분류된 후에, 단계(S40)에서 요청에 대응하여 응답이 출력될 수 있다.
본 실시예에 따르면, 웹 서버에 새로운 아이템이 추가되더라도, 도 5의 분산 웹 크롤링에 대한 방어 방법을 수행하면서, 새로운 아이템을 롱테일 그룹으로 분류할 수 있다.
도 7은 또 다른 실시예에 따라서 웹 서버 내의 아이템들을 분류하는 방법을 설명하기 위한 순서도이다.
도 7을 참조로 설명되는 아이템 분류 방법은 도 1 및 도 4를 참조하여 설명된 크롤링 방어 장치의 프로세서, 특히, 아이템 분류 모듈에 의해 수행될 수 있다.
도 7의 아이템 분류 방법이 수행되어서 아이템들이 롱테일 그룹에 분류된 후에, 도 5 및 도 6을 참조로 앞에서 설명되는 분산 웹 크롤러에 대한 방어 방법이 수행될 수 있다. 웹 서버의 아이템들은 시간이 흐름에 따라 관심도가 달라질 수 있으므로, 도 7의 아이템 분류 방법은 주기적으로, 예컨대, 달마다 수행될 수 있다.
도 7을 참조하면, 웹 서버에 액세스되는 요청들이 수집될 수 있다(S71). 웹 서버에 액세스되는 요청들에 관한 정보는 프로세서(110)에 의해 로그로 기록될 수 있으며, 프로세서(110)는 특정 기간 동안의 로그를 분석할 수도 있다.
수집된 요청들을 분석하여, 웹 서버 내의 아이템들 각각의 액세스 횟수가 계수될 수 있다(S72). 프로세서(110)는 수집된 요청들 또는 이들을 기록한 로그를 분석함으로써, 도 2 및 도 3에 도시된 바와 같이 아이템들 각각의 액세스 횟수를 계수 있다.
웹 서버 내의 아이템들은 각각 롱테일 그룹 또는 인기 그룹으로 분류될 수 있다(S73). 프로세서(110)는 각각의 아이템들에 대한 액세스 횟수를 미리 설정한 기준값과 비교하여, 각 아이템들을 롱테일 그룹 또는 인기 그룹으로 분류할 수 있다. 아이템의 액세스 횟수가 기준값 이하인 경우, 프로세서(110)는 해당 아이템을 롱테일 그룹(123)에 추가할 수 있다. 아이템의 액세스 횟수가 기준값을 초과하는 경우, 프로세서(110)는 해당 아이템을 인기 그룹(124)에 추가할 수 있다.
이상에서 설명된 본 발명에 따른 실시예는 컴퓨터 상에서 다양한 구성요소를 통하여 실행될 수 있는 컴퓨터 프로그램의 형태로 구현될 수 있으며, 이와 같은 컴퓨터 프로그램은 컴퓨터로 판독 가능한 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수개 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 애플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항과 구체적인 실시예 및 도면을 참조하여 설명되었으나, 이는 본 발명의 이해를 돕기 위하여 제공된 것일 뿐이다. 본 발명은 이상에서 설명된 실시예들에 한정되지 않으며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 본 개시로부터 다양한 수정과 변경을 생각할 수 있을 것이다.
따라서, 본 발명의 사상은 이상에서 설명된 실시예에 국한하여 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위가 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims (17)

  1. 웹 서버로 기능하거나 상기 웹 서버와 통신하는 장치에 의해 수행되는 방법으로서,
    상기 웹 서버 내의 전체 아이템들 중에서 일부인 제1 아이템들을 포함하는 롱테일(long tail) 그룹을 정의하는 단계;
    송신자 아이피(IP) 주소와 액세스 타겟의 정보를 포함하는 요청을 수신하는 단계;
    상기 액세스 타겟이 상기 롱테일 그룹에 포함되는지의 여부를 판단하는 단계;
    상기 액세스 타겟이 상기 롱테일 그룹에 포함되는 경우, 상기 송신자 IP 주소의 액세스 횟수를 증가시키는 단계;
    상기 액세스 타겟이 상기 롱테일 그룹에 포함되어 증가된 상기 송신자 IP 주소의 상기 액세스 횟수가 미리 설정한 설정값(threshold)을 초과하는 경우, 상기 송신자 IP 주소를 차단 리스트에 추가하는 단계; 및
    상기 액세스 타겟이 상기 롱테일 그룹에 포함되지 않거나, 상기 액세스 횟수가 상기 미리 설정한 설정값을 초과하지 않는 경우, 상기 요청에 응답하는 단계를 포함하는 분산 웹 크롤러에 대한 방어 방법.
  2. 제1 항에 있어서,
    상기 요청을 수신하는 단계 후에, 상기 송신자 IP 주소가 상기 차단 리스트에 포함되는지의 여부를 판단하는 단계; 및
    상기 송신자 IP 주소가 상기 차단 리스트에 포함되는 경우, 상기 요청을 차단하는 단계를 더 포함하는 것을 특징으로 하는 분산 웹 크롤러에 대한 방어 방법.
  3. 제1 항에 있어서,
    상기 송신자 IP 주소의 액세스 횟수를 증가시키는 단계는,
    상기 송신자 IP 주소가 IP 리스트에 포함되는지의 여부를 판단하는 단계;
    상기 송신자 IP 주소가 IP 리스트에 포함되지 않는 경우, 상기 송신자 IP 주소를 상기 IP 리스트에 추가하는 단계; 및
    상기 송신자 IP 주소가 상기 IP 리스트에 포함되거나, 상기 IP 리스트에 추가한 후에, 상기 송신자 IP 주소의 액세스 횟수를 증가시키는 단계를 포함하는 것을 특징으로 하는 분산 웹 크롤러에 대한 방어 방법.
  4. 제1 항에 있어서,
    상기 롱테일 그룹에 포함되는 상기 제1 아이템들은 미리 설정한 기간 동안 미리 설정한 기준값 이하의 횟수로 액세스된 아이템들인 것을 특징으로 하는 분산 웹 크롤러에 대한 방어 방법.
  5. 제4 항에 있어서,
    상기 설정값은 상기 기준값의 1.2배 이상 2.0배 이하의 값으로 미리 설정되는 것을 특징으로 하는 분산 웹 크롤러에 대한 방어 방법.
  6. 제1 항에 있어서,
    상기 롱테일 그룹을 정의하는 단계는,
    상기 웹 서버에 액세스하는 요청들을 수집하는 단계;
    상기 요청들을 분석하여, 상기 웹 서버 내의 아이템들 각각에 대한 액세스 횟수를 계수하는 단계; 및
    상기 액세스 횟수가 미리 설정된 기준값 이하인 상기 제1 아이템들을 상기 롱테일 그룹으로 분류하는 단계를 포함하는 것을 특징으로 하는 분산 웹 크롤러에 대한 방어 방법.
  7. 제6 항에 있어서,
    상기 액세스 횟수가 상기 미리 설정된 기준값을 초과하는 제2 아이템들을 인기(popular) 그룹으로 분류하는 단계를 더 포함하는 것을 특징으로 하는 분산 웹 크롤러에 대한 방어 방법.
  8. 제7 항에 있어서,
    상기 제1 아이템들의 개수는 상기 제1 아이템들의 개수와 상기 제2 아이템들의 개수의 합의 70% 이상 99% 이하인 것을 특징으로 하는 분산 웹 크롤러에 대한 방어 방법.
  9. 제1 항에 있어서,
    상기 액세스 타겟이 상기 롱테일 그룹에 포함되지 않는 경우, 상기 액세스 타겟이 인기 그룹에 포함되는지의 여부를 판단하는 단계; 및
    상기 액세스 타겟이 인기 그룹에 포함되지 않는 경우, 상기 액세스 타겟에 해당하는 미분류 아이템의 액세스 횟수를 증가시키는 단계를 더 포함하는 분산 웹 크롤러에 대한 방어 방법.
  10. 제9 항에 있어서,
    상기 액세스 타겟에 해당하는 미분류 아이템의 액세스 횟수를 증가시키는 단계는,
    상기 미분류 아이템이 미분류 아이템 리스트에 포함되는지의 여부를 판단하는 단계;
    상기 미분류 아이템이 미분류 아이템 리스트에 포함되지 않는 경우, 상기 미분류 아이템을 상기 미분류 아이템 리스트에 추가하고, 상기 미분류 아이템 리스트에 추가한 추가 시간을 기록하는 단계; 및
    상기 미분류 아이템이 미분류 아이템 리스트에 포함되거나, 상기 미분류 아이템을 상기 미분류 아이템 리스트에 추가한 후에, 상기 미분류 아이템의 액세스 횟수를 증가시키는 단계를 포함하는 것을 특징으로 하는 분산 웹 크롤러에 대한 방어 방법.
  11. 제10 항에 있어서,
    상기 미분류 아이템의 상기 추가 시간과 현재 시간의 차이를 기초로 상기 미분류 아이템이 분류 대상인지의 여부를 판단하는 단계; 및
    상기 미분류 아이템이 분류 대상인 경우, 상기 미분류 아이템의 액세스 횟수를 기초로 상기 미분류 아이템을 상기 롱테일 그룹 또는 상기 인기 그룹으로 분류하는 단계를 더 포함하는 분산 웹 크롤러에 대한 방어 방법.
  12. 컴퓨터를 이용하여 청구항 제1항 내지 제11항 중 어느 한 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
  13. 송신자 아이피(IP) 주소와 액세스 타겟의 정보를 포함하는 요청을 수신하는 통신부;
    상기 요청에 의해 액세스될 수 있는 전체 아이템들 중에서 일부인 제1 아이템들을 포함하는 롱테일(long tail) 그룹을 정의하도록 구성되는 아이템 분류 모듈; 및
    상기 액세스 타겟이 상기 롱테일 그룹에 포함되는지의 여부를 판단하고, 상기 액세스 타겟이 상기 롱테일 그룹에 포함되는 경우, 상기 송신자 IP 주소의 액세스 횟수를 증가시키고, 상기 액세스 타겟이 상기 롱테일 그룹에 포함되어 증가된 상기 송신자 IP 주소의 상기 액세스 횟수가 미리 설정한 설정값(threshold)을 초과하는 경우, 상기 송신자 IP 주소를 차단 리스트에 추가하고, 상기 액세스 타겟이 상기 롱테일 그룹에 포함되지 않거나, 상기 액세스 횟수가 미리 설정한 설정값을 초과하지 않는 경우, 상기 요청에 응답하도록 구성되는 분산 웹 크롤러 방어 모듈을 포함하는 분산 웹 크롤러에 대한 방어 장치.
  14. 제13 항에 있어서,
    상기 분산 웹 크롤러 방어 모듈은 상기 송신자 IP 주소가 상기 차단 리스트에 포함되는지의 여부를 판단하고, 상기 송신자 IP 주소가 상기 차단 리스트에 포함되는 경우, 상기 요청을 차단하도록 구성되는 것을 특징으로 하는 분산 웹 크롤러에 대한 방어 장치.
  15. 제13 항에 있어서,
    상기 분산 웹 크롤러 방어 모듈은 상기 송신자 IP 주소가 IP 리스트에 포함되는지의 여부를 판단하고, 상기 송신자 IP 주소가 IP 리스트에 포함되지 않는 경우, 상기 송신자 IP 주소를 상기 IP 리스트에 추가하고, 상기 송신자 IP 주소가 상기 IP 리스트에 포함되거나, 상기 IP 리스트에 추가한 후에, 상기 송신자 IP 주소의 액세스 횟수를 증가시키도록 구성되는 것을 특징으로 하는 분산 웹 크롤러에 대한 방어 장치.
  16. 제13 항에 있어서,
    상기 아이템 분류 모듈은 상기 통신부를 통해 수신되는 요청들을 수집하고, 상기 요청들을 분석하여, 상기 전체 아이템들 각각에 대한 액세스 횟수를 계수하고, 상기 액세스 횟수가 미리 설정된 기준값 이하인 상기 제1 아이템들을 상기 롱테일 그룹으로 분류하는 것을 특징으로 하는 분산 웹 크롤러에 대한 방어 장치.
  17. 제16 항에 있어서,
    상기 설정값은 상기 기준값의 1.2배 이상 2.0배 이하의 값으로 미리 설정되는 것을 특징으로 하는 분산 웹 크롤러에 대한 방어 장치.
KR1020180090057A 2018-08-01 2018-08-01 분산 웹 크롤러에 대한 방어 방법 및 장치 KR102150530B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180090057A KR102150530B1 (ko) 2018-08-01 2018-08-01 분산 웹 크롤러에 대한 방어 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180090057A KR102150530B1 (ko) 2018-08-01 2018-08-01 분산 웹 크롤러에 대한 방어 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20200014638A KR20200014638A (ko) 2020-02-11
KR102150530B1 true KR102150530B1 (ko) 2020-09-01

Family

ID=69569084

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180090057A KR102150530B1 (ko) 2018-08-01 2018-08-01 분산 웹 크롤러에 대한 방어 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102150530B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113783923A (zh) * 2021-03-31 2021-12-10 北京沃东天骏信息技术有限公司 Web页面防刷处理方法、装置、设备以及存储介质
CN114553541B (zh) * 2022-02-17 2024-02-06 苏州良医汇网络科技有限公司 一种分级校验防爬虫的方法、装置、设备及存储介质
CN114640538A (zh) * 2022-04-01 2022-06-17 北京明略昭辉科技有限公司 一种爬虫程序的检测方法、装置、可读介质及电子设备
CN116232691A (zh) * 2023-01-10 2023-06-06 百度在线网络技术(北京)有限公司 异常访问的检测方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101077135B1 (ko) 2009-10-22 2011-10-26 한국인터넷진흥원 웹 서비스 대상 응용계층 디도스 공격 탐지 및 대응 장치
KR101224994B1 (ko) 2010-12-24 2013-01-22 한국인터넷진흥원 봇넷 탐지 정보의 분석 시스템 및 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101381199B1 (ko) * 2011-09-22 2014-04-18 서울대학교산학협력단 컨텐츠 전달 및 캐싱 방법과 이를 위한 시스템
KR101391781B1 (ko) * 2012-08-07 2014-05-07 한국전자통신연구원 웹 트랜잭션 밀집도 기반 에이치티티피 봇넷 탐지 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101077135B1 (ko) 2009-10-22 2011-10-26 한국인터넷진흥원 웹 서비스 대상 응용계층 디도스 공격 탐지 및 대응 장치
KR101224994B1 (ko) 2010-12-24 2013-01-22 한국인터넷진흥원 봇넷 탐지 정보의 분석 시스템 및 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Marios Dikaiakos et al, "Characterizing Crawler Behavior from Web Server Access Logs", International Conference on Electronic Commerce and Web Technologies, pp. 369-378(2003.)
Stack Overflow, "How do I prevent site scraping"(2016.11.)

Also Published As

Publication number Publication date
KR20200014638A (ko) 2020-02-11

Similar Documents

Publication Publication Date Title
KR102150530B1 (ko) 분산 웹 크롤러에 대한 방어 방법 및 장치
US11165822B2 (en) Identifying phishing websites using DOM characteristics
US10212170B1 (en) User authentication using client-side browse history
US9954805B2 (en) Graymail filtering-based on user preferences
US20170099319A1 (en) Identifying phishing websites using dom characteristics
US8434126B1 (en) Methods and systems for aiding parental control policy decisions
US9712520B1 (en) User authentication using client-side browse history
RU2658878C1 (ru) Способ и сервер для классификации веб-ресурса
Doran et al. An integrated method for real time and offline web robot detection
US10958684B2 (en) Method and computer device for identifying malicious web resources
US20120143844A1 (en) Multi-level coverage for crawling selection
US10560338B2 (en) Event-based data path detection
US11782912B2 (en) Asset user discovery data classification and risk evaluation
US11416631B2 (en) Dynamic monitoring of movement of data
US9646104B1 (en) User tracking based on client-side browse history
CN112600797A (zh) 异常访问行为的检测方法、装置、电子设备及存储介质
Abubaker et al. Exploring permissions in android applications using ensemble-based extra tree feature selection
US20160261715A1 (en) System and method for securing a web server
US20230315846A1 (en) System and method for detecting leaked documents on a computer network
US20210092130A1 (en) Detecting malicious web pages by analyzing elements of hypertext markup language (html) files
US20230026599A1 (en) Method and system for prioritizing web-resources for malicious data assessment
US10290022B1 (en) Targeting content based on user characteristics
US9892201B2 (en) Search engine classification
Shukla et al. POSTER: WinOver enterprise dark data
JP7293170B2 (ja) シグネチャ生成装置、検出装置、シグネチャ生成プログラム及び検出プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant