KR20070003495A - 유해 사이트 수집 장치 및 그 방법 - Google Patents

유해 사이트 수집 장치 및 그 방법 Download PDF

Info

Publication number
KR20070003495A
KR20070003495A KR1020050074851A KR20050074851A KR20070003495A KR 20070003495 A KR20070003495 A KR 20070003495A KR 1020050074851 A KR1020050074851 A KR 1020050074851A KR 20050074851 A KR20050074851 A KR 20050074851A KR 20070003495 A KR20070003495 A KR 20070003495A
Authority
KR
South Korea
Prior art keywords
url
urls
harmful
site
web
Prior art date
Application number
KR1020050074851A
Other languages
English (en)
Other versions
KR100723837B1 (ko
Inventor
최수길
정치윤
한승완
남택용
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to US11/386,572 priority Critical patent/US20070005652A1/en
Publication of KR20070003495A publication Critical patent/KR20070003495A/ko
Application granted granted Critical
Publication of KR100723837B1 publication Critical patent/KR100723837B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Abstract

유해 사이트 수집 장치 및 그 방법이 개시된다. 시작 URL DB는 유해한 웹 페이지의 URL들을 저장한다. URL 검사 및 분배부는 시작 URL DB에 저장된 URL들 중 URL은 다르지만 동일 웹 페이지를 가리키는 중복된 URL들을 제거하고, 중복성 제거된 URL들에서 기 수집된 웹 사이트에 해당하는 URL을 제외한 URL들을 특정 호스트와 관련된 URL별로 묶어 제공한다. 웹 사이트 수집부는 URL 검사 및 분배부로부터 제공받은 URL에 해당하는 웹 사이트들의 웹 컨텐츠를 수집한다. 그리고 URL 추출부는 웹 사이트 수집부에서 수집한 웹 컨텐츠에 포함된 링크에서 URL을 추출하고, 추출된 URL 중 최상위 도메인 네임 및 무해 URL 목록을 기초로 무해 URL들을 파악하여 수집 대상 URL에서 제외한다. 이로써, 유해 사이트 데이터베이스가 정확하고 풍부하며 최신의 정보를 유지할 수 있게 도와준다.

Description

유해 사이트 수집 장치 및 그 방법{Appratus and method for gathering of objectional web site}
도 1a는 본 발명에 따른 사이트 수집 장치의 일 실시예의 구조를 도시한 도면,
도 1b는 본 발명에 따른 유해 사이트 수집 장치의 일 실시예의 구조를 도시한 도면,
도 2는 본 발명에 따른 유해 사이트 수집 장치의 유해 URL 메타 검색부의 상세 구성의 일 실시예를 도시한 도면,
도 3은 본 발명에 따른 유해 사이트 수집 장치의 URL 검사 및 분배부의 상세 구성의 일 실시예를 도시한 도면,
도 4는 본 발명에 따른 유해 사이트 수집 장치의 웹 사이트 수집부의 상세 구성의 일 실시예를 도시한 도면,
도 5는 본 발명에 따른 유해 사이트 수집 장치의 무해 이미지 필터의 상세 구성의 일 실시예를 도시한 도면,
도 6은 본 발명에 따른 유해 사이트 수집 장치의 URL 추출부의 상세 구성의 일 실시예를 도시한 도면, 그리고,
도 7은 본 발명에 따른 유해 사이트 수집 방법의 일 실시예의 흐름을 도시한 도면이다.
본 발명은 유해 사이트 수집 장치 및 그 방법에 관한 것으로, 유해 사이트 데이터베이스를 구축하는 시스템에 적용하여 유해 사이트의 수집율과 수집량을 증가시키고 수집속도의 향상 및 자동 등급 분류에 도움이 되는 유해 사이트 수집 장치 및 그 방법에 관한 것이다.
유해 사이트 접근을 차단하는 기술은 크게 두 가지로 나뉘어진다. 사이트의 내용을 실시간으로 분석하여 유해 여부를 판단하는 것과, 유해 사이트 데이터베이스를 이용하여 유해 사이트로의 접근을 차단하는 것이다. 현재 사용되는 유해 사이트 차단 제품들 대부분은 유해 사이트 데이터베이스를 이용하여 유해 사이트 접근을 막는 방법을 채택하고 있으며, 이 방법이 실시간 분석하는 방법보다 좀 더 편리하고 효과적이다.
유해 사이트는 계속해서 생겨나고 있고, 사이트의 컨텐츠 및 주소의 변경이 수시로 발생하므로, 사람이 직접 유해 사이트 데이터베이스를 최신으로 유지하는 것은 어렵고 시간이 많이 걸린다. 이를 위해서, 사이트의 내용을 자동으로 분석하여 유해 여부를 판단하고, 유해 사이트 데이터베이스에 반영하는 시스템이 필요하다.
사이트의 내용을 분석하기 위해서는 먼저 사이트를 수집해야 하는데, 이 경 우 웹 로봇이 자동으로 사이트를 수집한다. 하지만 유해 사이트 자동 분류를 위한 시스템에서 일반 웹 로봇을 이용하는 것은 적합하지 않다. 일반 웹 로봇에 유해 사이트 주소를 시작 URL로 주더라도, 일반 웹 로봇은 곧 방향성을 상실하고 사이트의 유해 여부에 관계없이 현재 위치한 사이트와 연결된 모든 사이트를 수집하게 된다. 이런 경우, 수집 시간과 수집한 웹 페이지 저장을 위해 필요한 공간이 기하 급수적으로 늘어나고, 수집한 사이트의 유해 여부 판단을 위한 분석 시간도 따라서 늘어난다. 수집과 분석에 시간이 오래 걸린다면, 유해 사이트 데이터베이스의 갱신 주기가 길어지고 이로 인해 차단하지 못하는 유해 사이트가 증가하게 된다. 그리고, 일반 웹 로봇은 사이트 내의 웹 페이지만을 수집하기 때문에 유해 사이트 분류 정확도를 높일 수 있는 유용한 정보를 제공하지 못한다.
종래의 유해 사이트 수집율을 높이기 위한 방법은 유해 키워드 데이터베이스를 참조하여 검색된 웹 사이트의 내용에 유해 키워드가 포함된 경우에만 수집한 수준으로써, 유해 사이트를 수집하지 못하거나 무해 사이트를 잘못 수집할 확률이 크다.
본 발명이 이루고자 하는 기술적 과제는, 인터넷 사이트들의 유해 여부를 자동으로 판단하여 유해 사이트 데이터베이스를 구축하는 시스템의 유해 사이트 자동 수집 도구에 적용하여 풍부하고 정확한 유해 사이트 데이터베이스를 구축할 수 있도록 하는 장치 및 그 방법을 제공하는 데 있다.
상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 유해 사이트 수집 장치의 일 실시예는, 유해한 웹 페이지의 URL들을 저장하는 시작 URL DB; 상기 시작 URL DB에 저장된 URL들 중 URL은 다르지만 동일 웹 페이지를 가리키는 중복된 URL들을 제거하고, 상기 중복성 제거된 URL들에서 기 수집된 웹 사이트에 해당하는 URL을 제외한 URL들을 특정 호스트와 관련된 URL별로 묶어 제공하는 URL 검사 및 분배부; 상기 URL 검사 및 분배부로부터 제공받은 URL에 해당하는 웹 사이트들의 웹 컨텐츠를 수집하는 웹 사이트 수집부; 및 상기 웹 사이트 수집부에서 수집한 웹 컨텐츠에 포함된 링크에서 URL을 추출하고, 상기 추출된 URL 중 최상위 도메인 네임 및 무해 URL 목록을 기초로 무해 URL들을 파악하여 수집 대상 URL에서 제외하는 URL 추출부;를 포함한다.
상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 유해 사이트 수집 방법의 일 실시예는, (a) 상기 시작 URL DB에 저장된 URL들 중 URL은 다르지만 동일 웹 페이지를 가리키는 중복된 URL들을 제거하고, 상기 중복성 제거된 URL들에서 기 수집된 웹 사이트에 해당하는 URL을 제외한 URL들을 특정 호스트와 관련된 URL별로 묶어 제공하는 단계; (b) 상기 정리된 URL에 해당하는 웹 사이트들의 웹 컨텐츠를 수집하고, 유해 웹 사이트의 접근시 발생하는 특징 패턴을 기초로 상기 웹 사이트의 유해 여부를 분석하는 단계; 및 (c) 상기 수집한 웹 컨텐츠에 포함된 링크에서 URL을 추출하고, 상기 추출된 URL 중 최상위 도메인 네임 및 무해 URL 목록을 기초로 무해 URL을 파악하여 수집 대상 URL에서 제외하는 단계;를 포함한다.
이로써, 유해 사이트 데이터베이스가 정확하고 풍부하며 최신의 정보를 유지 할 수 있게 도와준다.
이하에서, 첨부된 도면들을 참조하여 본 발명에 따른 유해 사이트 수집 장치 및 그 방법에 관해 상세히 설명한다.
도 1a는 사이트 수집 장치의 일 실시예의 구조를 도시한 도면이다.
도 1a를 참조하면, 사이트 수집 장치는 시작 URL DB(100), URL 검사 및 분배부(110), 웹 사이트 수집부(120) 및 URL 추출부(130)로 구성된다.
시작 URL DB(100)는 웹 로봇이 수집을 시작할 URL들을 저장한다. URL 검사 및 분배부(110)는 시작 URL DB(100)로부터 특정 호스트의 URL들을 시작 URL DB(100)로부터 추출하여 웹 사이트 수집부(120)로 전달한다.
웹 사이트 수집부(120)는 URL 검사 및 분배부(110)로부터 전달받은 특정 호스트의 URL들에 포함된 웹 페이지들을 수집하고 그 결과를 URL 추출부(130)로 전달한다.
URL 추출부(130)는 전달받은 웹 페이지에 포함된 링크에서 URL들을 추출하여 URL 검사 및 분배부(110)로 전달한다. 그러면 URL 검사 및 분배부(110)는 URL들의 중복성(즉, URL은 다르지만 동일 웹페이지를 가리키는 URL)과 이미 수집했는지를 검사하여 수집 대상이 되는 URL 들만 저장한다.
웹 사이트 수집, URL 추출, URL 검사 및 분배의 과정은 수집할 URL이 없을 때까지 계속하여 반복한다.
도 1b는 본 발명에 따른 유해 사이트 수집 장치의 일 실시예의 상세 구조를 도시한 도면이다.
도 1b를 참조하면, 본 발명에 따른 유해 사이트 수집 장치는 유해 URL 메타 검색부(150), 시작 URL DB(155), URL 검사 및 분배부(160), 웹 사이트 수집부(165), URL 추출부(170) 및 무해 이미지 필터(175)를 포함한다.
유해 URL 메타 검색부(150)는 유해 키워드를 메타 검색의 입력으로 사용하여 유해 가능성이 높은 웹 페이지의 URL들을 수집하고, 유해 사이트 자동 분류부(180)에 의해 유해한 것으로 판명된 URL 들을 시작 URL DB(155)에 저장한다. 시작 URL DB(155)는 일반 웹 로봇의 경우와 동일하다. 유해 URL 메타 검색부(150)에 대하여는 도 2를 참조하여 상세히 설명한다.
URL 검사 및 분배부(160)는 URL 들의 중복성(즉 동일 웹 페이지에 해당하는 URL들)과 이미 수집한 웹 사이트에 해당하는 URL인지를 검사하여 수집 대상이 되는 URL들만을 저장하다. 그리고, URL 검사 및 분배부(160)는 URL 추출부(170)로부터 삭제 명령이 온 URL들을 삭제한다. URL 검사 및 분배부(160)는 도 3을 참조하여 상세히 설명한다.
웹 사이트 수집부(165)는 URL 검사 및 분배부(160)로부터 수집한 URL을 전달받아서 인터넷 상의 웹 서버에 URL에 해당하는 웹 페이지를 요청하여 수집하고, 유해 웹 사이트 수집시 나타날 수 있는 특징을 파악한다. 웹 사이트 수집부(165)에 대하여는 도 4를 참조하여 상세히 설명한다.
무해 이미지 필터(175)는 웹 사이트 수집부(165)가 수집하려는 웹 컨텐츠( 이미지)를 무해 이미지 특징 프로파일과 비교하여 무해한 이미지의 특징을 가진 경우 수집을 차단한다. 무해 이미지 특징 프로파일은 무해 이미지의 특징 패턴을 파 악하여 미리 설정된다. 무해 이미지 필터(175)에 관하여는 도 5를 참조하여 상세히 설명한다.
URL 추출부(170)는 웹 사이트 수집부(165)에 의해 수집된 웹 페이지에 포함된 URL들을 추출하고, 무해 URL 목록과 무해한 최상위 도메인 네임(즉, edu, gov, org 등)을 이용하여, 추출한 URL들 중 무해 URL을 제거한 후 URL 검사 및 분배부(160)로 전달한다.
또한, URL 추출부(170)는 외부의 유해 사이트 자동 분류부(180)로부터 사이트별 분류 결과를 받아서 무해 사이트들을 파악하고, 그 결과를 기초로 URL 검사 및 분배부(160)에게 무해 사이트에 해당하는 URL들에 대한 삭제 명령을 전달한다. URL 추출부(170)에 대하여는 도 6을 참조하여 상세히 설명한다.
여기서, 유해 사이트 자동 분류부(180)는 웹 페이지의 특징을 파악하여 상기 웹 페이지가 유해한 내용을 포함하고 있는지를 분석하는 장치로써 수동 또는 자동으로 구현될 수 있다. 유해 사이트 자동 분류부는 종래 사용되는 구성요소로 구현 가능하다.
도 2는 본 발명에 따른 유해 사이트 수집 장치의 유해 URL 메타 검색부의 상세 구성의 일 실시예를 도시한 도면이다.
도 2를 참조하면, 유해 URL 메타 검색부(150)는 유해 키워드 목록(200), 메타 검색부(210), 유해 URL 검사부(220)를 포함한다.
유해 키워드 목록(200)은 유해 사이트에 자주 등장하는 대표 단어들을 정리한 목록이다. 메타 검색부(210)는 유해 키워드 목록(200)에 있는 단어들에 대해 미 리 정의된 검색 엔진을 통해 검색 요청을 하고 그 검색 결과를 수신한다. 검색 엔진에 유해 키워드를 입력하더라도, 검색 결과 중에는 무해한 웹 페이지의 URL들이 많이 포함될 수 있다.
따라서, 유해 URL 검사부(220)는 이전의 검색에서 발견된 URL들을 제거하고, 유해 사이트 자동 분류부(180)와 연동하여 유해한 웹 페이지의 URL만을 저장한다. 이로써 새로 나타난 유해 URL들만 파악할 수 있다. 유해 URL 메타 검색부(150)는 상기의 방법으로 파악한 유해 URL들을 시작 URL DB(155)에 저장한다.
도 3은 본 발명에 따른 유해 사이트 수집 장치의 URL 검사 및 분배부의 상세 구성의 일 실시예를 도시한 도면이다.
도 3을 참조하면, URL 검사 및 분배부(160)는 URL 검사부(300), URL 관리부(310) 및 URL 분배부(320)로 구성된다.
URL 검사부(300)는 검사 대상이 되는 URL들 중 동일 웹 페이지를 가리키는 중복으로 포함된 URL들을 찾아서 중복성을 제거하고, 기 수집한 사이트 목록과 비교하여 이미 수집한 사이트와 관련된 URL들을 제거하여 수집 대상이 되는 URL들만을 정리한다. URL의 중복성 판단 방법으로는 IP 주소를 검사하여 URL이 동일 IP 주소를 가지고 있는지 판별하는 방법 또는 URL들에 해당하는 웹 페이지를 비교하여 양자가 동일한지 판단하는 방법이 있다.
URL 관리부(310)는 URL 검사부(300)에 의해 정리된 수집 대상 URL 목록에서 URL 추출부(170)로부터 삭제 명령을 받은 URL들을 삭제한다.
URL 분배부(320)는 웹 사이트 수집부(165)로부터 URL 요청을 수신하면, 수집 대상 URL 목록에 있는 URL들 중 특정 호스트별로 URL들을 묶어 웹 사이트 수집부(165)로 전달한다.
도 4는 본 발명에 따른 유해 사이트 수집 장치의 웹 사이트 수집부의 상세 구성의 일 실시예를 도시한 도면이다.
도 4를 참조하면, 웹 사이트 수집부(165)는 웹 컨텐츠 수집부(400) 및 유해 웹 사이트 분석부(410)로 구성된다.
웹 컨텐츠 수집부(400)는 URL 검사 및 분배부(160)로부터 수신한 URL 목록에 해당하는 웹 컨텐츠를 웹 서버에 요청하여 수집하고, 수집한 웹 컨텐츠에 같은 웹 사이트 내의 웹 컨텐츠에 대한 링크가 있으면, 그 링크로 연결된 웹 컨텐츠도 수집한다.
유해 웹 사이트 분석부(410)는 웹 컨텐츠 수집부(400)가 웹 브라우저를 통해 수집한 웹 페이지를 해석하고 처리하는 과정을 에뮬레이션하여 유해 사이트의 웹 페이지를 받아서 해석하고 처리할 때 나타내는 특징들을 파악하고 그 결과를 저장한다. 예를 들어, 웹 브라우저를 이용하여 유해 웹 사이트의 메인 페이지를 보려고 하면 여러 번의 redirection이 일어나는데 이러한 현상을 유해 웹 사이트 수집시 나타나는 특징으로 볼 수 있다. 유해 사이트 자동 분류부(180)가 웹 사이트의 유해 여부를 판단할 때 이와 같은 정보를 활용할 수 있다면 분류 성능을 높일 수 있다.
도 5는 본 발명에 따른 유해 사이트 수집 장치의 무해 이미지 필터의 상세 구성의 일 실시예를 도시한 도면이다.
도 5를 참조하면, 웹 사이트 수집부(165)가 요청한 웹 컨텐츠는 무해 이미지 필터(175)를 거치게 된다. 웹 컨텐츠가 이미지일 경우에, 무해 이미지 특성 분석부(500)는 그 이미지의 특징과 무해 이미지 특징 프로파일을 비교하여, 무해한 내용의 이미지로 판단이 되면 웹 사이트 수집부에 무해 이미지임을 알리는 신호를 보낸다.
도 6은 본 발명에 따른 유해 사이트 수집 장치의 URL 추출부의 상세 구성의 일 실시예를 도시한 도면이다.
도 6을 참조하면, URL 추출부(170)는 URL 획득부(600), 무해 URL 필터(610) 및 링크 관계 관리부(620)로 구성된다.
URL 획득부(600)는 웹 사이트에 의해 수집된 웹 페이지에 포함된 링크에서 URL들을 추출한다. 무해 URL 필터(610)는 URL 획득부(600)에 의해 추출된 URL들에서 URL만으로 무해임을 알 수 있는 URL들을 제거한다. 즉 무해 URL 필터(610)는 무해 URL 목록에 포함되는 URL들을 제거하고, URL 도메인 네임이 무해한 최상위 도메인 네임(즉, edu, gov, org 등)을 포함하는 경우 해당 URL을 수집 대상 URL에서 제거한 후 URL 검사 및 분배부(160)에 전달한다.
링크 관계 관리부(620)는 사이트들간의 링크 관계 정보를 유지하며, 무해한 사이트에서 링크된 사이트들을 파악한다. 즉 링크 관계 관리부(620)는 유해 사이트 자동 분류 결과 무해한 것으로 판정된 사이트에서 링크된 사이트들은 무해한 것으로 판단한다. 링크 관계 관리부(620)는 무해한 사이트 목록을 URL 검사 및 분배부(160)에 전달하여 수집대상 URL 목록에서 지우도록 한다.
예를 들어, A 사이트는 B,C,D 사이트를 링크하고, B 사이트는 E,F 사이트를 링크하고, E 사이트는 G,H 사이트를 링크할 때, B 사이트가 무해한 것으로 밝혀지면 B사이트에서 링크가 시작되는 E,F,G,H 사이트 모두를 무해한 것으로 보고 수집을 하지 않는다.
도 7은 본 발명에 따른 유해 사이트 수집 방법의 일 실시예의 흐름을 도시한 도면이다.
도 7을 참조하면, 메타 검색을 통해 유해 사이트를 파악하여 시작 URL DB에 저장한다(S700). 시작 URL DB에 저장된 유해 가능성 있는 URL들 중 동일 웹 페이지에 해당하는 URL들의 중복성을 제거한다. 그리고, 중복성이 제거된 URL들에서 기 수집된 웹 사이트에 해당하는 URL을 제외한 URL들을 정리한 후 특정 호스트에 해당하는 URL별로 묶는다(S710).
특정 호스트에 포함된 URL에 해당하는 웹 사이트들의 웹 컨텐츠를 수집하고(S720), 유해 웹 사이트의 접근시 발생하는 특징 패턴을 기초로 수집대상이 된 웹 사이트의 유해 여부를 분석한다(S730).
수집한 웹 사이트의 웹 컨텐츠에 포함된 링크에서 URL을 추출하고, 추출된 URL 중 URL의 도메인 네임 및 무해 URL 목록을 기초로 무해 URL을 파악하여 URL DB에서 삭제한다(S740).
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
본 발명에 따르면, 인터넷 사이트들의 유해 여부를 자동으로 판단하여 유해 사이트 데이터베이스를 구축하는 시스템의 유해 사이트 자동 수집 도구에 적용될 수 있다.
또한 유해 사이트 데이터베이스 갱신 주기의 단축, 데이터베이스에 포함되는 유해 사이트 수의 증가, 데이터베이스의 정확도 향상을 가능하게 하여 유해 사이트 차단 서비스의 만족도를 높일 수 있다.
종래의 유해 사이트 수집 기술은 일반 웹 로봇 기술에 유해 키워드 매칭 방법만을 추가한 것으로서, 유해 사이트 데이터베이스의 양과 질을 늘리는데 별로 도 움이 되지 못하나, 본 발명은 유해 사이트 수집 방법을 크게 개선하여, 유해 사이트 데이터베이스 양과 질적 개선에 직접적인 도움이 된다.

Claims (14)

  1. 유해한 웹 페이지의 URL들을 저장하는 시작 URL DB;
    상기 시작 URL DB에 저장된 URL들 중 URL은 다르지만 동일 웹 페이지를 가리키는 중복된 URL들을 제거하고, 상기 중복성 제거된 URL들에서 기 수집된 웹 사이트에 해당하는 URL을 제외한 URL들을 특정 호스트와 관련된 URL별로 묶어 제공하는 URL 검사 및 분배부;
    상기 URL 검사 및 분배부로부터 제공받은 URL에 해당하는 웹 사이트들의 웹 컨텐츠를 수집하는 웹 사이트 수집부; 및
    상기 웹 사이트 수집부에서 수집한 웹 컨텐츠에 포함된 링크에서 URL을 추출하고, 상기 추출된 URL 중 최상위 도메인 네임 및 무해 URL 목록을 기초로 무해 URL들을 파악하여 수집 대상 URL에서 제외하는 URL 추출부;를 포함하는 것을 특징으로 하는 유해 사이트 수집 장치.
  2. 제 1항에 있어서, 상기 웹 사이트 수집부는,
    상기 웹 사이트 접근시 발생하는 특징 패턴이 유해 사이트 접근시 발생하는 특징 패턴과 유사한지 판단하는 것을 특징으로 하는 유해 사이트 수집 장치.
  3. 제 1항에 있어서, 상기 URL 추출부는,
    상기 추출한 URL들 중 외부 유해 사이트 자동 분류부에 의해 파악된 무해 URL로부터 링크된 URL들을 무해 URL로 파악하는 것을 특징으로 유해 사이트 수집 장치.
  4. 제 1항에 있어서,
    유해 키워드를 메타 검색의 입력으로 사용하여 상기 유해 가능성이 높은 웹 사이트의 URL을 파악하는 유해 URL 메타 검색부;를 더 포함하는 것을 특징으로 하는 유해 사이트 수집 장치.
  5. 제 4항에 있어서, 상기 유해 URL 메타 검색부는,
    유해 사이트에 자주 등장하는 유해 키워드를 포함하는 유해 키워드 목록;
    상기 유해 키워드를 미리 설정된 검색 엔진들의 입력으로 사용하여 상기 검색 엔진들에 의한 검색 결과에 포함된 URL들을 추출하는 메타 검색부; 및
    상기 검색 결과에 포함된 URL들 중 무해 URL을 제외한 URL들만 상기 URL DB에 저장하는 URL 검사부;를 포함하는 것을 특징으로 하는 유해 사이트 수집 장치.
  6. 제 1항에 있어서,
    상기 웹 사이트 수집부가 수집하는 웹 페이지의 컨텐츠가 이미지일 경우에 상기 이미지의 특징과 미리 설정된 무해 이미지 특징 프로파일을 비교하여 무해한 이미지의 수집을 차단하는 무해 이미지 필터;를 더 포함하는 것을 특징으로 하는 유해 사이트 수집 장치.
  7. 제 1항에 있어서, 상기 URL 검사 및 분배부는,
    상기 시작 URL DB에 저장된 URL에서 URL은 다르지만 동일한 웹 페이지를 가리키는 중복된 URL들을 제거하고, 기 수집한 웹 페이지에 해당하는 URL을 제외한 수집 대상 URL을 정리하는 URL 검사부;
    상기 수집 대상 URL에서 상기 URL 추출부에 의해 무해 URL로 판별된 URL을 삭제하는 URL 관리부; 및
    상기 수집 대상 URL 중 특정 호스트에 포함된 URL들을 묶어 전달하는 URL 분배부;를 포함하는 것을 특징으로 하는 유해 사이트 수집 장치.
  8. 제 1항에 있어서, 상기 웹 사이트 수집부는,
    상기 URL 검사 및 분배부로부터 특정 호스트에 포함된 URL 목록을 수신하고, 상기 수신한 URL 목록에 해당하는 웹 컨텐츠를 수집하는 웹 컨텐츠 수집부; 및
    상기 웹 컨텐츠 수집시에 유해 웹 사이트 접근시에 발생하는 특징 패턴이 나타나는지 파악하는 웹 사이트 분석부;를 포함하는 것을 특징으로 하는 유해 사이트 수집 장치.
  9. 제 1항에 있어서, 상기 URL 추출부는,
    상기 웹 사이트 수집부에 의해 수집된 웹 컨텐츠에 포함된 링크에서 URL을 추출하는 URL 획득부;
    상기 추출된 URL 중 최상위 도메인 네임 및 무해 URL 목록을 기초로 무해 URL을 파악하는 무해 URL 필터; 및
    외부 유해 사이트 자동 분류부에 의해 파악된 무해 URL로부터 링크된 사이트의 URL을 무해한 URL로 파악한 후, 상기 무해한 것으로 파악된 URL의 삭제를 상기 URL 검사 및 분배부에 요청하는 링크 관계 관리부;를 포함하는 것을 특징으로 하는 유해 사이트 수집 장치.
  10. (a) 상기 시작 URL DB에 저장된 URL들 중 URL은 다르지만 동일 웹 페이지를 가리키는 중복된 URL들을 제거하고, 상기 중복성 제거된 URL들에서 기 수집된 웹 사이트에 해당하는 URL을 제외한 URL들을 특정 호스트와 관련된 URL별로 묶어 제공하는 단계;
    (b) 상기 정리된 URL에 해당하는 웹 사이트들의 웹 컨텐츠를 수집하고, 유해 웹 사이트의 접근시 발생하는 특징 패턴을 기초로 상기 웹 사이트의 유해 여부를 분석하는 단계; 및
    (c) 상기 수집한 웹 컨텐츠에 포함된 링크에서 URL을 추출하고, 상기 추출된 URL 중 최상위 도메인 네임 및 무해 URL 목록을 기초로 무해 URL을 파악하여 수집 대상 URL에서 제외하는 단계;를 포함하는 것을 특징으로 하는 유해 사이트 수집 방법.
  11. 제 10항에 있어서, 상기 (b) 단계는,
    상기 웹 사이트 접근시 발생하는 특징 패턴이 유해 사이트 접근시 발생하는 특징 패턴과 유사한지 판단하는 단계;를 포함하는 것을 특징으로 하는 유해 사이트 수집 방법.
  12. 제 10항에 있어서, 상기 (c) 단계는,
    소정의 무해 URL에서 링크된 사이트의 URL을 무해 URL로 파악하는 단계;를 포함하는 것을 특징으로 하는 유해 사이트 수집 방법.
  13. 제 10항에 있어서, 상기 (a) 단계 전에,
    유해 키워드를 메타 검색의 입력으로 사용하여 상기 유해 가능성이 높은 웹 사이트의 URL을 파악하여 상기 URL DB에 저장하는 단계;를 더 포함하는 것을 특징으로 유해 사이트 수집 방법.
  14. 제 10항에 있어서, 상기 (b) 단계는,
    상기 수집하는 웹 페이지의 컨텐츠가 이미지일 경우에 상기 이미지의 특징과 미리 설정된 무해 이미지 특징 프로파일을 비교하여 무해한 이미지의 수집을 차단하는 단계;를 포함하는 것을 특징으로 하는 유해 사이트 수집 방법.
KR1020050074851A 2005-07-02 2005-08-16 유해 사이트 수집 장치 및 그 방법 KR100723837B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US11/386,572 US20070005652A1 (en) 2005-07-02 2006-03-21 Apparatus and method for gathering of objectional web sites

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020050059481 2005-07-02
KR20050059481 2005-07-02

Publications (2)

Publication Number Publication Date
KR20070003495A true KR20070003495A (ko) 2007-01-05
KR100723837B1 KR100723837B1 (ko) 2007-05-31

Family

ID=37870338

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050074851A KR100723837B1 (ko) 2005-07-02 2005-08-16 유해 사이트 수집 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR100723837B1 (ko)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100931785B1 (ko) * 2007-11-19 2009-12-14 주식회사 오피엠에스 부정 컨텐츠 판별 장치 및 방법
WO2014098337A1 (ko) * 2012-12-20 2014-06-26 숭실대학교산학협력단 유해 사이트 수집 장치 및 방법
US9749352B2 (en) 2012-12-20 2017-08-29 Foundation Of Soongsil University-Industry Cooperation Apparatus and method for collecting harmful website information
KR20200105179A (ko) 2019-02-28 2020-09-07 안상필 유해 사이트 현황 자동 수집 시스템
KR20220055131A (ko) 2020-10-26 2022-05-03 (주)아이엠비씨 글로벌 기반의 콘텐츠 이용 현황 관리 시스템
KR102421572B1 (ko) * 2022-04-29 2022-07-15 주식회사 프랭클린테크놀로지 유해 사이트에 대한 접속 알림 서비스를 제공할 수 있는 알림 서비스 서버 및 그 동작 방법
KR102506572B1 (ko) * 2022-10-31 2023-03-07 석준현 인스턴트 메신저 시스템에서 클린 서비스 가입자를 보호하기 위한 장치 및 방법
US11681779B1 (en) 2022-04-29 2023-06-20 Franklin Technology Inc. Notification service server capable of providing access notification service to harmful sites and operating method thereof

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990027166A (ko) * 1997-09-29 1999-04-15 구자홍 웹사이트 접속 제한방법
KR20020081774A (ko) * 2001-04-19 2002-10-30 주식회사 플랜티넷 유해사이트 데이터베이스 현행화 방법 및 장치
KR20030004475A (ko) * 2001-07-05 2003-01-15 (주)타잔테크놀로지 유해 인터넷 사이트의 차단 및 검색 시스템
KR20010103131A (ko) * 2001-10-29 2001-11-23 이돈원 유해 사이트 차단 방법

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100931785B1 (ko) * 2007-11-19 2009-12-14 주식회사 오피엠에스 부정 컨텐츠 판별 장치 및 방법
WO2014098337A1 (ko) * 2012-12-20 2014-06-26 숭실대학교산학협력단 유해 사이트 수집 장치 및 방법
US9749352B2 (en) 2012-12-20 2017-08-29 Foundation Of Soongsil University-Industry Cooperation Apparatus and method for collecting harmful website information
US9756064B2 (en) 2012-12-20 2017-09-05 Foundation Of Soongsil University-Industry Cooperation Apparatus and method for collecting harmful website information
KR20200105179A (ko) 2019-02-28 2020-09-07 안상필 유해 사이트 현황 자동 수집 시스템
KR20220055131A (ko) 2020-10-26 2022-05-03 (주)아이엠비씨 글로벌 기반의 콘텐츠 이용 현황 관리 시스템
KR102421572B1 (ko) * 2022-04-29 2022-07-15 주식회사 프랭클린테크놀로지 유해 사이트에 대한 접속 알림 서비스를 제공할 수 있는 알림 서비스 서버 및 그 동작 방법
US11681779B1 (en) 2022-04-29 2023-06-20 Franklin Technology Inc. Notification service server capable of providing access notification service to harmful sites and operating method thereof
WO2023210861A1 (ko) * 2022-04-29 2023-11-02 주식회사 프랭클린테크놀로지 유해 사이트에 대한 접속 알림 서비스를 제공할 수 있는 알림 서비스 서버 및 그 동작 방법
KR102506572B1 (ko) * 2022-10-31 2023-03-07 석준현 인스턴트 메신저 시스템에서 클린 서비스 가입자를 보호하기 위한 장치 및 방법

Also Published As

Publication number Publication date
KR100723837B1 (ko) 2007-05-31

Similar Documents

Publication Publication Date Title
US20070005652A1 (en) Apparatus and method for gathering of objectional web sites
KR100723837B1 (ko) 유해 사이트 수집 장치 및 그 방법
KR100723867B1 (ko) 피싱웹페이지 차단 장치 및 방법
CA2365705C (en) A system for collecting specific information from several sources of unstructured digitized data
CA2648269C (en) Information analyzing method and apparatus
US6567800B1 (en) System and method for searching information stored on a network
KR100509276B1 (ko) 웹페이지별 방문인기도에 기반한 웹페이지 검색방법 및 그장치
CN101369276B (zh) 一种Web浏览器缓存数据的取证方法
US20020129062A1 (en) Apparatus and method for cataloging data
CN109905288B (zh) 一种应用服务分类方法及装置
US7240045B1 (en) Automatic system for configuring to dynamic database search forms
JP5557824B2 (ja) 階層ファイルストレージに対する差分インデクシング方法
CN110619075B (zh) 一种网页识别方法与设备
CN111258956A (zh) 一种面向远端海量数据文件预读的方法及设备
Schäfer et al. Focused web corpus crawling
Sujatha Improved user navigation pattern prediction technique from web log data
RU2709647C9 (ru) Способ ассоциирования доменного имени с характеристикой посещения веб-сайта
KR100557874B1 (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
Almishari et al. Ads-portal domains: Identification and measurements
KR101880474B1 (ko) 고부가 가치화 콘텐츠 정보서비스를 위한 키워드 기반 서비스 제공 방법, 이를 구현하기 위한 프로그램이 저장된 기록매체 및 이를 구현하기 위해 매체에 저장된 컴퓨터프로그램
KR100667917B1 (ko) 웹사이트 검색 서비스 제공 방법 및 그 시스템
US11275786B2 (en) Implementing enhanced DevOps process for cognitive search solutions
KR100931772B1 (ko) 웹사이트 검색 서비스 제공 방법 및 그 시스템
JPH11306160A (ja) サービス利用履歴からのサービス単位の抽出方法、抽出装置及び抽出プログラムを記録した記録媒体
JP3725088B2 (ja) 知識情報収集システムおよび知識情報収集方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Publication of correction
FPAY Annual fee payment

Payment date: 20110511

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee