KR20140080404A

KR20140080404A - 유해 사이트 수집 장치 및 방법

Info

Publication number: KR20140080404A
Application number: KR1020130088452A
Authority: KR
Inventors: 이상준
Original assignee: 숭실대학교산학협력단
Priority date: 2012-12-20
Filing date: 2013-07-26
Publication date: 2014-06-30
Also published as: EP2937801A4; US20150319184A1; EP2937801B1; EP2937801A1; EP2937800B1; KR101508190B1; US9756064B2; EP2937800A4; EP2937800A1; WO2014098337A1

Abstract

유해 사이트간의 연결 관계를 분석하여 유해 사이트를 판별하는 유해 사이트 수집 장치 및 방법을 제공한다.
유해 사이트 수집 장치는 유해 사이트 URL을 저장하는 유해 사이트 데이터베이스와, 유해 사이트 URL이 나타내는 웹페이지를 수집하여 링크된 URL을 추출하는 웹페이지 수집 및 추출부 및 링크된 URL의 웹페이지 내에서 참조하는 다른 웹페이지들과의 연결 관계를 산출하여 유해 사이트를 판정하는 유해 사이트 연결관계 분석부를 포함하므로, 웹페이지에 링크된 URL 정보만으로 유해 사이트를 보다 쉽게 판단할 수 있다.

Description

유해 사이트 수집 장치 및 방법{Apparatus for colleting of harmful sites and method thereof}

본 발명은 유해 사이트를 자동으로 판별하여 목록에 추가하는 유해 사이트 수집 장치 및 방법에 관한 것이다.

전 세계를 연결하는 인터넷이라는 네트워크의 보급은 현대인의 생활에 급격한 변화를 가져왔다. 이제는 정보를 얻기 위해 노력하던 시대에서 더 나아가 인터넷과 같은 접근이 용이한 정보 데이터베이스에 있는 넘쳐나는 수많은 정보에서 유용한 정보를 어떻게 선별하느냐가 중요한 시대가 되었다. 인터넷을 통한 정보의 공유는 현대인의 기술 발전과 지식 공유에 놀라운 공헌을 한 것은 부인할 수 없는 사실이나, 그 용이한 접근 가능성과 정보의 빠른 확산은 많은 부작용을 수반하고 있는 것도 사실이다.

인터넷을 통한 여러 가지 부작용으로는 크게 보안의 미비로 인한 개인 정보의 유출 및 누구든지 접근 가능하다는 점과 상업적으로 인터넷을 이용할 수 있는 장점이 서로 맞물려 음란물이 범람하고 있는 것을 들 수 있다. 실제로 인터넷을 통해 가장 상업적 성공을 거둔 비즈니스는 음란물 비즈니스라는 통계가 있을 정도로 인터넷을 통한 음란물 유포는 큰 사회적 문제가 되고 있다.

어린 아이로부터 성인까지 개인용 컴퓨터를 어렵지 않게 사용할 수 있는 연령층은 이러한 유해 사이트에 무차별적으로 노출되어 있는데, 이러한 유해 사이트가 가정이나 직장 내의 컴퓨터 단말기 등에 접근하지 못하도록 많은 하드웨어 장치와 소프트웨어적 프로그램이 개발되어 왔다.

유해 사이트 차단 기술은 크게 두가지로 나뉘어진다. 사이트의 내용을 실시간으로 분석하여 유해 여부를 판단하는 것과, 유해 사이트 데이터베이스를 이용하여 유해 사이트로의 접근을 차단하는 것이다. 현재 사용되는 유해 사이트 차단 기술은 대부분 유해 사이트 데이터베이스를 이용하여 유해 사이트 접근을 막는 방법을 채택하고 있으며, 이 방법이 실시간 분석하는 방법보다 좀 더 편리하고 효과적이다.

그러나, 유해 사이트를 계속해서 생겨나고 있고, 사이트의 컨텐츠 및 주소의 변경이 수시로 발생하므로, 사람이 직접 유해 사이트 데이터베이스를 최신으로 유지하는 것은 어렵고 시간이 많이 걸린다.

본 발명의 일측면은 유해 사이트간의 연결 관계를 분석하여 자동으로 유해 사이트를 판별하는 유해 사이트 수집 장치 및 방법에 관한 것이다.

이를 위한 본 발명의 일측면에 의한 유해 사이트 수집 장치는 유해 사이트 URL을 저장하는 유해 사이트 데이터베이스;와, 상기 유해 사이트 URL이 나타내는 웹페이지를 수집하여 링크된 URL을 추출하는 웹페이지 수집 및 추출부; 및 상기 링크된 URL의 웹페이지 내에서 참조하는 다른 웹페이지들과의 연결 관계를 산출하여 유해 사이트를 판정하는 유해 사이트 연결관계 분석부를 포함할 수 있다.

상기 웹페이지 수집 및 추출부에서 추출한 링크된 URL을 하위 페이지 URL과, 다른 페이지 URL로 분리하고, 상기 다른 페이지 URL의 하위 디렉토리를 제거한 대표 URL을 추출하는 URL 처리부를 더 포함할 수 있다.

상기 URL 처리부는 상기 대표 URL과 상기 유해 사이트 데이터베이스에 저장되어 있는 유해 사이트 URL을 비교하여 중복되는 대표 URL은 제거할 수 있다.

상기 유해 사이트 데이터 베이스는 확정 분류된 유해 사이트의 URL과, 가분류된 유해 사이트의 URL을 저장할 수 있다.

상기 유해 사이트 연결관계 분석부는 상기 가분류된 유해 사이트의 URL의 웹페이지 내에서 참조하는 다른 웹페이지들과의 연결 관계를 산출하여 유해 사이트를 판정할 수 있다.

상기 유해 사이트 연결관계 분석부가 상기 링크된 URL의 웹페이지 내에서 참조하는 다른 웹페이지들과의 연결 관계를 산출하여 유해 사이트를 판정하는 것은,상기 링크된 URL의 웹페이지 내에서 참조하는 웹페이지들의 연결 관계를 나타내는 유방향 그래프를 산출하고, 상기 유방향 그래프에 포함된 웹페이지 중 적어도 하나의 웹페이지가 상기 유해 사이트 데이터베이스에 미리 저장된 유해 사이트와 동일하면 유해 사이트로 확정할 수 있다.

그리고, 본 발명의 다른 측면에 의한 유해 사이트 수집 장치는 확정 분류된 유해 사이트의 URL과, 가분류된 유해 사이트의 URL을 저장하는 유해 사이트 데이터베이스;와, 상기 확정 분류된 유해 사이트 URL이 나타내는 웹페이지를 수집하여 링크된 URL을 추출하는 웹페이지 수집 및 추출부;과, 상기 확정 분류된 유해 사이트 URL이 나타내는 웹페이지에 링크된 URL을 하위 페이지 URL과, 다른 페이지 URL로 분리하고, 상기 다른 페이지 URL의 하위 디렉토리를 제거한 대표 URL을 추출하여 상기 유해 사이트 데이터 베이스의 가분류된 유해 사이트의 목록에 저장하는 URL 처리부; 및 상기 가분류된 유해 사이트의 URL의 웹페이지 내에서 참조하는 다른 웹페이지들과의 연결 관계를 산출하여 유해 사이트를 판정하는 유해 사이트 연결관계 분석부를 포함할 수 있다.

상기 유해 사이트 연결관계 분석부에서 유해 사이트로 확정되지 않은 가분류된 유해 사이트들 간의 유해 사이트 랭킹을 산출하는 유해 사이트 랭크 계산부를 더 포함할 수 있다.

상기 유해 사이트 랭크 계산부는 상기 가분류된 유해 사이트를 참조하는 확정분류된 유해 사이트의 개수에 따라 상기 유해 사이트 랭킹을 산출할 수 있다.

그리고, 본 발명의 일측면에 의한 유해 사이트 수집 방법은 유해 사이트의 웹페이지에 링크된 URL을 추출하는 단계; 및 상기 URL의 웹페이지에서 참조하는 적어도 하나의 웹페이지와의 연결 관계를 확인하고, 상기 연결 관계에 따라 상기 URL의 웹페이지가 유해 사이트에 해당하는지 여부를 판정하는 단계를 포함할 수 있다.

상기 유해 사이트의 웹페이지에 링크된 URL을 추출하는 단계는, 상기 유해 사이트를 다운로드하고, 웹 크롤링 기법을 사용하여 상기 유해 사이트에 링크된 모든 URL을 추출할 수 있다.

상기 URL의 웹페이지에서 참조하는 적어도 하나의 웹페이지와의 연결 관계를 확인하는 것은, 상기 URL의 웹페이지에서 참조하는 적어도 하나의 웹페이지와의 유방향 그래프를 산출하여 연결 관계를 확인할 수 있다.

상기 유방향 그래프에 미리 정해진 확정된 유해 사이트가 포함되면, 상기 URL의 웹페이지는 유해 사이트로 확정될 수 있다.

상기 URL의 웹페이지가 유해 사이트에 해당하지 않는 것으로 확인되면, 상기 URL의 웹페이지의 유해 사이트 랭크를 산출할 수 있다.

상기 URL의 웹페이지의 유해 사이트 랭크를 산출하는 것은, 상기 URL의 웹페이지를 참조로 하는 유해 사이트의 개수에 따라 상기 유해 사이트 랭크를 산출할 수 있다.

상기 URL의 웹페이지가 유해 사이트에 해당하는지 여부를 판정하는 단계는, 기존 유해 사이트의 링크 정보에 따라 사이트들 간의 링크 관계를 수집하고, 수집된 링크에 대해 도착점이 기존의 유해사이트인 경우 시작점을 유해 사이트로 판정하는 것을 포함할 수 있다.

이상에서 설명한 바와 같이, 본 발명의 일측면에 의하면 웹페이지에 링크된 URL의 연결관계를 이용하여 유해 사이트를 보다 쉽게 판별할 수 있다.

도 1은 본 발명의 일실시예에 유해 사이트 수집 장치의 블록도를 도시한 도면
도 2는 도 1의 URL 처리부의 동작을 설명하기 위한 개념도
도 3은 도 1의 유해 사이트 연결관계 분석부에서 산출하는 유방향 그래프를 설명하기 위한 도면
도 4는 본 발명의 다른 실시예에 유해 사이트 수집 장치의 블록도를 도시한 도면
도 5는 도 4의 유해 사이트 랭크 계산부에서 랭크를 계산하는 원리를 설명하기 위한 개념도
도 6은 본 발명의 일실시예에 의한 유해 사이트 수집 장치의 분산 처리 작업 방식을 설명하기 위한 도면
도 7은 본 발명의 일실시예에 의한 유해 사이트 수집 장치의 제어흐름도
도 8은 본 발명의 다른 실시예에 의한 유해 사이트 수집 장치의 제어흐름도
도 9는 본 발명의 일실시예에 의한 유해사이트 수집장치에서 유해사이트를 고속으로 판단하는 방법을 설명하기 위한 개념도

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 사용하기로 한다.

도 1은 본 발명의 일실시예에 유해 사이트 수집 장치의 블록도를 도시한 도면이고, 도 2는 도 1의 URL 처리부의 동작을 설명하기 위한 개념도이며, 도 3은 도 1의 유해 사이트 연결관계 분석부에서 산출하는 유방향 그래프를 설명하기 위한 도면이다.

유해 사이트 수집 장치(100)는 유해 사이트 데이터베이스(110), 웹페이지 수집 및 추출부(120), URL 처리부(130) 및 유해 사이트 연결관계 분석부(140)를 포함할 수 있다.

유해 사이트 데이터베이스(110)는 유해 사이트 리스트를 저장할 수 있다. 유해 사이트 리스트는 유해 사이트의 URL 정보를 배열한 리스트일 수 있다. 유해 사이트 데이터베이스(110)는 확정 분류된 유해 사이트의 URL 정보에 대한 리스트와, 가분류된 유해 사이트의 URL 정보에 대한 리스트를 저장할 수 있다. 유해 사이트 데이터베이스(110)는 가분류된 유해사이트 또는 확정 분류된 유해 사이트는 아니지만, 유해 사이트 랭크 계산을 위한 유해사이트 URL 정보를 저장할 수 있다.

웹페이지 수집 및 추출부(120)는 웹 크롤링 기법으로 해당 웹페이지의 정보를 수집 및 추출할 수 있다. 웹페이지 수집 및 추출부(120)는 유해 사이트 데이터베이스(110)로부터 확정 분류된 유해 사이트 URL을 전송받고, 해당 웹페이지를 인터넷에서 다운로드할 수 있다. 웹페이지 수집 및 추출부(120)는 다운로드받은 웹페이지를 파싱하여 모든 링크 정보를 추출할 수 있다. 여기서, 링크 정보는 URL 정보 또는 IP 정보를 포함할 수 있으며, URL 정보의 경우 아래와 같은 HTML 태그 형태로 정의되어 있을 수 있다.

수식 1

a href = "http://www.host.com/dirctory/file.html">Link</a>

URL 처리부(130)는 추출된 URL 정보를 하위 페이지 URL 정보와 다른 페이지 URL 정보로 나눌 수 있다. URL 처리부(130)는 추출된 하위 페이지 URL 정보와 다른 페이지 URL 정보를 유해 사이트 데이터베이스(110)에 이미 저장된 URL 정보와 비교하여 새로운 URL 정보만 추출할 수 있다. URL 처리부(130)는 추출된 새로운 URL 정보를 유해 사이트 데이터베이스(110)의 가분류된 유해 사이트 리스트로 추가할 수 있다.

도 2를 참조하면, 웹페이지 수집 및 추출부(120)는 유해 사이트 데이터베이스(110)로부터 확정 분류된 유해 사이트의 URL을 전송받고, URL에 따른 웹페이지를 다운로드 받는다. 웹페이지 수집 및 추출부(120)는 웹 크롤링 기법으로 웹페이지를 파싱하여 링크 정보를 추출한다. URL 처리부(130)는 링크 정보에 포함된 URL 정보를 하위 페이지 URL 정보와, 다른 페이지 URL 정보로 분리한다. URL 처리부(130)는 하위 페이지 URL 정보와, 유해 사이트 데이터베이스(110)에 저장된 유해 사이트 URL 정보를 비교하여 방문 여부를 판단하고, 방문 기록이 없는 하위 페이지 URL 정보만을 추출하여 유해 사이트 데이터베이스(110)에 저장한다. URL 처리부(130)는 다른 페이지 URL 정보를 정규화하여 대표 URL 정보를 추출할 수 있다. 여기서, 다른 페이지 URL 정보를 정규화하는 것은 URL 정보 중 하위 디렉토리를 제거하고, “프로토콜 정보”와, “정보 자원을 가진 컴퓨터의 위치 정보”만을 가진 URL 정보를 추출하고, 이렇게 추출된 URL 정보 중 중복된 URL 정보를 제거하는 일련의 과정을 의미한다. 예를 들어, 아래의 1)번 또는 2)번과 같은 URL 정보에서 하위 디렉토리를 제거한 3)번 URL 정보를 추출하는 일련의 과정을 의미한다.

수식 2

1) http://www.fling.com/enter.php?prg=2&t=teen&id

2) http://www.fling.com/enter.php?prg=2&t=amateur&id

3) http://www.fling.com/

URL 처리부(130)는 다른 페이지 URL 정보를 정규화하여 생성한 대표 URL 정보와 유해 사이트 데이터베이스(110)에 저장된 유해 사이트 URL 정보를 비교하고, 새로운 대표 URL 정보를 유해 사이트 데이터베이스(110)의 가분류된 유해사이트 리스트에 추가할 수 있다.

유해 사이트 연결관계 분석부(140)는 가분류된 유해사이트의 연결 흐름 정보를 나타내는 유방향 그래프를 생성하여 유해사이트를 확정할 수 있다. 유방향 그래프는 가분류된 어느 하나의 유해사이트를 시작점으로 하고, 그 유해사이트에서 참조하고 있는 다른 사이트를 제1중간점으로 나타내며, 제1중간점의 사이트에서 참조하고 있는 다른 사이트를 제2중간점으로 나타내며, 동일한 방식으로 순환을 찾아 최종적으로 시작점에 해당하는 유해사이트로 돌아오는 그래프를 의미한다. 도 3을 참조하면, (a)의 경우 확정 분류된 유해사이트들의 순환관계를 나타내는 유방향 그래프이다. 이는 유해 사이트들은 서로 간에 참조하고 있을 가능성이 높다는 점을 반영한 것이다. (b)의 경우 확정 분류된 유해 사이트와 가분류된 유해 사이트가 순환을 이루는 것으로써, 가분류된 유해 사이트가 확정 분류된 유해 사이트와 순환을 이루는 경우 유해사이트로 확정된다. (c)의 경우 가분류된 유해 사이트가 확정 분류된 유해 사이트와 순환을 이루지 않으므로 유해 사이트가 아닌 것으로 확정된다. 다만, (c)와 같은 경우에도 유해 사이트가 존재할 수 있으므로 후술하는 실시예에서는 (c)에 해당하는 가분류된 유해 사이트들 간의 랭크를 산출하여 사용자에게 제공한다.

한편, 도 3에서는 유방향 그래프가 세 꼭짓점으로 구성되었지만, 두 꼭짓점 사이의 직선 형태일 수 있으며, 네 개 이상의 꼭짓점으로 구성되는 다각형일 수 있음은 물론이다. 또한, 유방향 그래프는 순환이 이루어지지 않는 비순환 그래프가 형성될 수 있음은 물론이다. 이 때, 비순환 그래프에 포함되는 가분류된 유해 사이트는 유해 사이트로 확정되지 않는다.

도 4는 본 발명의 다른 실시예에 유해 사이트 수집 장치의 블록도를 도시한 도면이며, 도 5는 도 4의 유해 사이트 랭크 계산부에서 랭크를 계산하는 원리를 설명하기 위한 개념도이다.

도 4의 실시예는 도 1의 실시예와 비교 시, 유해 사이트 랭크 계산부(150)를 추가로 포함하는 것이 특징이므로, 다른 구성에 대해서는 도 1의 설명으로 대체한다.

유해 사이트 랭크 계산부(150)는 유해 사이트 연결 관계 분석부(140)에서 유해 사이트로 확정되지 않은 가분류된 유해 사이트들 간의 유해 사이트 랭킹을 산출할 수 있다. 이는 유해 사이트 연결 관계 분석부(140)에서 유방향 그래프가 비순환형으로 만들어지거나, 순환형으로 만들어진 경우에도 확정 분류된 유해 사이트를 참조하고 있지 않아 유해 사이트로 확정되지 않은 경우에도 유해 사이트가 존재할 수 있기 때문에 이루어지는 작업이다.

유해 사이트 랭크 계산부(150)는 유해 사이트로 가분류되었지만 확정적인 유해사이트로 분류되지 않은 사이트의 랭크를 산출하기 위해, 페이지 랭크 방식을 이용한다. 구체적으로, 유해 사이트 랭크 계산부(150)는 확정 분류된 유해 사이트에서 참조하고 있는 횟수에 따라 가분류된 유해 사이트의 랭크를 계산할 수 있다. 이는 확정 분류된 유해 사이트에서 참조하고 있는 횟수가 많으면 많을수록 유해 사이트일 확률이 높기 때문이다. 도 5를 참조하면, 가분류된 유해 사이트는 자신을 참조하는 확정 분류된 유해 사이트가 많으면 많을수록 유해 사이트 랭크가 높아지게 된다.

도 6은 본 발명의 일실시예에 의한 유해 사이트 수집 장치의 분산 처리 작업 방식을 설명하기 위한 도면이다.

유해 사이트 수집 장치(100)는 상술한 웹페이지 수집 및 추출부(120), URL 처리부(130), 유해사이트 연결 관계 분석부(140), 유해사이트 랭크 계산부(150)의 정보 수집 및 처리 시간을 단축시킬 수 있도록 분산 처리 마스터 장치(160) 및 분산 처리 슬래이브 장치(170)를 포함하여 구성될 수 있다.

분산 처리 마스터 장치(160)는 유해 사이트 데이터베이스(110)로부터 방문할 URL 목록을 전송받고, URL 목록을 분산 처리 슬래이브 장치(170)에 분배할 수 있다. 각각의 분산 처리 슬래이브 장치(170)는 분배된 URL 목록에 대해 웹사이트 수집 및 처리를 수행하여 유해 사이트를 갱신하거나, 가분류된 유해 사이트의 랭킹을 산출하여 유해 사이트 데이터베이스(110)에 저장할 수 있다.

상술한 작업은, 분산 처리 마스터 장치(160)에서 개별적으로 하는 방식과 비교 시, 처리 속도가 분산 처리 슬래이브 장치(170)의 개수에 비례하여 빨라짐을 알 수 있다.

도 7은 본 발명의 일실시예에 의한 유해 사이트 수집 장치의 제어흐름도이다.

웹페이지 수집 및 추출부(120)는 유해 사이트 데이터베이스(110)로부터 방문할 URL 정보를 수신하고, 수신된 URL 정보에 해당하는 웹페이지를 다운로드한다.(200)

웹페이지 수집 및 추출부(120)는 공지된 웹 크롤링 기법을 이용하여 웹페이지의 링크 정보를 추출한다.(210)

URL 처리부(130)는 추출된 URL 정보를 하위 페이지 URL 정보와 다른 페이지 URL 정보로 나눌 수 있다. URL 처리부(130)는 추출된 하위 페이지 URL 정보와 다른 페이지 URL 정보를 유해 사이트 데이터베이스(110)에 이미 저장된 URL 정보와 비교하여 새로운 URL 정보만 추출할 수 있다.(220)

URL 처리부(130)는 다른 페이지 URL 정보를 정규화하여 대표 URL 정보를 추출한다. 다른 페이지 URL 정보를 정규화하는 것은 상술한 것처럼, URL 정보 중 하위 디렉토리를 제거하고, 최상위 URL 정보만 추출하는 것을 의미한다.(230)

URL 처리부(130)는 정규화된 URL 정보를 유해 사이트 데이터베이스(110)에 가분류된 유해 사이트로 저장한다.(240)

유해 사이트 연결관계 분석부(140)는 가분류된 유해사이트의 연결 흐름 정보를 나타내는 유방향 그래프를 생성하여 유해사이트를 판정할 수 있다. 상술한 것처럼, 가분류된 유해 사이트의 참조 관계를 분석하여 유해 사이트와 순환 관계를 이루고 있는 것은 유해 사이트로 확정되고, 유방향 그래프가 폐쇄형이 아니거나, 폐쇄형인 경우에도 확정된 유해 사이트롤 참조하고 있지 않은 경우에는 유해 사이트가 아닌 것으로 판정된다.(250,260)

도 8은 본 발명의 다른 실시예에 의한 유해 사이트 수집 장치의 제어흐름도이다.

도 8은 도 7의 제어 흐름이 완료된 후, 유해 사이트로 확정되지 않은 가분류 유해 사이트의 랭크를 산출하는 방법을 설명하기 위한 흐름도이다.

유해 사이트 랭크 계산부(150)는 유해 사이트 연결 관계 분석부(140)에서 유해 사이트로 확정되지 않은 가분류된 유해 사이트들을 분류한다.(270)

유해 사이트 랭크 계산부(150)는 유해 사이트로 가분류되었지만 확정적인 유해사이트로 분류되지 않은 사이트의 랭크를 산출하기 위해, 페이지 랭크 방식을 이용한다. 구체적으로, 유해 사이트 랭크 계산부(150)는 가분류된 유해 사이트를 참조하고 있는 확정된 유해 사이트의 개수를 산출한다.(280)

유해 사이트 랭크 계산부(150)는 가분류된 유해 사이트를 참조하고 있는 확정된 유해 사이트의 개수에 비례하여 해당 사이트의 랭크를 산출할 수 있다. 이는, 유방향 그래프를 통해 유해 사이트로 확정이 되진 않았지만, 당해 사이트를 참조하는 유해 사이트가 많은 경우 유해 사이트일 확률이 높기 때문에, 상술한 방법에 의한 유해 사이트 랭킹을 제공하여 개별적인 판단이 가능하게 하는 프로세스이다.(290)

도 9는 본 발명의 일실시예에 의한 유해사이트 수집장치에서 유해사이트를 고속으로 판단하는 방법을 설명하기 위한 개념도이다.

유해 사이트 수집 장치(100)는 상술한 것처럼, 유해사이트 링크 연결 정보를 가져와 유방향 그래프를 생성하여 순환을 찾고, 찾아진 순환에 기존 유해사이트가 존재할 경우 순환에 포함된 모든 사이트들이 유해하다고 판정한다.

또다른 실시예로, 유해 사이트 수집장치(100)는 Bottom-Up 방식의 유해 사이트 판정 알고리즘을 이용하여 고속으로 유해 사이트를 판정할 수 있다. 유해 사이트 수집장치(100)는 기존 유해 사이트의 링크 정보를 바탕으로 사이트 들 간의 링크 관계를 수집하고, 수집된 링크에 대해 도착점이 기존의 유해 사이트인 경우 시작점을 유해 사이트로 판정하고 이러한 과정을 반복하게 된다. 도 9를 참조하면, 1단계에서, 기존 유해 사이트 목록(A)을 입력하여 사이트들의 연결 관계를 수집한다. 2단계에서, 수집된 사이트들의 연결 관계에서 참조되는 방향 즉 가리킴을 받는 방향에 있는 사이트들이 기존 유해사이트 목록에 있는지 여부를 찾는다. 도시된 2단계에서는, 가리킴을 받는 방향에 유해사이트 목록에 포함되어 있는 것은 ‘D, A’이다.

3단계에서 판단된 정보를 토대로 참조되는 방향의 사이트가 기존의 유해 사이트일 경우, 참조하는 방향의 사이트(도면에서는 ‘C’, 'F')를 유해사이트로 판정하여 유해사이트 목록에 추가한다. 유해 사이트 수집장치(100)는 3단계에서 목록이 추가되면 다시 2단계의 과정을 거치고 3단계로 넘어간다. 3단계에서 목록이 추가되지 않을 때까지 2~3단계를 반복하여 유해사이트 목록을 생성한다. 상술한 Bottom-Up 방식은 그래프를 생성하는 데이터를 처리하는 방식이 아닌 연결 관계만을 이용하므로 분산처리에 유리하며, 구현이 용이하고 데이터 처리량도 줄일 수 있다.

비록 본 발명이 상기에서 언급한 바람직한 실시예와 관련하여 설명되어졌지만, 본 발명의 요지와 범위로부터 벗어남이 없이 다른 다양한 수정 및 변형이 가능한 것은 당업자라면 용이하게 인식할 수 있을 것이며, 이러한 변경 및 수정은 모두 첨부된 특허청구범위의 범위에 속함은 자명하다.

Claims

유해 사이트 URL을 저장하는 유해 사이트 데이터베이스;
상기 유해 사이트 URL이 나타내는 웹페이지를 수집하여 링크된 URL을 추출하는 웹페이지 수집 및 추출부; 및
상기 링크된 URL의 웹페이지 내에서 참조하는 다른 웹페이지들과의 연결 관계를 산출하여 유해 사이트를 판정하는 유해 사이트 연결관계 분석부를 포함하는 유해 사이트 수집 장치.
제 1 항에 있어서,
상기 웹페이지 수집 및 추출부에서 추출한 링크된 URL을 하위 페이지 URL과, 다른 페이지 URL로 분리하고, 상기 다른 페이지 URL의 하위 디렉토리를 제거한 대표 URL을 추출하는 URL 처리부를 더 포함하고, 상기 URL 처리부는 상기 대표 URL과 상기 유해 사이트 데이터베이스에 저장되어 있는 유해 사이트 URL을 비교하여 중복되는 대표 URL은 제거하는 유해 사이트 수집 장치.
제 1 항에 있어서,
상기 유해 사이트 데이터 베이스는 확정 분류된 유해 사이트의 URL과, 가분류된 유해 사이트의 URL을 저장하는 유해 사이트 수집 장치.
제 3 항에 있어서,
상기 유해 사이트 연결관계 분석부는 상기 가분류된 유해 사이트의 URL의 웹페이지 내에서 참조하는 다른 웹페이지들과의 연결 관계를 산출하여 유해 사이트를 판정하는 것인 유해 사이트 수집 장치.
제 1 항에 있어서,
상기 유해 사이트 연결관계 분석부가 상기 링크된 URL의 웹페이지 내에서 참조하는 다른 웹페이지들과의 연결 관계를 산출하여 유해 사이트를 판정하는 것은,
상기 링크된 URL의 웹페이지 내에서 참조하는 웹페이지들의 연결 관계를 나타내는 유방향 그래프를 산출하고, 상기 유방향 그래프에 포함된 웹페이지 중 적어도 하나의 웹페이지가 상기 유해 사이트 데이터베이스에 미리 저장된 유해 사이트와 동일하면 유해 사이트로 확정하는 것인 유해 사이트 수집 장치.
확정 분류된 유해 사이트의 URL과, 가분류된 유해 사이트의 URL을 저장하는 유해 사이트 데이터베이스;
상기 확정 분류된 유해 사이트 URL이 나타내는 웹페이지를 수집하여 링크된 URL을 추출하는 웹페이지 수집 및 추출부;
상기 확정 분류된 유해 사이트 URL이 나타내는 웹페이지에 링크된 URL을 하위 페이지 URL과, 다른 페이지 URL로 분리하고, 상기 다른 페이지 URL의 하위 디렉토리를 제거한 대표 URL을 추출하여 상기 유해 사이트 데이터 베이스의 가분류된 유해 사이트의 목록에 저장하는 URL 처리부; 및
상기 가분류된 유해 사이트의 URL의 웹페이지 내에서 참조하는 다른 웹페이지들과의 연결 관계를 산출하여 유해 사이트를 판정하는 유해 사이트 연결관계 분석부를 포함하는 유해 사이트 수집 장치.
제 6 항에 있어서,
상기 유해 사이트 연결관계 분석부에서 유해 사이트로 확정되지 않은 가분류된 유해 사이트들 간의 유해 사이트 랭킹을 산출하는 유해 사이트 랭크 계산부를 더 포함하고, 상기 유해 사이트 랭크 계산부는 상기 가분류된 유해 사이트를 참조하는 확정 분류된 유해 사이트의 개수에 따라 상기 유해 사이트 랭킹을 산출하는 것인 유해 사이트 수집 장치.
유해 사이트의 웹페이지에 링크된 URL을 추출하는 단계; 및
상기 URL의 웹페이지에서 참조하는 적어도 하나의 웹페이지와의 연결 관계를 확인하고, 상기 연결 관계에 따라 상기 URL의 웹페이지가 유해 사이트에 해당하는지 여부를 판정하는 단계를 포함하는 유해 사이트 수집 방법.
제 8 항에 있어서,
상기 URL의 웹페이지에서 참조하는 적어도 하나의 웹페이지와의 연결 관계를 확인하는 것은,
상기 URL의 웹페이지에서 참조하는 적어도 하나의 웹페이지와의 유방향 그래프를 산출하여 연결 관계를 확인하고, 상기 유방향 그래프에 미리 정해진 확정된 유해 사이트가 포함되면, 상기 URL의 웹페이지는 유해 사이트로 확정되는 유해 사이트 수집 방법.
제 8 항에 있어서,
상기 URL의 웹페이지가 유해 사이트에 해당하지 않는 것으로 확인되면, 상기 URL의 웹페이지의 유해 사이트 랭크를 산출하고, 상기 URL의 웹페이지의 유해 사이트 랭크를 산출하는 것은, 상기 URL의 웹페이지를 참조로 하는 유해 사이트의 개수에 따라 상기 유해 사이트 랭크를 산출하는 것인 유해 사이트 수집 방법.
제 8 항에 있어서,
상기 URL의 웹페이지가 유해 사이트에 해당하는지 여부를 판정하는 단계는,
기존 유해 사이트의 링크 정보에 따라 사이트들 간의 링크 관계를 수집하고, 수집된 링크에 대해 도착점이 기존의 유해사이트인 경우 시작점을 유해 사이트로 판정하는 것을 포함하는 유해 사이트 수집 방법.