KR100670789B1

KR100670789B1 - 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법

Info

Publication number: KR100670789B1
Application number: KR1020040101089A
Authority: KR
Inventors: 이승민; 남택용; 장종수
Original assignee: 한국전자통신연구원
Priority date: 2004-12-03
Filing date: 2004-12-03
Publication date: 2007-01-17
Also published as: KR20060062300A

Abstract

본 발명에 의한 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법은 음란사이트를 차단하기 위한 자료로 사용할 텍스트를 그 음란성 정도로 구분하여 적어도 하나 이상의 집합으로 구분한 후 데이터베이스화하는 단계; 접속중인 웹 사이트로부터 텍스트를 수집하는 단계; 및 상기 텍스트를 상기 집합내의 텍스트들과 비교하여 적어도 하나 이상의 다단계 필터링을 수행하여 상기 접속중인 웹 사이트의 차단여부를 결정하는 단계;를 포함하는 것을 특징으로 하며, 개인용 컴퓨터에 적용되어 개인용 컴퓨터에서 인터넷 웹 사이트를 접속할 때, 웹 사이트의 텍스트를 이용하여 음란성 유무를 정확하게 판단하여 유해 사이트를 차단할 수 있다.

Description

유해 사이트 차단을 위한 다단계 텍스트 필터링 방법{Method for multi-level text filtering for blocking harmful web-sites}

도 1은 본 발명에 의한 다단계 필터링을 적용하는 예를 보여주는 도면이다.

도 2는 도 1의 영역별 대표어 데이터베이스 부분을 개념화하여 도시한 도면이다.

도 3은 본 발명에 의한 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법의 과정을 보여주는 흐름도이다.

본 발명은 인터넷상의 유해 사이트 접속 차단을 위한 방법에 관한 것으로서, 보다 자세하게는 개인용 컴퓨터에 적용되어 인터넷상에 존재하는 웹 사이트들 중에서 음란 사이트를 정확하게 판단하여 접속을 차단하기 위한 다단계 텍스트 필터링 방법에 관한 것이다.

종래에는 음란 사이트 차단을 텍스트를 기초로 수행하는 경우에, 음란 사이트에 포함되어 있는 음란 단어를 데이터베이스로 구축한 다음, 사용자가 웹 사이트를 접속할 때 해당 웹 사이트가 음란 데이터베이스에 포함되는 음란 단어를 포함하 면 음란 사이트로 판단하여 이를 차단하였다. 그러나 이와 같은 종래의 방법은 성상담이나 병원, 스포츠 신문 및 생물학 사이트 등과 같이 음란 사이트는 아니지만 그러한 텍스트를 포함하는 경우에 이를 차단하는 문제점이 발생하게 된다.

본 발명이 이루고자 하는 기술적 과제는 상기의 문제점을 해결하기 위하여 안출된 것으로서, 다단계의 텍스트 필터를 적용하여 보다 정확하게 음란사이트를 판단할 수 있도록 하는 방법을 제공하는데 있다.

상기와 같은 기술적 과제를 이루기 위하여, 본 발명에 의한 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법은 음란사이트를 차단하기 위한 자료로 사용할 텍스트를 그 음란성 정도로 구분하여 적어도 하나 이상의 집합으로 구분한 후 데이터베이스화하는 단계; 접속중인 웹 사이트로부터 텍스트를 수집하는 단계; 및 상기 텍스트를 상기 집합내의 텍스트들과 비교하여 적어도 하나 이상의 다단계 필터링을 수행하여 상기 접속중인 웹 사이트의 차단여부를 결정하는 단계;를 포함하는 것을 특징으로 한다.

이하 첨부된 도면을 참조하면서 본 발명의 바람직한 일 실시예를 상세히 설명하도록 한다.

도 1은 본 발명이 제안하고 있는 다단계 필터가 적용되는 예를 보인 것이다. 먼저 인터넷으로부터 들어오는 웹 문서(110)를 읽어들여 형태소분석기(120)에서 해당 문서의 명사(이하 본 발명의 상세한 설명 및 특허청구범위에서 "텍스트" 혹은 " 단어"와 동의어로 사용한다)를 추출한 다음, 다단계 필터(130)를 통과시키면, 유해문서(150)와 무해문서(160)로 분류된다. 다단계필터(130)가 입력되는 단어들에 대하여 필터링을 수행하기 위하여는 판단기준이 제고되어야 하는데, 이 때 각 영역 즉 유해사이트(이하 "음란사이트"는 유해사이트의 하나의 예로서 사용되며, 동의어로 이해되어도 무방하다)와 무해사이트 그리고 양자중 어느 것이라고 판단할 수 없는 영역의 사이트를 대표하는 단어들로 구성되는 데이터베이스(140)가 그 기준을 제시한다.

도 2는 도 1의 영역별 대표어 데이터베이스(140)을 개념적으로 도시한 것으로써, 무해 사이트와 음란 사이트에 대한 보다 정확한 판단을 위하여, 음란 사이트로 오판할 가능성이 있는 영역을 선정하여, 이 영역을 대표하는 단어를 포함하는 데이터베이스를 구축함을 표시한 것이다. 이를 위하여 음란 사이트로 판단할 텍스트들을 원소로 하는 제1집합, 음란 사이트뿐만 아니라 소정의 성 관련 사이트에도 나타나는 텍스트들을 원소로 하는 제2집합, 그리고 상기 소정의 성 관련 사이트에만 나타나는 텍스트들을 원소로 하는 제3집합으로 구분하여 상기 데이터베이스(140)를 구축한다.

이에 대한 구분의 한 예는 표 1과 같다. 만일, 웹 사이트에 포함된 단어로서 "성교", "클리닉" 등이 등장한 경우에는 표 1을 참조하면 제2집합과 제3집합에 속하는 영역이므로 도 2의 220,230에 속하는 영역이다. 이 경우 본 발명에 의한 알고리즘에 의하면 무해로 결정되는데, 이는 후술하도록 한다.

	제1집합	제2집합	제3집합
데이터베이스	음란사이트로 판단할 수 있는 단어들	음란사이트뿐 아니라 성관련사이트에도 나타나는 단어들	클리닉, 상담등 성관련사이트에만 나타나는 단어들

도 3은 도 2와 같이 다양한 영역에 대하여 구축된 데이터베이스(140)를 이용하여 구체적으로 웹 사이트의 텍스트를 판단하여 유해/무해 여부를 판단하는 알고리즘을 보여주고 있다.

우선, 음란사이트를 차단하기 위한 자료로 사용할 텍스트를 그 음란성 정도로 구분하여 상기한 바와 같이 제1내지 제3집합으로 구분한 후 데이터베이스화한다. 이러한 상태에서 접속중인 웹 사이트로부터 텍스트를 수집(S310)하게 되며, 수집된 텍스트를 분석하여 그 웹 사이트의 유해여부를 판단하게 된다.

이를 위하여, 먼저 1단계 필터링으로서, 상기 텍스트가 유해 사이트로 판단되는 단어에 속하는지 즉 상기 제1집합에 속하는지가 먼저 결정된다(S320). 만약 유해 사이트로 판단할 수 있는 제1집합에 속하는 단어에 해당하면 그 웹 사이트는 유해한 것으로 결정(S360)하고 접속을 차단한다.

그러나 그렇지 않은 경우에는 2단계 필터링 단계(S330)로 넘어간다. 즉 그 단어가 음란 사이트와 음란사이트는 아니지만 이와 유사한 사이트에 동시에 속하는 경우(제2집합, 도 2의 220영역)와 제3집합에 속하는 경우(도 2의 230영역)에 모두 해당하면 무해한 사이트로 결정한다(S370).

다음으로 음란사이트와 유사 사이트에 동시에 속하는지 즉 도 2의 220영역에만 속하는 단어인지를 판단(S340)하여 그에 해당하는 경우가 아니라면 무해한 사이트로 결정(S370)하고 해당하는 경우라면, 3단계 필터링 단계로 넘어간다.

마지막 단계로서의 3단계 필터링은 음란 사이트와 유사사이트에 동시에 속하는 단어인 경우에는 그 단어의 출현 빈도수에 따라 결정하게 된다(S350). 즉 사전에 설정한 임계치를 넘어서 출현하는지의 여부를 검토하여 초과하면 유해 사이트로 결정(S360)하고 임계치 미만이면 무해 사이트로 결정하게 된다(S370).

본 발명에 의한 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드 디스크, 플로피 디스크, 플래쉬 메모리, 광 데이타 저장장치등이 있으며, 또한 캐리어 웨이브(예를들면 인터넷을 통한 전송)의 형태로 구현되는 것도 포함된다. 또한 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다. 또한 본 발명에 의한 폰트 롬 데이터구조도 컴퓨터로 읽을 수 있는 ROM, RAM, CD-ROM, 자기 테이프, 하드 디스크, 플로피 디스크, 플래쉬 메모리, 광 데이타 저장장치등과 같은 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다.

상술한 상세한 설명 및 도면에 개시된 내용은 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자에게는 본 발명의 정신을 벗어나지 않는 범위 내에서 다양한 수정 및 변경이 가능함은 명백한 것이다.

이상 설명한 바와 같이, 본 발명에 의한 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법은 개인용 컴퓨터에 적용되어 개인용 컴퓨터에서 인터넷 웹 사이트를 접속할 때, 웹 사이트의 텍스트를 이용하여 음란성 유무를 정확하게 판단하여 유해 사이트를 차단할 수 있다.

즉, 음란 데이터 베이스를 구축하여 접속한 사이트에 등장하는 단어가 음란 데이터 베이스에 포함되는 경우에는 무조건 음란 사이트로 판단하는 기존의 방법과 비교하여 볼 때, 당해 웹 사이트를 과잉 차단하거나 오인 차단하는 경우를 방지하여 정확한 차단을 가능하게 한다.

결국, 본 발명을 적용했을 경우에는 종래 기술에서 발생한 과잉 차단의 문제점을 해결하여 음란성 정도를 정확하게 판단할 수 있도록 하여, 무해 사이트를 잘못 차단하는 경우를 방지할 수 있다.

Claims

(a) 음란사이트를 차단하기 위한 자료로 사용할 텍스트를 그 음란성 정도로 구분하여 적어도 하나 이상의 집합으로 구분한 후 데이터베이스화하는 단계;

(b) 접속중인 웹 사이트로부터 텍스트를 수집하는 단계; 및

(c) 상기 텍스트를 상기 집합내의 텍스트들과 비교하여 적어도 하나 이상의 다단계 필터링을 수행하여 상기 접속중인 웹 사이트의 차단여부를 결정하는 단계;를 포함하며,

상기 (a)단계는

(a1) 상기 음란 사이트로 판단할 텍스트들을 원소로 하는 제1집합을 설정하는 단계;

(a2) 상기 음란 사이트뿐만 아니라 소정의 성 관련 사이트에도 나타나는 텍스트들을 원소로 하는 제2집합을 설정하는 단계; 및

(a3) 상기 소정의 성 관련 사이트에만 나타나는 텍스트들을 원소로 하는 제3집합을 설정하는 단계;를 포함하는 것을 특징으로 하는 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법.
삭제
제1항에 있어서, 상기 (c)단계는

(c1) 상기 수집된 텍스트가 제1집합에 속하면 상기 웹 사이트를 유해하다고 판단하는 단계;

(c2) 상기 제1집합에 속하지 않는 경우에는 상기 제2집합과 제3집합에 동시에 속하는지를 판단하여, 동시에 속하면 상기 웹 사이트를 무해한 것으로 판단하고, 동시에 속하지 않으면 제2집합에만 속하는지를 판단하는 단계; 및

(c3) 상기 (c2)단계의 제2집합에 속하는지의 판단 결과 상기 제2집합에만 속하지 않으면 무해한 것으로 판단하고, 속하면 소정의 임계치와 비교하여 유해 여부를 판단하는 단계;를 포함하는 것을 특징으로 하는 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법.
제3항에 있어서, 상기 (c3)단계는

(c31) 상기 텍스트가 상기 제2집합에 속하는 빈도수를 계산하는 단계; 및

(c32) 상기 빈도수가 상기 임계치를 초과하면 유해하고, 미만이면 무해한 웹 사이트로 결정하는 단계;를 포함하는 것을 특징으로 하는 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법.
제1항에 있어서, 상기 소정의 성 관련 사이트는

성에 관련된 단어가 웹 사이트에 게시되는 사이트를 모두 포함하는 것을 특징으로 하는 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법.