KR100670789B1 - 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법 - Google Patents

유해 사이트 차단을 위한 다단계 텍스트 필터링 방법 Download PDF

Info

Publication number
KR100670789B1
KR100670789B1 KR1020040101089A KR20040101089A KR100670789B1 KR 100670789 B1 KR100670789 B1 KR 100670789B1 KR 1020040101089 A KR1020040101089 A KR 1020040101089A KR 20040101089 A KR20040101089 A KR 20040101089A KR 100670789 B1 KR100670789 B1 KR 100670789B1
Authority
KR
South Korea
Prior art keywords
text
site
sites
harmful
blocking
Prior art date
Application number
KR1020040101089A
Other languages
English (en)
Other versions
KR20060062300A (ko
Inventor
이승민
남택용
장종수
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020040101089A priority Critical patent/KR100670789B1/ko
Publication of KR20060062300A publication Critical patent/KR20060062300A/ko
Application granted granted Critical
Publication of KR100670789B1 publication Critical patent/KR100670789B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명에 의한 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법은 음란사이트를 차단하기 위한 자료로 사용할 텍스트를 그 음란성 정도로 구분하여 적어도 하나 이상의 집합으로 구분한 후 데이터베이스화하는 단계; 접속중인 웹 사이트로부터 텍스트를 수집하는 단계; 및 상기 텍스트를 상기 집합내의 텍스트들과 비교하여 적어도 하나 이상의 다단계 필터링을 수행하여 상기 접속중인 웹 사이트의 차단여부를 결정하는 단계;를 포함하는 것을 특징으로 하며, 개인용 컴퓨터에 적용되어 개인용 컴퓨터에서 인터넷 웹 사이트를 접속할 때, 웹 사이트의 텍스트를 이용하여 음란성 유무를 정확하게 판단하여 유해 사이트를 차단할 수 있다.

Description

유해 사이트 차단을 위한 다단계 텍스트 필터링 방법{Method for multi-level text filtering for blocking harmful web-sites}
도 1은 본 발명에 의한 다단계 필터링을 적용하는 예를 보여주는 도면이다.
도 2는 도 1의 영역별 대표어 데이터베이스 부분을 개념화하여 도시한 도면이다.
도 3은 본 발명에 의한 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법의 과정을 보여주는 흐름도이다.
본 발명은 인터넷상의 유해 사이트 접속 차단을 위한 방법에 관한 것으로서, 보다 자세하게는 개인용 컴퓨터에 적용되어 인터넷상에 존재하는 웹 사이트들 중에서 음란 사이트를 정확하게 판단하여 접속을 차단하기 위한 다단계 텍스트 필터링 방법에 관한 것이다.
종래에는 음란 사이트 차단을 텍스트를 기초로 수행하는 경우에, 음란 사이트에 포함되어 있는 음란 단어를 데이터베이스로 구축한 다음, 사용자가 웹 사이트를 접속할 때 해당 웹 사이트가 음란 데이터베이스에 포함되는 음란 단어를 포함하 면 음란 사이트로 판단하여 이를 차단하였다. 그러나 이와 같은 종래의 방법은 성상담이나 병원, 스포츠 신문 및 생물학 사이트 등과 같이 음란 사이트는 아니지만 그러한 텍스트를 포함하는 경우에 이를 차단하는 문제점이 발생하게 된다.
본 발명이 이루고자 하는 기술적 과제는 상기의 문제점을 해결하기 위하여 안출된 것으로서, 다단계의 텍스트 필터를 적용하여 보다 정확하게 음란사이트를 판단할 수 있도록 하는 방법을 제공하는데 있다.
상기와 같은 기술적 과제를 이루기 위하여, 본 발명에 의한 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법은 음란사이트를 차단하기 위한 자료로 사용할 텍스트를 그 음란성 정도로 구분하여 적어도 하나 이상의 집합으로 구분한 후 데이터베이스화하는 단계; 접속중인 웹 사이트로부터 텍스트를 수집하는 단계; 및 상기 텍스트를 상기 집합내의 텍스트들과 비교하여 적어도 하나 이상의 다단계 필터링을 수행하여 상기 접속중인 웹 사이트의 차단여부를 결정하는 단계;를 포함하는 것을 특징으로 한다.
이하 첨부된 도면을 참조하면서 본 발명의 바람직한 일 실시예를 상세히 설명하도록 한다.
도 1은 본 발명이 제안하고 있는 다단계 필터가 적용되는 예를 보인 것이다. 먼저 인터넷으로부터 들어오는 웹 문서(110)를 읽어들여 형태소분석기(120)에서 해당 문서의 명사(이하 본 발명의 상세한 설명 및 특허청구범위에서 "텍스트" 혹은 " 단어"와 동의어로 사용한다)를 추출한 다음, 다단계 필터(130)를 통과시키면, 유해문서(150)와 무해문서(160)로 분류된다. 다단계필터(130)가 입력되는 단어들에 대하여 필터링을 수행하기 위하여는 판단기준이 제고되어야 하는데, 이 때 각 영역 즉 유해사이트(이하 "음란사이트"는 유해사이트의 하나의 예로서 사용되며, 동의어로 이해되어도 무방하다)와 무해사이트 그리고 양자중 어느 것이라고 판단할 수 없는 영역의 사이트를 대표하는 단어들로 구성되는 데이터베이스(140)가 그 기준을 제시한다.
도 2는 도 1의 영역별 대표어 데이터베이스(140)을 개념적으로 도시한 것으로써, 무해 사이트와 음란 사이트에 대한 보다 정확한 판단을 위하여, 음란 사이트로 오판할 가능성이 있는 영역을 선정하여, 이 영역을 대표하는 단어를 포함하는 데이터베이스를 구축함을 표시한 것이다. 이를 위하여 음란 사이트로 판단할 텍스트들을 원소로 하는 제1집합, 음란 사이트뿐만 아니라 소정의 성 관련 사이트에도 나타나는 텍스트들을 원소로 하는 제2집합, 그리고 상기 소정의 성 관련 사이트에만 나타나는 텍스트들을 원소로 하는 제3집합으로 구분하여 상기 데이터베이스(140)를 구축한다.
이에 대한 구분의 한 예는 표 1과 같다. 만일, 웹 사이트에 포함된 단어로서 "성교", "클리닉" 등이 등장한 경우에는 표 1을 참조하면 제2집합과 제3집합에 속하는 영역이므로 도 2의 220,230에 속하는 영역이다. 이 경우 본 발명에 의한 알고리즘에 의하면 무해로 결정되는데, 이는 후술하도록 한다.
제1집합 제2집합 제3집합
데이터베이스 음란사이트로 판단할 수 있는 단어들 음란사이트뿐 아니라 성관련사이트에도 나타나는 단어들 클리닉, 상담등 성관련사이트에만 나타나는 단어들
도 3은 도 2와 같이 다양한 영역에 대하여 구축된 데이터베이스(140)를 이용하여 구체적으로 웹 사이트의 텍스트를 판단하여 유해/무해 여부를 판단하는 알고리즘을 보여주고 있다.
우선, 음란사이트를 차단하기 위한 자료로 사용할 텍스트를 그 음란성 정도로 구분하여 상기한 바와 같이 제1내지 제3집합으로 구분한 후 데이터베이스화한다. 이러한 상태에서 접속중인 웹 사이트로부터 텍스트를 수집(S310)하게 되며, 수집된 텍스트를 분석하여 그 웹 사이트의 유해여부를 판단하게 된다.
이를 위하여, 먼저 1단계 필터링으로서, 상기 텍스트가 유해 사이트로 판단되는 단어에 속하는지 즉 상기 제1집합에 속하는지가 먼저 결정된다(S320). 만약 유해 사이트로 판단할 수 있는 제1집합에 속하는 단어에 해당하면 그 웹 사이트는 유해한 것으로 결정(S360)하고 접속을 차단한다.
그러나 그렇지 않은 경우에는 2단계 필터링 단계(S330)로 넘어간다. 즉 그 단어가 음란 사이트와 음란사이트는 아니지만 이와 유사한 사이트에 동시에 속하는 경우(제2집합, 도 2의 220영역)와 제3집합에 속하는 경우(도 2의 230영역)에 모두 해당하면 무해한 사이트로 결정한다(S370).
다음으로 음란사이트와 유사 사이트에 동시에 속하는지 즉 도 2의 220영역에만 속하는 단어인지를 판단(S340)하여 그에 해당하는 경우가 아니라면 무해한 사이트로 결정(S370)하고 해당하는 경우라면, 3단계 필터링 단계로 넘어간다.
마지막 단계로서의 3단계 필터링은 음란 사이트와 유사사이트에 동시에 속하는 단어인 경우에는 그 단어의 출현 빈도수에 따라 결정하게 된다(S350). 즉 사전에 설정한 임계치를 넘어서 출현하는지의 여부를 검토하여 초과하면 유해 사이트로 결정(S360)하고 임계치 미만이면 무해 사이트로 결정하게 된다(S370).
본 발명에 의한 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드 디스크, 플로피 디스크, 플래쉬 메모리, 광 데이타 저장장치등이 있으며, 또한 캐리어 웨이브(예를들면 인터넷을 통한 전송)의 형태로 구현되는 것도 포함된다. 또한 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다. 또한 본 발명에 의한 폰트 롬 데이터구조도 컴퓨터로 읽을 수 있는 ROM, RAM, CD-ROM, 자기 테이프, 하드 디스크, 플로피 디스크, 플래쉬 메모리, 광 데이타 저장장치등과 같은 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다.
상술한 상세한 설명 및 도면에 개시된 내용은 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자에게는 본 발명의 정신을 벗어나지 않는 범위 내에서 다양한 수정 및 변경이 가능함은 명백한 것이다.
이상 설명한 바와 같이, 본 발명에 의한 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법은 개인용 컴퓨터에 적용되어 개인용 컴퓨터에서 인터넷 웹 사이트를 접속할 때, 웹 사이트의 텍스트를 이용하여 음란성 유무를 정확하게 판단하여 유해 사이트를 차단할 수 있다.
즉, 음란 데이터 베이스를 구축하여 접속한 사이트에 등장하는 단어가 음란 데이터 베이스에 포함되는 경우에는 무조건 음란 사이트로 판단하는 기존의 방법과 비교하여 볼 때, 당해 웹 사이트를 과잉 차단하거나 오인 차단하는 경우를 방지하여 정확한 차단을 가능하게 한다.
결국, 본 발명을 적용했을 경우에는 종래 기술에서 발생한 과잉 차단의 문제점을 해결하여 음란성 정도를 정확하게 판단할 수 있도록 하여, 무해 사이트를 잘못 차단하는 경우를 방지할 수 있다.

Claims (5)

  1. (a) 음란사이트를 차단하기 위한 자료로 사용할 텍스트를 그 음란성 정도로 구분하여 적어도 하나 이상의 집합으로 구분한 후 데이터베이스화하는 단계;
    (b) 접속중인 웹 사이트로부터 텍스트를 수집하는 단계; 및
    (c) 상기 텍스트를 상기 집합내의 텍스트들과 비교하여 적어도 하나 이상의 다단계 필터링을 수행하여 상기 접속중인 웹 사이트의 차단여부를 결정하는 단계;를 포함하며,
    상기 (a)단계는
    (a1) 상기 음란 사이트로 판단할 텍스트들을 원소로 하는 제1집합을 설정하는 단계;
    (a2) 상기 음란 사이트뿐만 아니라 소정의 성 관련 사이트에도 나타나는 텍스트들을 원소로 하는 제2집합을 설정하는 단계; 및
    (a3) 상기 소정의 성 관련 사이트에만 나타나는 텍스트들을 원소로 하는 제3집합을 설정하는 단계;를 포함하는 것을 특징으로 하는 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법.
  2. 삭제
  3. 제1항에 있어서, 상기 (c)단계는
    (c1) 상기 수집된 텍스트가 제1집합에 속하면 상기 웹 사이트를 유해하다고 판단하는 단계;
    (c2) 상기 제1집합에 속하지 않는 경우에는 상기 제2집합과 제3집합에 동시에 속하는지를 판단하여, 동시에 속하면 상기 웹 사이트를 무해한 것으로 판단하고, 동시에 속하지 않으면 제2집합에만 속하는지를 판단하는 단계; 및
    (c3) 상기 (c2)단계의 제2집합에 속하는지의 판단 결과 상기 제2집합에만 속하지 않으면 무해한 것으로 판단하고, 속하면 소정의 임계치와 비교하여 유해 여부를 판단하는 단계;를 포함하는 것을 특징으로 하는 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법.
  4. 제3항에 있어서, 상기 (c3)단계는
    (c31) 상기 텍스트가 상기 제2집합에 속하는 빈도수를 계산하는 단계; 및
    (c32) 상기 빈도수가 상기 임계치를 초과하면 유해하고, 미만이면 무해한 웹 사이트로 결정하는 단계;를 포함하는 것을 특징으로 하는 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법.
  5. 제1항에 있어서, 상기 소정의 성 관련 사이트는
    성에 관련된 단어가 웹 사이트에 게시되는 사이트를 모두 포함하는 것을 특징으로 하는 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법.
KR1020040101089A 2004-12-03 2004-12-03 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법 KR100670789B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020040101089A KR100670789B1 (ko) 2004-12-03 2004-12-03 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040101089A KR100670789B1 (ko) 2004-12-03 2004-12-03 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법

Publications (2)

Publication Number Publication Date
KR20060062300A KR20060062300A (ko) 2006-06-12
KR100670789B1 true KR100670789B1 (ko) 2007-01-17

Family

ID=37158484

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040101089A KR100670789B1 (ko) 2004-12-03 2004-12-03 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법

Country Status (1)

Country Link
KR (1) KR100670789B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100848319B1 (ko) * 2006-12-07 2008-07-24 한국전자통신연구원 웹 구조정보를 이용한 유해 사이트 차단 방법 및 장치
KR101042515B1 (ko) 2008-12-11 2011-06-17 주식회사 네오패드 사용자의 의도에 기반한 정보 검색방법 및 정보 제공방법
KR101692244B1 (ko) * 2014-12-04 2017-01-03 숭실대학교산학협력단 스팸 분류 방법, 이를 수행하기 위한 기록 매체 및 스팸 분류 장치
KR102421572B1 (ko) * 2022-04-29 2022-07-15 주식회사 프랭클린테크놀로지 유해 사이트에 대한 접속 알림 서비스를 제공할 수 있는 알림 서비스 서버 및 그 동작 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990018591U (ko) * 1997-11-12 1999-06-05 전주범 인터넷 유해 사이트 접속 제한 장치
KR20010025209A (ko) * 2000-10-20 2001-04-06 고진선 통신 네트워크를 이용한 유해 정보 차단 서비스 사업 방법및 이를 구현할 수 있는 프로그램이 수록된 컴퓨터로 읽을수 있는 기록매체
JP2002014991A (ja) 2000-06-28 2002-01-18 Hitachi Ltd ネットワーク上の情報フィルタリング装置
JP2002222193A (ja) 2001-01-24 2002-08-09 Kddi Corp 情報自動フィルタリング方法、情報自動フィルタリングシステム及び情報自動フィルタリングプログラム
KR20020081774A (ko) * 2001-04-19 2002-10-30 주식회사 플랜티넷 유해사이트 데이터베이스 현행화 방법 및 장치
KR20060038486A (ko) * 2003-04-04 2006-05-04 엔에이치엔(주) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990018591U (ko) * 1997-11-12 1999-06-05 전주범 인터넷 유해 사이트 접속 제한 장치
JP2002014991A (ja) 2000-06-28 2002-01-18 Hitachi Ltd ネットワーク上の情報フィルタリング装置
KR20010025209A (ko) * 2000-10-20 2001-04-06 고진선 통신 네트워크를 이용한 유해 정보 차단 서비스 사업 방법및 이를 구현할 수 있는 프로그램이 수록된 컴퓨터로 읽을수 있는 기록매체
JP2002222193A (ja) 2001-01-24 2002-08-09 Kddi Corp 情報自動フィルタリング方法、情報自動フィルタリングシステム及び情報自動フィルタリングプログラム
KR20020081774A (ko) * 2001-04-19 2002-10-30 주식회사 플랜티넷 유해사이트 데이터베이스 현행화 방법 및 장치
KR20060038486A (ko) * 2003-04-04 2006-05-04 엔에이치엔(주) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템

Also Published As

Publication number Publication date
KR20060062300A (ko) 2006-06-12

Similar Documents

Publication Publication Date Title
Mihalcea Language independent extractive summarization
Sun et al. Dom based content extraction via text density
Sanchez Sentence boundary detection in legal text
US7461056B2 (en) Text mining apparatus and associated methods
US20130060808A1 (en) Document processing method and system
US20060184500A1 (en) Using content analysis to detect spam web pages
US9965508B1 (en) Method and system for identifying entities
EP2657853A1 (en) Webpage information detection method and system
JP2000235540A (ja) Url階層構造を利用した情報自動フィルタリング方法および装置
WO2015109326A1 (en) Sol query constraint solving
CN108108346B (zh) 文档的主题特征词抽取方法及装置
US8862586B2 (en) Document analysis system
US10002254B2 (en) Systems and methods for SQL type evaluation to detect evaluation flaws
KR100670789B1 (ko) 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법
CN108875050B (zh) 面向文本的数字取证分析方法、装置和计算机可读介质
US7617182B2 (en) Document clustering based on entity association rules
US10025936B2 (en) Systems and methods for SQL value evaluation to detect evaluation flaws
CN112183093A (zh) 一种企业舆情分析方法、装置、设备及可读存储介质
CN116561298A (zh) 基于人工智能的标题生成方法、装置、设备及存储介质
JP5214985B2 (ja) テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
WO2017049254A1 (en) Systems and methods for sql type and/or value evaluation to detect evaluation flaws
KR101614551B1 (ko) 카테고리 매칭을 이용한 키워드 추출 시스템 및 방법
Tsai et al. Multilingual novelty detection
Gunawan et al. Building the Pornography Corpus for Bahasa Indonesia Based on TRUST+™ Positif Database
CN107657005B (zh) 一种主题网页的检索方法及装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee