KR100670789B1 - 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법 - Google Patents
유해 사이트 차단을 위한 다단계 텍스트 필터링 방법 Download PDFInfo
- Publication number
- KR100670789B1 KR100670789B1 KR1020040101089A KR20040101089A KR100670789B1 KR 100670789 B1 KR100670789 B1 KR 100670789B1 KR 1020040101089 A KR1020040101089 A KR 1020040101089A KR 20040101089 A KR20040101089 A KR 20040101089A KR 100670789 B1 KR100670789 B1 KR 100670789B1
- Authority
- KR
- South Korea
- Prior art keywords
- text
- site
- sites
- harmful
- blocking
- Prior art date
Links
- 230000000903 blocking effect Effects 0.000 title claims abstract description 18
- 238000001914 filtration Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000007796 conventional method Methods 0.000 description 2
- 238000009223 counseling Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001568 sexual effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명에 의한 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법은 음란사이트를 차단하기 위한 자료로 사용할 텍스트를 그 음란성 정도로 구분하여 적어도 하나 이상의 집합으로 구분한 후 데이터베이스화하는 단계; 접속중인 웹 사이트로부터 텍스트를 수집하는 단계; 및 상기 텍스트를 상기 집합내의 텍스트들과 비교하여 적어도 하나 이상의 다단계 필터링을 수행하여 상기 접속중인 웹 사이트의 차단여부를 결정하는 단계;를 포함하는 것을 특징으로 하며, 개인용 컴퓨터에 적용되어 개인용 컴퓨터에서 인터넷 웹 사이트를 접속할 때, 웹 사이트의 텍스트를 이용하여 음란성 유무를 정확하게 판단하여 유해 사이트를 차단할 수 있다.
Description
도 1은 본 발명에 의한 다단계 필터링을 적용하는 예를 보여주는 도면이다.
도 2는 도 1의 영역별 대표어 데이터베이스 부분을 개념화하여 도시한 도면이다.
도 3은 본 발명에 의한 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법의 과정을 보여주는 흐름도이다.
본 발명은 인터넷상의 유해 사이트 접속 차단을 위한 방법에 관한 것으로서, 보다 자세하게는 개인용 컴퓨터에 적용되어 인터넷상에 존재하는 웹 사이트들 중에서 음란 사이트를 정확하게 판단하여 접속을 차단하기 위한 다단계 텍스트 필터링 방법에 관한 것이다.
종래에는 음란 사이트 차단을 텍스트를 기초로 수행하는 경우에, 음란 사이트에 포함되어 있는 음란 단어를 데이터베이스로 구축한 다음, 사용자가 웹 사이트를 접속할 때 해당 웹 사이트가 음란 데이터베이스에 포함되는 음란 단어를 포함하 면 음란 사이트로 판단하여 이를 차단하였다. 그러나 이와 같은 종래의 방법은 성상담이나 병원, 스포츠 신문 및 생물학 사이트 등과 같이 음란 사이트는 아니지만 그러한 텍스트를 포함하는 경우에 이를 차단하는 문제점이 발생하게 된다.
본 발명이 이루고자 하는 기술적 과제는 상기의 문제점을 해결하기 위하여 안출된 것으로서, 다단계의 텍스트 필터를 적용하여 보다 정확하게 음란사이트를 판단할 수 있도록 하는 방법을 제공하는데 있다.
상기와 같은 기술적 과제를 이루기 위하여, 본 발명에 의한 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법은 음란사이트를 차단하기 위한 자료로 사용할 텍스트를 그 음란성 정도로 구분하여 적어도 하나 이상의 집합으로 구분한 후 데이터베이스화하는 단계; 접속중인 웹 사이트로부터 텍스트를 수집하는 단계; 및 상기 텍스트를 상기 집합내의 텍스트들과 비교하여 적어도 하나 이상의 다단계 필터링을 수행하여 상기 접속중인 웹 사이트의 차단여부를 결정하는 단계;를 포함하는 것을 특징으로 한다.
이하 첨부된 도면을 참조하면서 본 발명의 바람직한 일 실시예를 상세히 설명하도록 한다.
도 1은 본 발명이 제안하고 있는 다단계 필터가 적용되는 예를 보인 것이다. 먼저 인터넷으로부터 들어오는 웹 문서(110)를 읽어들여 형태소분석기(120)에서 해당 문서의 명사(이하 본 발명의 상세한 설명 및 특허청구범위에서 "텍스트" 혹은 " 단어"와 동의어로 사용한다)를 추출한 다음, 다단계 필터(130)를 통과시키면, 유해문서(150)와 무해문서(160)로 분류된다. 다단계필터(130)가 입력되는 단어들에 대하여 필터링을 수행하기 위하여는 판단기준이 제고되어야 하는데, 이 때 각 영역 즉 유해사이트(이하 "음란사이트"는 유해사이트의 하나의 예로서 사용되며, 동의어로 이해되어도 무방하다)와 무해사이트 그리고 양자중 어느 것이라고 판단할 수 없는 영역의 사이트를 대표하는 단어들로 구성되는 데이터베이스(140)가 그 기준을 제시한다.
도 2는 도 1의 영역별 대표어 데이터베이스(140)을 개념적으로 도시한 것으로써, 무해 사이트와 음란 사이트에 대한 보다 정확한 판단을 위하여, 음란 사이트로 오판할 가능성이 있는 영역을 선정하여, 이 영역을 대표하는 단어를 포함하는 데이터베이스를 구축함을 표시한 것이다. 이를 위하여 음란 사이트로 판단할 텍스트들을 원소로 하는 제1집합, 음란 사이트뿐만 아니라 소정의 성 관련 사이트에도 나타나는 텍스트들을 원소로 하는 제2집합, 그리고 상기 소정의 성 관련 사이트에만 나타나는 텍스트들을 원소로 하는 제3집합으로 구분하여 상기 데이터베이스(140)를 구축한다.
이에 대한 구분의 한 예는 표 1과 같다. 만일, 웹 사이트에 포함된 단어로서 "성교", "클리닉" 등이 등장한 경우에는 표 1을 참조하면 제2집합과 제3집합에 속하는 영역이므로 도 2의 220,230에 속하는 영역이다. 이 경우 본 발명에 의한 알고리즘에 의하면 무해로 결정되는데, 이는 후술하도록 한다.
제1집합 | 제2집합 | 제3집합 | |
데이터베이스 | 음란사이트로 판단할 수 있는 단어들 | 음란사이트뿐 아니라 성관련사이트에도 나타나는 단어들 | 클리닉, 상담등 성관련사이트에만 나타나는 단어들 |
도 3은 도 2와 같이 다양한 영역에 대하여 구축된 데이터베이스(140)를 이용하여 구체적으로 웹 사이트의 텍스트를 판단하여 유해/무해 여부를 판단하는 알고리즘을 보여주고 있다.
우선, 음란사이트를 차단하기 위한 자료로 사용할 텍스트를 그 음란성 정도로 구분하여 상기한 바와 같이 제1내지 제3집합으로 구분한 후 데이터베이스화한다. 이러한 상태에서 접속중인 웹 사이트로부터 텍스트를 수집(S310)하게 되며, 수집된 텍스트를 분석하여 그 웹 사이트의 유해여부를 판단하게 된다.
이를 위하여, 먼저 1단계 필터링으로서, 상기 텍스트가 유해 사이트로 판단되는 단어에 속하는지 즉 상기 제1집합에 속하는지가 먼저 결정된다(S320). 만약 유해 사이트로 판단할 수 있는 제1집합에 속하는 단어에 해당하면 그 웹 사이트는 유해한 것으로 결정(S360)하고 접속을 차단한다.
그러나 그렇지 않은 경우에는 2단계 필터링 단계(S330)로 넘어간다. 즉 그 단어가 음란 사이트와 음란사이트는 아니지만 이와 유사한 사이트에 동시에 속하는 경우(제2집합, 도 2의 220영역)와 제3집합에 속하는 경우(도 2의 230영역)에 모두 해당하면 무해한 사이트로 결정한다(S370).
다음으로 음란사이트와 유사 사이트에 동시에 속하는지 즉 도 2의 220영역에만 속하는 단어인지를 판단(S340)하여 그에 해당하는 경우가 아니라면 무해한 사이트로 결정(S370)하고 해당하는 경우라면, 3단계 필터링 단계로 넘어간다.
마지막 단계로서의 3단계 필터링은 음란 사이트와 유사사이트에 동시에 속하는 단어인 경우에는 그 단어의 출현 빈도수에 따라 결정하게 된다(S350). 즉 사전에 설정한 임계치를 넘어서 출현하는지의 여부를 검토하여 초과하면 유해 사이트로 결정(S360)하고 임계치 미만이면 무해 사이트로 결정하게 된다(S370).
본 발명에 의한 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드 디스크, 플로피 디스크, 플래쉬 메모리, 광 데이타 저장장치등이 있으며, 또한 캐리어 웨이브(예를들면 인터넷을 통한 전송)의 형태로 구현되는 것도 포함된다. 또한 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다. 또한 본 발명에 의한 폰트 롬 데이터구조도 컴퓨터로 읽을 수 있는 ROM, RAM, CD-ROM, 자기 테이프, 하드 디스크, 플로피 디스크, 플래쉬 메모리, 광 데이타 저장장치등과 같은 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다.
상술한 상세한 설명 및 도면에 개시된 내용은 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자에게는 본 발명의 정신을 벗어나지 않는 범위 내에서 다양한 수정 및 변경이 가능함은 명백한 것이다.
이상 설명한 바와 같이, 본 발명에 의한 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법은 개인용 컴퓨터에 적용되어 개인용 컴퓨터에서 인터넷 웹 사이트를 접속할 때, 웹 사이트의 텍스트를 이용하여 음란성 유무를 정확하게 판단하여 유해 사이트를 차단할 수 있다.
즉, 음란 데이터 베이스를 구축하여 접속한 사이트에 등장하는 단어가 음란 데이터 베이스에 포함되는 경우에는 무조건 음란 사이트로 판단하는 기존의 방법과 비교하여 볼 때, 당해 웹 사이트를 과잉 차단하거나 오인 차단하는 경우를 방지하여 정확한 차단을 가능하게 한다.
결국, 본 발명을 적용했을 경우에는 종래 기술에서 발생한 과잉 차단의 문제점을 해결하여 음란성 정도를 정확하게 판단할 수 있도록 하여, 무해 사이트를 잘못 차단하는 경우를 방지할 수 있다.
Claims (5)
- (a) 음란사이트를 차단하기 위한 자료로 사용할 텍스트를 그 음란성 정도로 구분하여 적어도 하나 이상의 집합으로 구분한 후 데이터베이스화하는 단계;(b) 접속중인 웹 사이트로부터 텍스트를 수집하는 단계; 및(c) 상기 텍스트를 상기 집합내의 텍스트들과 비교하여 적어도 하나 이상의 다단계 필터링을 수행하여 상기 접속중인 웹 사이트의 차단여부를 결정하는 단계;를 포함하며,상기 (a)단계는(a1) 상기 음란 사이트로 판단할 텍스트들을 원소로 하는 제1집합을 설정하는 단계;(a2) 상기 음란 사이트뿐만 아니라 소정의 성 관련 사이트에도 나타나는 텍스트들을 원소로 하는 제2집합을 설정하는 단계; 및(a3) 상기 소정의 성 관련 사이트에만 나타나는 텍스트들을 원소로 하는 제3집합을 설정하는 단계;를 포함하는 것을 특징으로 하는 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법.
- 삭제
- 제1항에 있어서, 상기 (c)단계는(c1) 상기 수집된 텍스트가 제1집합에 속하면 상기 웹 사이트를 유해하다고 판단하는 단계;(c2) 상기 제1집합에 속하지 않는 경우에는 상기 제2집합과 제3집합에 동시에 속하는지를 판단하여, 동시에 속하면 상기 웹 사이트를 무해한 것으로 판단하고, 동시에 속하지 않으면 제2집합에만 속하는지를 판단하는 단계; 및(c3) 상기 (c2)단계의 제2집합에 속하는지의 판단 결과 상기 제2집합에만 속하지 않으면 무해한 것으로 판단하고, 속하면 소정의 임계치와 비교하여 유해 여부를 판단하는 단계;를 포함하는 것을 특징으로 하는 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법.
- 제3항에 있어서, 상기 (c3)단계는(c31) 상기 텍스트가 상기 제2집합에 속하는 빈도수를 계산하는 단계; 및(c32) 상기 빈도수가 상기 임계치를 초과하면 유해하고, 미만이면 무해한 웹 사이트로 결정하는 단계;를 포함하는 것을 특징으로 하는 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법.
- 제1항에 있어서, 상기 소정의 성 관련 사이트는성에 관련된 단어가 웹 사이트에 게시되는 사이트를 모두 포함하는 것을 특징으로 하는 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040101089A KR100670789B1 (ko) | 2004-12-03 | 2004-12-03 | 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040101089A KR100670789B1 (ko) | 2004-12-03 | 2004-12-03 | 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20060062300A KR20060062300A (ko) | 2006-06-12 |
KR100670789B1 true KR100670789B1 (ko) | 2007-01-17 |
Family
ID=37158484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020040101089A KR100670789B1 (ko) | 2004-12-03 | 2004-12-03 | 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100670789B1 (ko) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100848319B1 (ko) * | 2006-12-07 | 2008-07-24 | 한국전자통신연구원 | 웹 구조정보를 이용한 유해 사이트 차단 방법 및 장치 |
KR101042515B1 (ko) | 2008-12-11 | 2011-06-17 | 주식회사 네오패드 | 사용자의 의도에 기반한 정보 검색방법 및 정보 제공방법 |
KR101692244B1 (ko) * | 2014-12-04 | 2017-01-03 | 숭실대학교산학협력단 | 스팸 분류 방법, 이를 수행하기 위한 기록 매체 및 스팸 분류 장치 |
KR102421572B1 (ko) * | 2022-04-29 | 2022-07-15 | 주식회사 프랭클린테크놀로지 | 유해 사이트에 대한 접속 알림 서비스를 제공할 수 있는 알림 서비스 서버 및 그 동작 방법 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19990018591U (ko) * | 1997-11-12 | 1999-06-05 | 전주범 | 인터넷 유해 사이트 접속 제한 장치 |
KR20010025209A (ko) * | 2000-10-20 | 2001-04-06 | 고진선 | 통신 네트워크를 이용한 유해 정보 차단 서비스 사업 방법및 이를 구현할 수 있는 프로그램이 수록된 컴퓨터로 읽을수 있는 기록매체 |
JP2002014991A (ja) | 2000-06-28 | 2002-01-18 | Hitachi Ltd | ネットワーク上の情報フィルタリング装置 |
JP2002222193A (ja) | 2001-01-24 | 2002-08-09 | Kddi Corp | 情報自動フィルタリング方法、情報自動フィルタリングシステム及び情報自動フィルタリングプログラム |
KR20020081774A (ko) * | 2001-04-19 | 2002-10-30 | 주식회사 플랜티넷 | 유해사이트 데이터베이스 현행화 방법 및 장치 |
KR20060038486A (ko) * | 2003-04-04 | 2006-05-04 | 엔에이치엔(주) | 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템 |
-
2004
- 2004-12-03 KR KR1020040101089A patent/KR100670789B1/ko not_active IP Right Cessation
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19990018591U (ko) * | 1997-11-12 | 1999-06-05 | 전주범 | 인터넷 유해 사이트 접속 제한 장치 |
JP2002014991A (ja) | 2000-06-28 | 2002-01-18 | Hitachi Ltd | ネットワーク上の情報フィルタリング装置 |
KR20010025209A (ko) * | 2000-10-20 | 2001-04-06 | 고진선 | 통신 네트워크를 이용한 유해 정보 차단 서비스 사업 방법및 이를 구현할 수 있는 프로그램이 수록된 컴퓨터로 읽을수 있는 기록매체 |
JP2002222193A (ja) | 2001-01-24 | 2002-08-09 | Kddi Corp | 情報自動フィルタリング方法、情報自動フィルタリングシステム及び情報自動フィルタリングプログラム |
KR20020081774A (ko) * | 2001-04-19 | 2002-10-30 | 주식회사 플랜티넷 | 유해사이트 데이터베이스 현행화 방법 및 장치 |
KR20060038486A (ko) * | 2003-04-04 | 2006-05-04 | 엔에이치엔(주) | 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템 |
Also Published As
Publication number | Publication date |
---|---|
KR20060062300A (ko) | 2006-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mihalcea | Language independent extractive summarization | |
Sun et al. | Dom based content extraction via text density | |
Sanchez | Sentence boundary detection in legal text | |
US7461056B2 (en) | Text mining apparatus and associated methods | |
US20130060808A1 (en) | Document processing method and system | |
US20060184500A1 (en) | Using content analysis to detect spam web pages | |
US9965508B1 (en) | Method and system for identifying entities | |
EP2657853A1 (en) | Webpage information detection method and system | |
JP2000235540A (ja) | Url階層構造を利用した情報自動フィルタリング方法および装置 | |
WO2015109326A1 (en) | Sol query constraint solving | |
CN108108346B (zh) | 文档的主题特征词抽取方法及装置 | |
US8862586B2 (en) | Document analysis system | |
US10002254B2 (en) | Systems and methods for SQL type evaluation to detect evaluation flaws | |
KR100670789B1 (ko) | 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법 | |
CN108875050B (zh) | 面向文本的数字取证分析方法、装置和计算机可读介质 | |
US7617182B2 (en) | Document clustering based on entity association rules | |
US10025936B2 (en) | Systems and methods for SQL value evaluation to detect evaluation flaws | |
CN112183093A (zh) | 一种企业舆情分析方法、装置、设备及可读存储介质 | |
CN116561298A (zh) | 基于人工智能的标题生成方法、装置、设备及存储介质 | |
JP5214985B2 (ja) | テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 | |
WO2017049254A1 (en) | Systems and methods for sql type and/or value evaluation to detect evaluation flaws | |
KR101614551B1 (ko) | 카테고리 매칭을 이용한 키워드 추출 시스템 및 방법 | |
Tsai et al. | Multilingual novelty detection | |
Gunawan et al. | Building the Pornography Corpus for Bahasa Indonesia Based on TRUST+™ Positif Database | |
CN107657005B (zh) | 一种主题网页的检索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |