KR100459379B1 - 유사 전자문서 판단을 위한 기초데이터 생성방법 및 그시스템 - Google Patents

유사 전자문서 판단을 위한 기초데이터 생성방법 및 그시스템 Download PDF

Info

Publication number
KR100459379B1
KR100459379B1 KR20020044880A KR20020044880A KR100459379B1 KR 100459379 B1 KR100459379 B1 KR 100459379B1 KR 20020044880 A KR20020044880 A KR 20020044880A KR 20020044880 A KR20020044880 A KR 20020044880A KR 100459379 B1 KR100459379 B1 KR 100459379B1
Authority
KR
South Korea
Prior art keywords
electronic document
token
basic data
predetermined
frequency
Prior art date
Application number
KR20020044880A
Other languages
English (en)
Other versions
KR20040011769A (ko
Inventor
김형근
Original Assignee
주식회사 모비젠
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 모비젠 filed Critical 주식회사 모비젠
Priority to KR20020044880A priority Critical patent/KR100459379B1/ko
Publication of KR20040011769A publication Critical patent/KR20040011769A/ko
Application granted granted Critical
Publication of KR100459379B1 publication Critical patent/KR100459379B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/60Business processes related to postal services

Landscapes

  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

본 발명은 수신된 전자문서 중 유사한 전자문서가 있는지 판단하기 위하여 비교의 대상으로 사용되는 기초데이터를 생성하는 방법 및 장치에 관한 것으로, 구체적으로 (a) 전자문서를 수신하는 단계; (b) 상기 전자문서의 내용을 소정의 단위로 나누어 토큰을 추출하는 단계; (c) 상기 전자문서 내에서 상기 추출된 각 토큰의 빈도를 계산하는 단계; 및 (d) 상기 전자문서에서 빈도수가 낮은 것으로 계산된 토큰을 제거한 후 소정의 함수를 이용하여 소정의 지정된 크기로 축소하여 상기 기초 데이터를 생성하는 단계;를 포함하는 것을 특징으로 하는 유사 전자문서 판단을 위한 기초데이터 생성방법 및 그 시스템에 관한 것이다.
본 발명에 따르면, 동일한 내용의 전자문서의 중간 중간에 다른 글자나 단어가 있어서 일반적인 컴퓨터 시스템에서 동일한 전자문서로 인식을 못하는 경우에도 동일한 전자문서로 인식을 할 수 있어 거의 동일한 문서를 찾아내는 것이 가능하다. 특히 "소금이 뿌려진" 스팸 메일을 가려낼 수 있어 좀 더 정확하고 효과적인 스팸메일 방지 시스템을 만들 수가 있다.

Description

유사 전자문서 판단을 위한 기초데이터 생성방법 및 그 시스템{Method for producing basic data for determining whether or not each electronic document is similar and System therefor}
본 발명은 수신된 전자문서 중 유사한 전자문서가 있는지 판단하기 위하여 비교의 대상으로 사용되는 기초데이터를 생성하는 방법 및 장치에 관한 것으로, 특히 스팸메일을 추출하기 위한 기초데이터를 생성하는 방법 및 시스템에 관한 것이다.
최근 인터넷의 이용이 활발해지면서 많은 인터넷 이용자들은 무분별한 스팸 메일로 인해 불편을 겪고 있다. 스팸메일은 대량으로 동일한 메일을 다수의 수신자에게 발송하는 것을 특징으로 한다.
웹서버의 관리자들은 이러한 스팸메일로부터 자신의 서버에 계정을 가지고 있는 사용자들을 보호하기 위해서 여러 가지 프로그램을 이용하여 스팸메일을 추출하고 있다.
대표적인 예로, 메일수신서버에 수신된 메일들 중에서 동일한 IP 주소로부터 발송된 메일이 여러 통 있는 경우 이를 스팸 메일로 간주하고 이러한 메일이 사용자에게 전달되는 것을 방지하는 시스템이 있다.
그러나, 이러한 시스템의 경우 스팸 메일 달성자가 여러 개의 서로 다른 컴퓨터를 통해서 메일을 보냄으로써 무력화되는 단점이 있다.
이러한 문제를 해결하기 위해서 제목 또는 내용이 같은 메일이 여러 통 있는지를 확인하여 동일한 제목 또는 내용이 소정 개수 이상인 메일을 스팸 메일로 간주하여 이러한 메일이 사용자에게 전달되지 않도록 막는 시스템도 개발되었다.
그러나, 최근에는 스팸 메일 발송자가 메일을 발송하면서 본문 또는 제목에 들어가는 내용에 모든 메일마다 조금씩 다른 글자 또는 다른 단어가 들어가게 함으로써, 사실상 대량으로 발생되는 메일임에도 불구하고 실제적으로 내용이 조금씩 다 다르게 해서 결과적으로 모든 메일이 전부 다른 메일로 보이도록 함으로써 상기한 시스템을 무력화시키고 있다.
이와 같이 스팸 발송자가 제목이나 본문 중의 군데군데 다른 글자 또는 단어를 삽입하는 등의 여러 가지 조치를 취해서 스팸이 아닌 것으로 오인하도록 만드는 것을 소위 "소금을 뿌린다"라고 하는데, 이렇게 스팸 메일 발송자가 소금을 뿌려서 메일을 발송하는 경우 실제로 사람이 읽을 때에는 거의 같은 메일의 내용으로 인식하지만 컴퓨터는 서로 내용이 다른 메일로 인식을 하게 되므로 스팸 메일을 가려낼 수 없게 된다.
이렇게 유사한 내용의 전자문서로 인해 인터넷 이용자들이 불편을 겪는 경우는 비단 스팸메일의 경우뿐만 아니라 웹사이트의 검색시에도 발생한다.
최근에는 웹사이트들이 우후죽순처럼 발생하였고, 몇몇 웹사이트는 실제로 그 웹사이트 안에 담고 있는 내용도 거의 동일한 경우도 많이 있다. 그러나, 인터넷 이용자가 키워드를 이용하여 검색을 실행하게 되면, 거의 동일한 내용을 담고 있는 웹사이트가 모두 검출되고, 검색자는 일일이 검출된 사이트를 클릭하여 동일한 내용을 읽어봐야 하는 불편이 있다.
그러나, 이러한 불편함에 대해서는 아직까지 해결하고자 하는 시도도 없었으며, 해결하고자 하더라도 현재의 기술로는 컴퓨터는 어느 한 단어만 다르더라도 서로 다른 내용으로 인식하므로 서로 유사한 문서를 찾아내기가 어려웠다.
상기한 문제를 해결하기 위해서 본 발명에서는 서로 내용이 조금씩 다른 경우에도 컴퓨터를 통하여 유사 전자문서를 검출할 수 있는 기초데이터를 생성하는 방법을 제공하는 것을 목적으로 한다.
또한, 상기한 문제를 해결하기 위해서 본 발명에서는 서로 내용이 조금씩 다른 경우에도 컴퓨터를 통하여 유사 전자문서를 검출할 수 있는 기초데이터를 생성하는 시스템을 제공하는 것을 목적으로 한다.
또한, 상기한 문제를 해결하기 위해서 본 발명에서는 상기한 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 것을 목적으로 한다.
도 1은 본 발명의 구성을 도시한 블럭선도
도 2는 본 발명의 방법을 도시한 흐름도
상기한 목적을 달성하기 위해서 본 발명은 수신된 전자문서 중 유사한 전자문서가 있는지 판단하기 위한 기초데이터를 생성하는 방법에 있어서, (a) 전자문서를 수신하는 단계; (b) 상기 전자문서의 내용을 소정의 단위로 나누어 토큰을 추출하는 단계; (c) 상기 전자문서 내에서 상기 추출된 각 토큰의 빈도를 계산하는 단계; 및 (d) 상기 전자문서에서 빈도수가 낮은 것으로 계산된 토큰을 제거한 후 소정의 함수를 이용하여 소정의 지정된 크기로 축소하여 상기 기초 데이터를 생성하는 단계;를 포함하는 것을 특징으로 하는 유사 전자문서 판단을 위한 기초데이터 생성방법을 제공한다.
상기 기초데이터 생성방법은 (e) 상기 (a) 단계에서 수신한 문서가 소정의 지정된 양식이 아닌 경우 소정의 지정된 양식으로 변경하는 단계;를 더 포함하는 것이 바람직하다.
상기 (d) 단계에서 소정의 함수는 해쉬함수(hashing function)인 MD5(Message Digest 5) 또는 CRC(Cyclic Redundancy Check) 함수인 것이 바람직하다.
상기 (b) 단계는 전자문서 내의 문자열 중 공백 사이에 위치한 문자열을 하나의 토큰으로 추출하는 것이 바람직하며, 상기 (d) 단계는 소정 횟수 이하의 빈도수를 가지는 토큰을 제거하는 단계, 빈도수가 많은 것부터 소정 비율에 드는 토큰만을 남기고 나머지 토큰을 제거하는 단계 또는 빈도수가 적은 것부터 소정 비율까지의 토큰을 제거하는 단계를 포함하는 것이 바람직하다.
상기 기초데이터 생성방법은 메일 수신 시스템에서 유사한 이메일(e-mail)이 수신되었는지 판단하기 위해 사용되어지거나, 웹사이트 검색 시스템에서 유사한 웹사이트가 검색되었는지 판단하기 위해 사용되어질 수 있다.
또한, 상기한 목적을 달성하기 위해서 본 발명은 수신된 전자문서 중 유사한 전자문서가 있는지 판단하기 위한 기초데이터를 생성하는 시스템에 있어서, 전자문서를 수신하는 수신수단; 상기 수신수단에서 수신된 전자문서의 내용을 소정의 단위로 나누어 토큰을 추출하는 토큰추출수단; 상기 전자문서 내에서 상기 토큰추출수단에서 추출된 각 토큰의 빈도를 계산하는 토큰빈도계산수단; 및 상기 전자문서에서 빈도수가 낮은 것으로 계산된 토큰을 제거한 후 소정의 함수를 이용하여 소정의 지정된 크기로 축소하여 상기 기초데이터를 생성하는 기초데이터 생성수단;을 포함하는 것을 특징으로 하는 유사 전자문서 판단을 위한 기초데이터 생성시스템을 제공한다.
상기 토큰추출수단은 상기 수신된 전자문서 내의 문자열 중 공백 사이에 위치한 문자열을 하나의 토큰으로 추출하하는 것이 바람직하다.
상기 수신수단은 수신된 전자문서가 소정의 지정된 양식이 아닌 경우 소정의 지정된 양식으로 변경하는 것이 바람직하다.
상기 기초데이터 생성수단에서 기초데이터를 생성하기 위해 사용되는 함수는 해쉬함수(hashing function)인 것이 바람직하다.
또한, 상기한 목적을 달성하기 위해서 본 발명은 상기한 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
이하 본 발명의 바람직한 실시예를 도면을 참조하여 상세히 설명한다.
본 발명에서 전자 문서라 함은 문서 처리기 등으로 작성한 문서를 의미하며, 이에는 아웃룩익스프레스(Outlook Express: 상표명)와 같은 메일프로그램으로 작성된 이메일, HTML(HyperText Markup Language)과 같은 언어로 작성된 웹페이지 및 워드 프로세서로 작성된 워드문서 등이 있으며 전자적으로 작성된 문서라면 모두 포함한다. 편의상 이하에서는 전자문서가 이메일인 경우를 예로 들어 본 발명의 바람직한 실시예를 설명한다.
도 1은 본 발명의 구성을 나타낸 블록선도이다. 본 발명은 수신수단(110), 토큰추출수단(120), 토큰빈도계산수단(130) 및 기초데이터생성수단(140)을 포함하여 구성되며, 상기 구성요소들은 이메일 수신서버에 구비되어 있다.
수신수단(110)은 이메일을 수신하여 기초데이터를 생성하기 위한 입력을 준비하는 부분으로 수신한 이메일을 디코딩하여 출력하게 된다. 이메일은 다양한 방식으로 인코딩되어 전송되며 텍스트 등의 형식으로 디코딩되기 전에는 본문 내의 공백 등을 구별하는 것이 용이하지 않으므로 토큰 추출의 용이성을 위해서 평이한 텍스트 형식으로 이메일을 디코딩하는 것이 바람직하다.
입력되는 전자문서가 이메일이 아닌 텍스트 형식으로 저장된 문서 등인 경우에는 별도의 디코딩 단계가 필요없음은 물론이다.
토큰추출수단(120)은 디코딩된 이메일을 해석하여 토큰 단위 또는 단어 단위로 추출한다. 토큰 추출시 첨부된 파일이 있는 경우에는 첨부된 파일은 무시하고 토큰을 추출하는 것이 바람직하다.
일반적으로 토큰이란 일련의 문자열에서 구분할 수 있는 단위로, 컴파일러나 어셈블러 등의 처리기에서 사용되는 어휘 분석 단위를 의미한다. 즉, 공백, 구두점, 여는 괄호, 콜론, 세미콜론 등과 같은 특수 기호, 식별자, 지정어, 상수, 단말 기호들로 인식되는 단위를 말한다.
본 발명에서 토큰(또는 단어)의 추출은 통계적인 빈도 조사를 위해서 사용하는 것이므로, 형태소 분석 등과 같은 계산을 많이 소모하는 정확한 단어추출기법을 이용할 필요는 없고, 오히려 매우 빠르게 계산할 수 있는 방식이면 충분하므로, 본 발명에서는 공백단위로 메일내용을 나눠서 공백을 기준으로 잘린 한 단위의 문자열을 토큰이라고 간주한다.
토큰빈도계산수단(130)은 하나의 이메일에서 추출된 토큰의 빈도를 계산한다. 빈도를 계산한 후, 빈도가 높은 토큰부터 낮은 토큰으로 정렬하는 등의 방법으로 각 토큰이 사용된 빈도 및 상대적인 사용 빈도 즉, 토큰의 사용빈도의 등위를 매긴다.
기초데이터생성수단(140)은 이메일에서 토큰추출수단(120)에서 추출된 토큰 중 토큰빈도계산수단(130)에서 빈도수가 낮은 것으로 계산된 토큰을 제거한 후 소정의 함수를 이용하여 소정의 지정된 크기로 축소하여 기초데이터를 생성한다.
토큰을 제거하는 방법에는 여러 가지가 있을 수 있다. 절대적인 방법으로 토큰빈도계산수단(130)에서 계산된 빈도수를 기준으로 소정 횟수 이하의 빈도수를 가지는 토큰이 모두 제거되도록 프로그램될 수도 있고, 상대적인 방법으로 빈도수에 기초한 등위를 이용하여 빈도수가 많은 것부터 소정 비율에 드는 토큰만을 남기고 나머지 토큰을 제거하거나, 반대로 빈도수가 적은 것부터 소정 비율까지의 토큰을 제거하는 방법으로 토큰을 제거할 수 있다.
어떠한 방법을 사용하는지 및 기준으로 삼는 빈도수 또는 등위를 어느 정도로 할 것인지는 스팸 메일을 방지하고자 하는 정도 등에 따라 달라질 수 있다.
이렇게 빈도수가 적은 토큰이 제거된 이메일은 최종적으로 소정의 함수를 이용하여 축소되어 기초데이터로 생성된다.
기초데이터를 생성하는 과정은 MD5(Message Digest 5)나 CRC(Cyclic Redundancy Check)와 같은 해쉬함수(hashing function)를 사용한다. 해쉬함수를 이용한 방법은 어셈블러와 컴파일러에서 변수명과 레이블명의 테이블을 고속 검색하기 위해 고안된 방법으로 가변 길이의 입력자료를 고정길이의 값으로 변환하기 위해 사용된다.
예를 들어 입력자료를 CRC를 이용하여 처리하는 경우, 입력자료의 크기와 상관없이 출력은 32비트의 값으로 나오게 되고, MD5로 처리를 하는 경우 입력자료의 길이에 상관없이 출력을 128비트의 데이터로 하게 된다.
위에서 예를 들은 함수의 외에도 가변의 입력을 받아 최대한 해쉬값을 고르게 분포시키고 일정한 길이의 출력값을 출력할 수 있는 함수라면 어떤 것이든 사용이 가능하다.
메일로부터 추출된 토큰열은 그 길이가 매우 가변적이므로 바로 비교를 하는 것은 그리 용이하지 않으므로 이를 고정 길이의 숫자로 변환함으로써 저장 및 비교가 쉽도록 만들어 준다.
기초데이터생성수단(140)에서 생성된 기초데이터는 그 길이가 짧고 일정한 길이를 가지고 있기 때문에 메일수신시스템이 많은 이메일의 유사여부를 판단할 때 빠른 시간 안에 판단이 가능하다.
도 2는 본 발명의 방법을 도시한 흐름도이다.
수신수단(110)은 전자문서를 수신하여 지정된 형식의 문서인가를 판단한 후, 지정된 형식의 문서인 경우 별도의 작업없이 전자문서를 수신하지만, 지정된 형식이 아닌 경우 지정된 형식의 전자문서로 변환하여 전자문서를 전달한다(201).
이메일을 수신하는 경우에는 디코딩하여 텍스트 형식으로 만들어서 토큰추출수단(120)에 전달한다.
토큰추출수단(120)은 디코딩된 이메일을 해석하여 토큰 단위 또는 단어 단위로 추출한다(202). 토큰 추출시 첨부된 파일이 있는 경우에는 첨부된 파일은 무시하고 토큰을 추출하는 것이 바람직하다. 토큰 추출에 대한 구체적인 설명은 시스템에 대한 설명과 동일하므로 이에 대해서는 생략한다.
토큰빈도계산수단(130)은 하나의 이메일에서 추출된 토큰의 빈도를 계산한다(203). 빈도를 계산한 후, 빈도가 높은 토큰부터 낮은 토큰으로 정렬하는 등의 방법으로 각 토큰이 사용된 빈도 및 상대적인 사용 빈도 즉, 토큰의 사용빈도의 등위를 매긴다.
추출된 각 토큰의 빈도 계산이 끝나면, 기초데이터생성수단(140)은 이메일에서 토큰추출수단(120)에서 추출된 토큰 중 토큰빈도계산수단(130)에서 빈도수가 낮은 것으로 계산된 토큰을 제거(204)한 후 해쉬함수와 같은 소정의 함수를 이용하여소정의 지정된 크기로 축소하여 기초데이터를 생성한다(205).
토큰을 제거하는 방법에는 시스템에 대한 설명에서 기재한 바와 같이 여러 가지가 있을 수 있으며, 어떠한 방법을 사용하는지 및 기준으로 삼는 빈도수 또는 등위를 어느 정도로 할 것인지는 스팸 메일을 방지하고자 하는 정도 등에 따라 달라질 수 있다.
이렇게 빈도수가 적은 토큰이 제거된 이메일은 최종적으로 MD5(Message Digest 5)나 CRC(Cyclic Redundancy Check)와 같은 해쉬함수(hashing function)를 이용하여 축소되어 기초데이터로 생성된다.
이 후의 과정은 종래 사용되던 IP 주소나 제목을 비교하여 스팸메일을 추출하는 과정과 IP 주소나 제목 대신 기초데이터를 사용한다는 점만 다를 뿐 동일한 과정을 통하여 수행될 수 있으므로 여기서는 별도의 부가적인 설명을 생략한다.
즉, 메일수신시스템은 생성된 일반 메일보다는 훨씬 짧은 길이의 기초데이터(MD5 - 128bit; CRC - 32bit)를 서로 비교하여 동일한 기초데이터를 가지는 이메일이 여러 통 있는 경우에 그 이메일은 스팸 메일로 판정하고 인터넷 이용자에게 전달되는 것을 방지한다.
본 발명의 상기 방법은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이상에서 본 발명의 바람직한 실시예를 이메일의 경우를 중심으로 설명하였다. 그러나 본 발명은 비단 이메일의 경우에 한정되지 않고, 전자적으로 작성된 모든 전자 문서에 적용이 가능하다.
예를 들어, 검색엔진을 이용하여 검색을 하는 경우 검색된 웹사이트들이 서로 거의 동일한 내용을 포함하고 있는 경우에는 검색된 웹사이트들에 미리 표시를 하여 검색결과를 출력하거나 어느 하나의 웹사이트만을 출력하여 보여주는 방식 등으로 사용될 수 있다.
이 경우에는 검색된 웹사이트에 기재되어 있는 내용이 스팸 메일 상호간의 유사성보다는 더 떨어질 수 있으므로 제거되는 토큰의 비율을 더 높게 설정하여 발명을 실시하는 것이 더 바람직할 것이다.
이상 설명한 바와 같이, 본 발명에 따르면, 동일한 내용의 전자문서의 중간 중간에 다른 글자나 단어가 있어서 일반적인 컴퓨터 시스템에서 동일한 전자문서로 인식을 못하는 경우에도 동일한 전자문서로 인식을 할 수 있어 거의 동일한 문서를 찾아내는 것이 가능하다. 특히 "소금이 뿌려진" 스팸 메일을 가려낼 수 있어 좀 더 정확하고 효과적인 스팸메일 방지 시스템을 만들 수가 있다.

Claims (15)

  1. 수신된 전자문서 중 유사한 전자문서가 있는지 판단하기 위한 기초데이터를 생성하는 방법에 있어서,
    (a) 전자문서를 수신하는 단계;
    (b) 상기 전자문서의 내용을 소정의 단위로 나누어 토큰을 추출하는 단계;
    (c) 상기 전자문서 내에서 상기 추출된 각 토큰의 빈도를 계산하는 단계; 및
    (d) 상기 전자문서에서 빈도수가 낮은 것으로 계산된 토큰을 제거한 후 소정의 함수를 이용하여 소정의 지정된 크기로 축소하여 상기 기초 데이터를 생성하는 단계;를 포함하는 것을 특징으로 하는 유사 전자문서 판단을 위한 기초데이터 생성방법.
  2. 제1항에 있어서, 상기 기초데이터 생성방법은
    (e) 상기 (a) 단계에서 수신한 문서가 소정의 지정된 양식이 아닌 경우 소정의 지정된 양식으로 변경하는 단계;를 더 포함하는 것을 특징으로 하는 유사 전자문서 판단을 위한 기초데이터 생성방법.
  3. 제1항에 있어서, 상기 (d) 단계에서 소정의 함수는 해쉬함수(hashing function)인 것을 특징으로 하는 유사 전자문서 판단을 위한 기초데이터 생성방법.
  4. 제1항에 있어서, 상기 (d) 단계에서 소정의 함수는 MD5(Message Digest 5)또는 CRC(Cyclic Redundancy Check) 함수인 것을 특징으로 하는 유사 전자문서 판단을 위한 기초데이터 생성방법.
  5. 제1항에 있어서, 상기 (d) 단계는 소정 횟수 이하의 빈도수를 가지는 토큰을 제거하는 단계를 포함하는 것을 특징으로 하는 유사 전자문서 판단을 위한 기초데이터 생성방법.
  6. 제1항에 있어서, 상기 (d) 단계는 빈도수가 많은 것부터 소정 비율에 드는 토큰만을 남기고 나머지 토큰을 제거하는 단계를 포함하는 것을 특징으로 하는 유사 전자문서 판단을 위한 기초데이터 생성방법.
  7. 제1항에 있어서, 상기 (d) 단계는 빈도수가 적은 것부터 소정 비율까지의 토큰을 제거하는 단계를 포함하는 것을 특징으로 하는 유사 전자문서 판단을 위한 기초데이터 생성방법.
  8. 제1항에 있어서, 상기 (b) 단계는 전자문서 내의 문자열 중 공백 사이에 위치한 문자열을 하나의 토큰으로 추출하는 것을 특징으로 하는 유사 전자문서 판단을 위한 기초데이터 생성방법.
  9. 제1항에 있어서, 상기 기초데이터 생성방법은 메일 수신 시스템에서 유사한이메일(e-mail)이 수신되었는지 판단하기 위해 사용되어지는 것을 특징으로 하는 유사 전자문서 판단을 위한 기초데이터 생성방법.
  10. 삭제
  11. 수신된 전자문서 중 유사한 전자문서가 있는지 판단하기 위한 기초데이터를 생성하는 시스템에 있어서,
    전자문서를 수신하는 수신수단;
    상기 수신수단에서 수신된 전자문서의 내용을 소정의 단위로 나누어 토큰을 추출하는 토큰추출수단;
    상기 전자문서 내에서 상기 토큰추출수단에서 추출된 각 토큰의 빈도를 계산하는 토큰빈도계산수단; 및
    상기 전자문서에서 빈도수가 낮은 것으로 계산된 토큰을 제거한 후 소정의 함수를 이용하여 소정의 지정된 크기로 축소하여 상기 기초데이터를 생성하는 기초데이터 생성수단;을 포함하는 것을 특징으로 하는 유사 전자문서 판단을 위한 기초데이터 생성시스템.
  12. 제11항에 있어서, 상기 수신수단은 상기 수신수단에서 수신된 전자문서가 소정의 지정된 양식이 아닌 경우 소정의 지정된 양식으로 변경하는 것을 특징으로 하는 유사 전자문서 판단을 위한 기초데이터 생성시스템.
  13. 제11항에 있어서, 상기 기초데이터 생성수단에서 기초데이터를 생성하기 위해 사용되는 함수는 해쉬함수(hashing function)인 것을 특징으로 하는 유사 전자문서 판단을 위한 기초데이터 생성시스템.
  14. 제11항에 있어서, 상기 토큰추출수단은 상기 수신된 전자문서 내의 문자열 중 공백 사이에 위치한 문자열을 하나의 토큰으로 추출하는 것을 특징으로 하는 유사 전자문서 판단을 위한 기초데이터 생성시스템.
  15. 제1항 내지 제10항 중 어느 한 항에 기재된 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR20020044880A 2002-07-30 2002-07-30 유사 전자문서 판단을 위한 기초데이터 생성방법 및 그시스템 KR100459379B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20020044880A KR100459379B1 (ko) 2002-07-30 2002-07-30 유사 전자문서 판단을 위한 기초데이터 생성방법 및 그시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20020044880A KR100459379B1 (ko) 2002-07-30 2002-07-30 유사 전자문서 판단을 위한 기초데이터 생성방법 및 그시스템

Publications (2)

Publication Number Publication Date
KR20040011769A KR20040011769A (ko) 2004-02-11
KR100459379B1 true KR100459379B1 (ko) 2004-12-03

Family

ID=37319819

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20020044880A KR100459379B1 (ko) 2002-07-30 2002-07-30 유사 전자문서 판단을 위한 기초데이터 생성방법 및 그시스템

Country Status (1)

Country Link
KR (1) KR100459379B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009045668A2 (en) * 2007-09-28 2009-04-09 Microsoft Corporation Two-pass hash extraction of text strings

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100784286B1 (ko) * 2006-05-11 2007-12-12 엔에이치엔(주) 문자 입력 패턴을 이용한 스팸 검출 방법 및 시스템
KR100834292B1 (ko) * 2006-11-06 2008-05-30 엔에이치엔(주) 문서 처리 방법 및 시스템
KR100834291B1 (ko) * 2006-11-06 2008-05-30 엔에이치엔(주) 문서 처리 방법 및 시스템
KR101086530B1 (ko) 2008-10-02 2011-11-23 엔에이치엔(주) 웹 문서 원본 판별 방법 및 시스템, 이를 위한 웹 문서 이력 정보 제공 방법 및 시스템
KR102073833B1 (ko) * 2019-11-05 2020-02-05 (주)키온비트 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치 및 동작 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009045668A2 (en) * 2007-09-28 2009-04-09 Microsoft Corporation Two-pass hash extraction of text strings
WO2009045668A3 (en) * 2007-09-28 2009-05-28 Microsoft Corp Two-pass hash extraction of text strings

Also Published As

Publication number Publication date
KR20040011769A (ko) 2004-02-11

Similar Documents

Publication Publication Date Title
US10042919B2 (en) Using distinguishing properties to classify messages
US8515894B2 (en) Email analysis using fuzzy matching of text
US8768940B2 (en) Duplicate document detection
US7349901B2 (en) Search engine spam detection using external data
US8688794B2 (en) Signature generation using message summaries
US20130173562A1 (en) Simplifying Lexicon Creation in Hybrid Duplicate Detection and Inductive Classifier System
US7624274B1 (en) Decreasing the fragility of duplicate document detecting algorithms
Sanz et al. Email spam filtering
US7788576B1 (en) Grouping of documents that contain markup language code
KR100459379B1 (ko) 유사 전자문서 판단을 위한 기초데이터 생성방법 및 그시스템
JP4445243B2 (ja) 迷惑メール遮断方法
KR100480878B1 (ko) 유인메일주소를 이용한 스팸메일 차단방법 및스팸메일차단시스템
Ma et al. On Extendable Software Architecture for Spam Email Filtering.
KR100459380B1 (ko) 대량 메일 판별 방법 및 그 시스템
JP2011113097A (ja) 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ
Wavhal BAYESIAN FILTER TECHNIQUE FOR SPAM E-MAIL DETECTION: AN OVERVIEW
Li et al. TTSF: A Novel Two-Tier Spam Filter
KR20060128238A (ko) 스팸 메일 차단 및 복구장치
Priya et al. An Efficient E-Mail Generalization Scheme For Unsolicited Mail
Spracklin Filtering email based on Kolmogorov complexity measures.
TW201215046A (en) E-mail format fingerprint code acquisition method, spam identification method, computer program product and electronic device
TW201143331A (en) Method of capturing e-mail fingerprint, spam identification method, computer program product, and electronic device

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121115

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20131113

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20141111

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20151012

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20161025

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20170925

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20181112

Year of fee payment: 15