KR100459379B1 - 유사 전자문서 판단을 위한 기초데이터 생성방법 및 그시스템 - Google Patents
유사 전자문서 판단을 위한 기초데이터 생성방법 및 그시스템 Download PDFInfo
- Publication number
- KR100459379B1 KR100459379B1 KR20020044880A KR20020044880A KR100459379B1 KR 100459379 B1 KR100459379 B1 KR 100459379B1 KR 20020044880 A KR20020044880 A KR 20020044880A KR 20020044880 A KR20020044880 A KR 20020044880A KR 100459379 B1 KR100459379 B1 KR 100459379B1
- Authority
- KR
- South Korea
- Prior art keywords
- electronic document
- token
- basic data
- predetermined
- frequency
- Prior art date
Links
- 238000004519 manufacturing process Methods 0.000 title 1
- 238000000034 method Methods 0.000 claims abstract description 36
- 239000000284 extract Substances 0.000 claims description 8
- 125000004122 cyclic group Chemical group 0.000 claims description 4
- 230000006870 function Effects 0.000 description 16
- 238000000605 extraction Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/60—Business processes related to postal services
Landscapes
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Description
Claims (15)
- 수신된 전자문서 중 유사한 전자문서가 있는지 판단하기 위한 기초데이터를 생성하는 방법에 있어서,(a) 전자문서를 수신하는 단계;(b) 상기 전자문서의 내용을 소정의 단위로 나누어 토큰을 추출하는 단계;(c) 상기 전자문서 내에서 상기 추출된 각 토큰의 빈도를 계산하는 단계; 및(d) 상기 전자문서에서 빈도수가 낮은 것으로 계산된 토큰을 제거한 후 소정의 함수를 이용하여 소정의 지정된 크기로 축소하여 상기 기초 데이터를 생성하는 단계;를 포함하는 것을 특징으로 하는 유사 전자문서 판단을 위한 기초데이터 생성방법.
- 제1항에 있어서, 상기 기초데이터 생성방법은(e) 상기 (a) 단계에서 수신한 문서가 소정의 지정된 양식이 아닌 경우 소정의 지정된 양식으로 변경하는 단계;를 더 포함하는 것을 특징으로 하는 유사 전자문서 판단을 위한 기초데이터 생성방법.
- 제1항에 있어서, 상기 (d) 단계에서 소정의 함수는 해쉬함수(hashing function)인 것을 특징으로 하는 유사 전자문서 판단을 위한 기초데이터 생성방법.
- 제1항에 있어서, 상기 (d) 단계에서 소정의 함수는 MD5(Message Digest 5)또는 CRC(Cyclic Redundancy Check) 함수인 것을 특징으로 하는 유사 전자문서 판단을 위한 기초데이터 생성방법.
- 제1항에 있어서, 상기 (d) 단계는 소정 횟수 이하의 빈도수를 가지는 토큰을 제거하는 단계를 포함하는 것을 특징으로 하는 유사 전자문서 판단을 위한 기초데이터 생성방법.
- 제1항에 있어서, 상기 (d) 단계는 빈도수가 많은 것부터 소정 비율에 드는 토큰만을 남기고 나머지 토큰을 제거하는 단계를 포함하는 것을 특징으로 하는 유사 전자문서 판단을 위한 기초데이터 생성방법.
- 제1항에 있어서, 상기 (d) 단계는 빈도수가 적은 것부터 소정 비율까지의 토큰을 제거하는 단계를 포함하는 것을 특징으로 하는 유사 전자문서 판단을 위한 기초데이터 생성방법.
- 제1항에 있어서, 상기 (b) 단계는 전자문서 내의 문자열 중 공백 사이에 위치한 문자열을 하나의 토큰으로 추출하는 것을 특징으로 하는 유사 전자문서 판단을 위한 기초데이터 생성방법.
- 제1항에 있어서, 상기 기초데이터 생성방법은 메일 수신 시스템에서 유사한이메일(e-mail)이 수신되었는지 판단하기 위해 사용되어지는 것을 특징으로 하는 유사 전자문서 판단을 위한 기초데이터 생성방법.
- 삭제
- 수신된 전자문서 중 유사한 전자문서가 있는지 판단하기 위한 기초데이터를 생성하는 시스템에 있어서,전자문서를 수신하는 수신수단;상기 수신수단에서 수신된 전자문서의 내용을 소정의 단위로 나누어 토큰을 추출하는 토큰추출수단;상기 전자문서 내에서 상기 토큰추출수단에서 추출된 각 토큰의 빈도를 계산하는 토큰빈도계산수단; 및상기 전자문서에서 빈도수가 낮은 것으로 계산된 토큰을 제거한 후 소정의 함수를 이용하여 소정의 지정된 크기로 축소하여 상기 기초데이터를 생성하는 기초데이터 생성수단;을 포함하는 것을 특징으로 하는 유사 전자문서 판단을 위한 기초데이터 생성시스템.
- 제11항에 있어서, 상기 수신수단은 상기 수신수단에서 수신된 전자문서가 소정의 지정된 양식이 아닌 경우 소정의 지정된 양식으로 변경하는 것을 특징으로 하는 유사 전자문서 판단을 위한 기초데이터 생성시스템.
- 제11항에 있어서, 상기 기초데이터 생성수단에서 기초데이터를 생성하기 위해 사용되는 함수는 해쉬함수(hashing function)인 것을 특징으로 하는 유사 전자문서 판단을 위한 기초데이터 생성시스템.
- 제11항에 있어서, 상기 토큰추출수단은 상기 수신된 전자문서 내의 문자열 중 공백 사이에 위치한 문자열을 하나의 토큰으로 추출하는 것을 특징으로 하는 유사 전자문서 판단을 위한 기초데이터 생성시스템.
- 제1항 내지 제10항 중 어느 한 항에 기재된 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20020044880A KR100459379B1 (ko) | 2002-07-30 | 2002-07-30 | 유사 전자문서 판단을 위한 기초데이터 생성방법 및 그시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20020044880A KR100459379B1 (ko) | 2002-07-30 | 2002-07-30 | 유사 전자문서 판단을 위한 기초데이터 생성방법 및 그시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20040011769A KR20040011769A (ko) | 2004-02-11 |
KR100459379B1 true KR100459379B1 (ko) | 2004-12-03 |
Family
ID=37319819
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR20020044880A KR100459379B1 (ko) | 2002-07-30 | 2002-07-30 | 유사 전자문서 판단을 위한 기초데이터 생성방법 및 그시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100459379B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009045668A2 (en) * | 2007-09-28 | 2009-04-09 | Microsoft Corporation | Two-pass hash extraction of text strings |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100784286B1 (ko) * | 2006-05-11 | 2007-12-12 | 엔에이치엔(주) | 문자 입력 패턴을 이용한 스팸 검출 방법 및 시스템 |
KR100834292B1 (ko) * | 2006-11-06 | 2008-05-30 | 엔에이치엔(주) | 문서 처리 방법 및 시스템 |
KR100834291B1 (ko) * | 2006-11-06 | 2008-05-30 | 엔에이치엔(주) | 문서 처리 방법 및 시스템 |
KR101086530B1 (ko) | 2008-10-02 | 2011-11-23 | 엔에이치엔(주) | 웹 문서 원본 판별 방법 및 시스템, 이를 위한 웹 문서 이력 정보 제공 방법 및 시스템 |
KR102073833B1 (ko) * | 2019-11-05 | 2020-02-05 | (주)키온비트 | 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치 및 동작 방법 |
-
2002
- 2002-07-30 KR KR20020044880A patent/KR100459379B1/ko active IP Right Grant
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009045668A2 (en) * | 2007-09-28 | 2009-04-09 | Microsoft Corporation | Two-pass hash extraction of text strings |
WO2009045668A3 (en) * | 2007-09-28 | 2009-05-28 | Microsoft Corp | Two-pass hash extraction of text strings |
Also Published As
Publication number | Publication date |
---|---|
KR20040011769A (ko) | 2004-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10042919B2 (en) | Using distinguishing properties to classify messages | |
US8515894B2 (en) | Email analysis using fuzzy matching of text | |
US8768940B2 (en) | Duplicate document detection | |
US7349901B2 (en) | Search engine spam detection using external data | |
US8688794B2 (en) | Signature generation using message summaries | |
US20130173562A1 (en) | Simplifying Lexicon Creation in Hybrid Duplicate Detection and Inductive Classifier System | |
US7624274B1 (en) | Decreasing the fragility of duplicate document detecting algorithms | |
Sanz et al. | Email spam filtering | |
US7788576B1 (en) | Grouping of documents that contain markup language code | |
KR100459379B1 (ko) | 유사 전자문서 판단을 위한 기초데이터 생성방법 및 그시스템 | |
JP4445243B2 (ja) | 迷惑メール遮断方法 | |
KR100480878B1 (ko) | 유인메일주소를 이용한 스팸메일 차단방법 및스팸메일차단시스템 | |
Ma et al. | On Extendable Software Architecture for Spam Email Filtering. | |
KR100459380B1 (ko) | 대량 메일 판별 방법 및 그 시스템 | |
JP2011113097A (ja) | 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ | |
Wavhal | BAYESIAN FILTER TECHNIQUE FOR SPAM E-MAIL DETECTION: AN OVERVIEW | |
Li et al. | TTSF: A Novel Two-Tier Spam Filter | |
KR20060128238A (ko) | 스팸 메일 차단 및 복구장치 | |
Priya et al. | An Efficient E-Mail Generalization Scheme For Unsolicited Mail | |
Spracklin | Filtering email based on Kolmogorov complexity measures. | |
TW201215046A (en) | E-mail format fingerprint code acquisition method, spam identification method, computer program product and electronic device | |
TW201143331A (en) | Method of capturing e-mail fingerprint, spam identification method, computer program product, and electronic device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20121115 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20131113 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20141111 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20151012 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20161025 Year of fee payment: 13 |
|
FPAY | Annual fee payment |
Payment date: 20170925 Year of fee payment: 14 |
|
FPAY | Annual fee payment |
Payment date: 20181112 Year of fee payment: 15 |