KR20060099222A - 이메일 분류 시스템 및 방법 - Google Patents

이메일 분류 시스템 및 방법 Download PDF

Info

Publication number
KR20060099222A
KR20060099222A KR1020050020534A KR20050020534A KR20060099222A KR 20060099222 A KR20060099222 A KR 20060099222A KR 1020050020534 A KR1020050020534 A KR 1020050020534A KR 20050020534 A KR20050020534 A KR 20050020534A KR 20060099222 A KR20060099222 A KR 20060099222A
Authority
KR
South Korea
Prior art keywords
classification
email
index
similarity
mail
Prior art date
Application number
KR1020050020534A
Other languages
English (en)
Other versions
KR100737853B1 (ko
Inventor
이주홍
최범기
박선
박상호
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020050020534A priority Critical patent/KR100737853B1/ko
Publication of KR20060099222A publication Critical patent/KR20060099222A/ko
Application granted granted Critical
Publication of KR100737853B1 publication Critical patent/KR100737853B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/60Business processes related to postal services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/56Unified messaging, e.g. interactions between e-mail, instant messaging or converged IP messaging [CPM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Signal Processing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

본 발명은 벡터모델의 유사도를 기반으로 한 자동 카테고리 생성과 동적분류체계를 결합하여 이메일을 자동으로 다원분류하는 이메일 분류 시스템 및 방법에 관한 것으로, 본 발명은 수신된 이메일의 제목과 본문으로부터 색인어를 추출하는 색인어 추출단계; 상기 추출된 색인어간의 유사도를 계산한 후, 유사도가 가장 높은 색인어를 대표색인어로 설정하여 이를 바탕으로 분류주제를 생성하여 분류주제별로 이메일을 자동분류하는 이메일 자동 분류 단계; 유저의 요청에 따라 상기 분류주제, 분류주제에 포함된 이메일, 각 이메일의 색인어 관계를 동적분류체계를 적용하여 재분류 및 재구성하는 이메일 재분류 단계;를 수행하여 메일을 자동으로 분류할 수 있다.
이메일, 자동 분류, 동적분류, 분류주제, 색인어

Description

이메일 분류 시스템 및 방법{SYSTEM AND METHOD FOR CLASSIFICATION OF E-MAIL}
도 1은 본 발명에 따른 이메일 분류 시스템의 블록 구성도.
도 2는 본 발명의 전체적인 동작 흐름도.
도 3은 본 발명에서의 전처리 과정의 화면 상태도.
도 4a 및 도 4b는 본 발명에서의 추출될 이메일의 특질로부터 유사도를 계산하는 과정 및 자동 카테고리를 생성하여 이메일을 자동분류하는 과정의 화면 상태도.
도 5는 본 발명에서의 자동 카테고리 생성을 바탕으로 한 메일 분류 과정을 나타낸 흐름도.
도 6은 본 발명에서의 동적분류체계를 이용한 이메일 재분류 과정을 나타낸 흐름도.
도 7은 본 발명에서의 동적분류체계를 이용한 이메일 재분류 과정의 화면 상태도.
도 8a 및 도 8b는 본 발명에서의 동적분류체계에 의한 이메일 분류 관계도.
<도면의 주요부분에 대한 부호의 설명>
100 : 전처리부 200 : 자동 카테고리 생성부
300 : 동적 분류부 400 : 메일분류/분류재구성부
본 발명은 인터넷을 통해 배포되는 이메일을 자동으로 분류하는 이메일 분류 시스템 및 방법에 관한 것으로, 특히 벡터모델의 유사도를 기반으로 한 자동 카테고리 생성과 동적분류체계를 결합하여 이메일을 자동으로 다원분류하는 이메일 분류 시스템 및 방법에 관한 것이다.
인터넷의 발전에 따라 이메일 사용이 보편화됨에 따라 점차 수신되는 메일의 량이 증가하고 있으며, 이러한 메일 량의 증가는 사용자로 하여금 이메일을 좀더 효율적으로 분류할 수 있는 방법을 필요하게 한다.
이메일 분류는 대부분 스팸메일을 찾는 이원분류가 주로 연구되었다. 적용된 방법으로는 규칙기반 분류(Rule-based Classifiers), 베이시안 분류(Bayesian Classifiers), SVM(Support-Vector Machines)등이 있다. Cohen은 텍스트 마이닝 기법과 전처리시 불리안과 벡터모델을 이용한 두개의 규칙기반 시스템을 제안하였다(Cohen,1999).
Androutsopoulos(Androutsopoulos,2000)와 Sakkis(Sakkis,2001)은 안티스팸 필터링을 하기 위해 베이시안 분류자를 이용하였다. 그들의 접근방법은 규칙기반 분류자를 사용하는 것에 비해 좋은 정확성을 보였다. Drucker(Drucker et al.,1999)는 SVM을 이용한 스팸 메일 분류를 제안하였다. Kunlun는 스팸을 분류하기 위해 활성 학습 정책을 이용하는 SVM 기반의 새로운 방법을 제안하였다(Kun-Lun et al., 2002). Woitaszek는 단순 SVM을 이용하여 상업적 이메일 분류 시스템을 만들었다(Woitaszek and Shaaban,2003). SVM을 이용한 이들의 방법은 규칙기반이나 베이시안 분류에 비하여 좋은 성능을 보였다.
그러나 상기의 규칙기반, 베이시안, SVM 접근방법은 관리자 분류 방법으로 수신된 메시지가 들어갈 비슷한 폴더를 찾을 수 있도록 사용자가 직접 메시지 폴더를 만들어야 한다. 또한, 메일을 분류하기 이전에 일정량 이상의 학습이 필요하고, 학습과 테스트에 시간이 걸리는 문제가 있다.
다원분류에 대한 연구로는 비관리자 분류 방법으로 수신된 메일 집합으로부터 메일 폴더를 자동으로 구성하여 이메일을 분류한다. Mock는 벡터모델에 의한 역색인 방법으로 이메일 자동분류시스템을 제안하였다(Mock,1999). 그러나 Mock의 방법은 사용자의 필요에 따라 메일을 재분류할 수 없다. Manco는 메일을 관리 및 유지하기 위하여 데이터마이닝에 기반으로 한 k-NN을 이용하여 메일을 분류한다(Manco and Masciari,2002). Manco의 방법은 사용자의 필요에 따라 재분류 할 수 있으나, 여러 단계의 전처리와 다양한 추출 정보에 의하여 유사도를 얻기 때문에 계산이 복잡하여 분류나 재분류시 많은 시간이 필요하다는 단점이 있다.
본 발명은 이러한 점을 감안한 것으로, 본 발명의 목적은 자동 카테고리 생성에 의해 메일의 분류주제가 자동 생성됨으로 사용자의 간섭 및 학습이 필요 없음은 물론, 동적분류체계를 이용하여 분류된 메일을 재분류할 수 있도록 한 이메일 분류 시스템 및 방법을 제공함에 그 목적이 있다.
상기 목적을 달성하기 위한 본 발명에 따른 이메일 분류 시스템은, 수신된 이메일의 제목과 본문으로부터 색인어를 추출하는 전처리부; 상기 전처리부에서 추출된 색인어간의 유사도를 계산한 후, 유사도가 가장 높은 색인어를 대표색인어로 설정하여 이를 바탕으로 분류주제를 생성하는 자동 카테고리 생성부; 상기 자동 카테고리 생성부에 의해 얻어진 데이터로부터 동적분류체계를 적용하여 서로 다른 두 분류주제의 유사관계를 동적으로 생성하여 이메일을 재분류할 수 있도록 하는 동적 분류부; 상기 자동 카테고리 생성부에 의해 생성된 분류주제별로 수신받은 이메일을 자동분류하며, 유저의 요청에 따라 상기 동적 분류부에서 동적으로 생성된 두 분류주제의 유사관계를 바탕으로 이메일을 재분류 및 재구성하는 메일분류/분류재구성부;를 포함하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 이메일 분류 방법은, 수신된 이메일의 제목과 본문으로부터 색인어를 추출하는 색인어 추출단계; 상기 추출된 색인어간의 유사도를 계산한 후, 유사도가 가장 높은 색인어를 대표색인어로 설정하여 이를 바탕으로 분류주제를 생성하여 이메일을 자동분류하는 이메일 자동 분류 단계;를 포 함하는 것을 특징으로 한다.
또한, 본 발명의 이메일 분류 방법은, 수신된 이메일의 제목과 본문으로부터 색인어를 추출하는 색인어 추출단계; 상기 추출된 색인어간의 유사도를 계산한 후, 유사도가 가장 높은 색인어를 대표색인어로 설정하여 이를 바탕으로 분류주제를 생성하여 분류주제별로 이메일을 자동분류하는 이메일 자동 분류 단계; 유저의 요청에 따라 상기 분류주제, 분류주제에 포함된 이메일, 각 이메일의 색인어 관계를 동적분류체계를 적용하여 재분류 및 재구성하는 이메일 재분류 단계;를 포함하는 것을 특징으로 한다.
이하, 본 발명을 첨부된 도면을 참조로 하여 보다 상세하게 설명한다. 단, 하기 실시예는 본 발명을 예시하는 것일 뿐 본 발명의 내용이 하기 실시예에 한정되는 것은 아니다.
일반적으로 이메일을 분류하기 위해서는 메일의 구조를 분석하여 관련성이 있는 특질을 추출하고, 추출된 특질간의 유사도를 계산하여 관련 있는 메일을 분류한다. 그러나 메일의 기본적인 구조를 보면 보낸 사람, 보낸 날자, 받는 사람, 참조, 제목, 본문, 첨부파일등 여러 항목으로 구성되어 있다. 이러한 기본구조를 모두 분석하여 유사도에 따라 분류하는 것은 계산이 복잡하여 처리시간이 길어진다. 또한, 한번에 모든 문서를 모아서 처리하는 문서분류와는 달리 메일분류는 분류할 메일들이 어느 순간에 어느 정도의 양을 처리할지 정확히 알 수 없다. 그러므로 메일을 수신 할 때 마다 유사도를 계산하여 분류하는 것이 가장 효율적이다.
따라서 본 발명에서 이메일을 분류하는 과정은 다음 세단계로 이루어진다. 첫 단계는 수신 이메일로부터 제목과 내용을 전처리하여 각각의 색인어를 추출하다. 두번째 단계는 색인어간의 유사도를 계산하여 카테고리를 자동으로 생성하고, 카테고리별로 이메일을 자동분류 한다. 세번째 단계는 두번째 단계에서 얻은 분류주제, 분류주제에 포한된 메일, 각 메일의 색인어 관계를 동적분류체계 방법에 적용하여 사용자가 원할 때면 언제든지 재분류 및 재구성할 수 있도록 하는 것으로, 도 1은 이를 구현하기 위한 본 발명에 따른 이메일 분류 시스템의 블록 구성도를 도시한 것이다.
도시한 바와 같이, 본 발명은 전처리부(100), 자동 카테고리 생성부(200), 동적 분류부(300), 메일분류/분류재구성부(400)로 구성된다.
상기 전처리부(100)는 수신된 이메일의 제목과 본문으로부터 색인어를 추출하며, 상기 자동 자동 카테고리 생성부(200)는 상기 전처리부(100)에서 추출된 색인어간의 유사도를 계산한 후, 유사도가 가장 높은 색인어를 대표색인어로 설정하여 이를 바탕으로 분류주제를 생성한다.
그리고 상기 동적 분류부(300)는 상기 자동 카테고리 생성부(200)에 의해 얻어진 데이터로부터 동적분류체계를 적용하여 서로 다른 두 분류주제의 유사관계를 동적으로 생성하여 이메일을 재분류할 수 있도록 하며, 메일분류/분류재구성부(400)는 상기 자동 카테고리 생성부(200)에 의해 생성된 분류주제별로 수신받은 이메일을 자동분류하며, 유저의 요청에 따라 상기 동적 분류부(300)에서 동적으로 생성된 두 분류주제의 유사관계를 바탕으로 이메일을 재분류 및 재구성한다.
또한, 본 발명은 도시하지는 않았지만 수신되는 이메일을 저장하기 위한 추 출메일 데이터베이스, 상기 전처리부(100)에서 추출된 색인어를 저장하기 위한 색인어 데이터 베이스, 유사도 데이터 베이스 및 메일분류 데이터 베이스 등의 데이터 베이스를 포함함은 물론이다.
이러한 본 발명을 도 2의 흐름도를 참조하여 보다 상세히 설명한다.
먼저, 본 발명은 상기 전처리부(100)에 의해 수신된 이메일의 제목과 본문으로부터 색인어를 추출하게 되며(S100), 도 3은 이의 수행 과정을 나타낸 화면이다.
메일의 모든 항목을 전처리하여 유사도를 계산하는 것은 유동적인 이메일의 특성상 맞지 않다. 따라서 본 발명에서는 메일의 제목, 본문, 보낸 사람만으로 제한하며, 전처리는 수신된 이메일의 제목과 본문으로부터 색인어를 추출하는 단계이다. 그러나 색인어 추출을 위한 불용어의 정의나 스테밍 방법에 대한 연구가 많이 되어 있는 영어 문서와는 달리, 한글 문서는 그 색인어의 추출 방법이 상대적으로 까다롭다. 특히 정보 검색과 관련해 문제가 되는 것은 복합명사와 고유명사 혹은 신조어의 존재인데, 띄어쓰기에 대한 명확한 규정이 없는 한글의 복합명사는 띄어쓰기의 방법에 따라 추출되는 색인어의 형태가 다르다. 따라서 본 발명에서는 이메일 분류 시스템의 구현상의 부담을 줄이고자 이미 개발되어 있는 한글분석 HAM을 사용하여 색인어를 추출하였다(Kang,2002).
이후, 상기 자동 카테고리 생성부(200)에 의해 메일 자동 분류를 위한 유사도를 계산한 후, 이를 바탕으로 분류주제어를 생성하고, 이로부터 상기 메일분류/분류재구성부(400)에 의해 수신된 이메일을 분류주제별로 자동으로 분류하게 되며(S200), 도 4a 및 도 4b는 각각 추출될 이메일의 특질로부터 유사도를 계산하는 과 정 및 자동 카테고리를 생성하여 이메일을 자동분류하는 화면 상태를 나타낸 것이다.
이를 도 5의 흐름도를 참조로 설명하면, 먼저 상기 전처리부(100)에 의해 전처리된 색인어들 간에 유사도를 계산한다(S201).
한편, 유사도 계산을 위한 벡터 모델은 하나의 문서를 t개의 정규화된 단어로 구성된 t-차원의 벡터로 표현하는 것으로, 벡터 모델은 불리안 모델의 0 또는 1의 가중치의 한계를 극복하고 질의문서와 검색문서 간의 부분일치를 가능하게 한다. 즉, 질의문서와 검색문서의 단어들에 연속형 수치의 가중치를 부여하고, 이 가중치들을 이용하여 유사도를 계산한 후, 상위의 유사도를 갖는 문서들을 검색해오는 방법으로, 불리안 모델에 의한 방법보다 검색효율이 좋아 현재 많이 사용되고 있다(Ricardo and Berthier, 1999).
w ij 는 검색문서 j의 단어 i의 가중치 (wij ≥ 0), w iq 는 질의문서 또는 질의어 q의 단어 i의 가중치 (wiq ≥ 0), t는 검색문서와 질의문서 내의 단어들의 개수 일 때, 질의문서의 벡터
Figure 112005013003141-PAT00001
는 식(1)과 같이 나타낼 수 있다.
Figure 112005013003141-PAT00002
= (w 1q , w 2q , …, w tq ) (1)
또한, 검색문서의 벡터
Figure 112005013003141-PAT00003
는 식(2)와 같이 나타낼 수 있다.
Figure 112005013003141-PAT00004
= (w 1j , w 2j , …, w tj ) (2)
벡터 모델에서 유사도 산출 공식은 식(3)과 같다.
Figure 112005013003141-PAT00005
상기 식(3)을 이용하여 유사도를 계산한 후, 유사도가 가장 높은 색인어를 대표색인어로 설정한다(S202).
다음으로 대표색인어를 첫 번째 분류주제로 지정한다. 두 번째 수신 메일도 마찬가지로 대표색인어를 설정하고, 설정된 대표색인어를 이전 메일의 색인어간 유사도를 계산한다. 계산된 유사도가 사용자가 지정한 분류 경계값보다 높으면 첫 번째 분류주제에 포함시키고, 이보다 낮으면 두 번째 메일의 대표색인어를 두 번째 분류주제로 지정한 후, 분류주제에 메일을 포함시킨다. 이러한 과정을 마지막 수신 메일까지 반복하여 메일을 분류한다(S203),(S204).
즉, 메일에 포함된 색인어 중 유사도가 가장 높은 색인어를 대표로 지정하여 분류주제를 자동으로 생성하고, 수신받은 메일을 생성된 분류주제별로 자동 분류한다. 그러나 메일의 제목이 아무런 의미도 갖지 못함은 물론 메일의 의도도 내포하지 못한다면 상기 식(3)를 사용한 자동 카테고리 생성 방법은 불필요하거나 메일 분류를 왜곡시킬 수 있다. 또한, 메일 내용이 제목과 유사한 내용이라도 중요한 의미를 담고 있는 특질을 포함하고 있지 않다면 중요한 문장이 될 수 없으며, 반대로 제목과 유사성이 없는 내용이라도 중요한 의미를 포함한 특질이 나타나는 내용이라면 중요하게 고려해야 한다. 따라서 본 발명은 이러한 문제를 해결하기 위해 유저 의 필요에 따라 동적분류체계 방법을 이용하여 동적으로 재분류 및 재구성할 수 있게 한다(S300).
이와 같은 동적분류체계를 도 6의 흐름도를 참조하여 살펴보며, 도 7은 동적분류체계를 적용한 이메일 재분류 화면을 나타낸 것이다.
이메일을 동적분류체계로 구성하기 위해서는 색인어와 분류주제 간의 관계를 규정해야 한다. 그러나 색인어와 분류주제 간의 관계를 직접 결정할 수는 없으므로 색인어와 메일 간의 관계 및 메일과 분류주제 간의 관계에 의해서 결정한다. 이러한 관계는 상기의 유사도 계산 결과로부터 유도할 수 있다. 여기서, 이메일을 색인어로 구성된 퍼지 집합으로 간주 할 수 있고, 마찬가지 분류주제를 분류된 이메일들의 색인어들로 구성된 퍼지 집합으로 간주할 수 있다(S301).
이메일이 속한 두 분류주제 간의 관계는 생성된 두 분류주제의 퍼지 집합의 함의 정도를 계산하여 결정할 수 있다. 두 퍼지 집합의 함의 정도는 퍼지 함의 연산자를 이용하여 한 퍼지 집합이 다른 퍼지 집합에 포함되는 정도를 계산하여 구할 수 있고, 이를 이용하여 서로 다른 두 분류주제의 유사관계를 동적으로 생성할 수 있다(S302).
한편, 상기 퍼지 함의 연산자(Fuzzy Implication Operator)는 [0,1]×[0,1]→[0,1]로서 단위 구간의 다치 논리로 확장된 것이다. 퍼지 함의 연산자의 종류는 무수히 많으며 대표적인 Kleene-Diense 퍼지함의 연산자는 다음과 같다(Choi et al.,2003).
a→b = (1 ­ a )∨b = max( 1 ­ a , b ),
a = 0~1 , b = 0~1 (4)
본 발명에서는 상기 식(4)의 Kleen-Diense 퍼지 함의 연산자를 사용한다. 퍼지 함의 연산자를 식(5)의 퍼지관계곱을 적용하여 분류들 간의 퍼지함의 관계, C i C j 를 유도할 수 있다.
Figure 112005013003141-PAT00006
여기서, K k k번째 검색어이고, C i , C j i번째와 j번째 분류이며, C C i 의 β-제약, { x Cj (x) ≥β}이고 |C |는 C 의 원소의 갯수이다. Rm× n행렬로서 R ij 는 μ Cj (K i ), 즉, K i C j 인 정도이다. R T 는 행렬 R의 전치 행렬로서 R ij = R T ji 이다.
상기 퍼지 함의 연산자는 각 응용의 필요성에 맞게 제시되어야 하는데, 본 발명에서는 식(4)의 퍼지 함의 연산자를 사용한다. 퍼지 함의 연산자를 식(5)의 퍼지 관계곱을 적용하여 분류주제들 간의 퍼지 함의 관계, C iC j를 유도할 수 있다. 이렇게 유도된 C iC jC iC j의 포함 정도를 나타낸다. 다음에는 분류간의 포함정도를 사용자가 재분류를 원할시 지정하는 α값 이상이면 1, 이하면 0으로 변환하는 α-cut하여 0과 1의 값으로 바꾸면 최종 결과로서 각 분류간의 관계를 얻을 수 있다. 여기서 α값을 조정하여 분류주제와 분류주제의 포함 관계를 동적으로 축 소하던지 확장할 수 있다.
다음은 상기 동적 분류부(300)에 의한 동적분류체계 방법을 적용하여 이메일을 재분류한 예이다.
β = 0.9일 때, πm,β(C5 ⊆ C2)는 (RT βR)52 = 0.82이고, πm,β(C3 ⊆ C4)는 (RT βR)34 = 0.42이다. 각 분류간 함의 관계는 β-제약 퍼지 관계곱에 의해 다음의 [표 1]의 (a), (b) 와 같이 설정될 수 있다
[표 1] 분류와 색인어의 β-제약 퍼지 관계곱
Figure 112005013003141-PAT00007
다음에 (RT βR)를 α으로 α-cut하여 0과 1값으로 바꾼다. [표 2]의 (a)는 (RT βR)를 0.82로 α-cut한 최종 결과이다. 즉, 0.82 미만의 값은 0이 되고 원래 0.82 이상인 값은 1이 된다. [표 2]의 (b)는 (RT βR) = 0.72로 α-cut한 최종결과이다.
[표 2] (RT βR)를 α으로 α-cut한 최종 결과
Figure 112005013003141-PAT00008
도 8은 상기 [표 2]에 의하여 얻어진 최종 결과로서 각 분류주제간 관계를 보여준다. α = 0.82일 때는 도 8a와 같으며, α = 0.76일 때는 도 8b와 같다. 도 8a에서 α = 0.82일 때, 분류주제 간의 함의 관계를 살펴보면, C 4분류주제 항목은 모든 분류주제 항목의 상위분류이고, C 1, C 2, C 5는 하위 분류주제이다. 또한, C 1C 2, C 5에, C 2C 5에 대해서 동시에 하위분류주제로 구성된다. 이것은 일반 고정분류체계의 배타적 개념 대신 공유개념과 다중계승의 개념이 도입된 것이다.
즉, 분류주제 C 1에 의해 분류되는 메일들은 상위 분류주제로서 C 2 , C 4 , C 5를 공유하게 된다. 도 8b에서는 α = 0.76일 때, 분류간의 함의관계를 살펴보면, C 4가 최상위 분류에 위치하며, α = 0.82일 때의 분류주제관계를 모두 포함하면서 하위분류주제 C 1, C 2, C 3, C 5로 확장된 것을 알 수 있다.
도 8과 같은 동적인 분류관계를 생성하면, 분류주제 안에 원하는 메일이 없을 때는 유사한 하위분류주제로 재구성 하여 검색할 수 있다. 그러나 위의 재분류는 분류내의 색인어들이 중복되어 나타나기 때문에 재현율은 높아지나 정확율이 낮아지는 문제가 있다. 이러한 문제를 해결하기 위해 분류 관계에 상기 유사도를 계 산하여 유사도가 낮은 분류는 제거하고 유사도가 높은 분류는 분류간 합병하여 정확율을 높이게 되는 것이다.
다음은 이와 같은 본 발명의 실험 및 이에 따른 분석결과를 살표본다.
본 발명에서는 펜티엄III 1.2GHz, 640Mb RAM상의 윈도우 XP환경에서 Visual C++6.0을 사용하여 제시된 방법을 구현하여 실험하였다. 실험자료는 2004년 4월 27일 ~ 5월 22일의 4주 동안의 수신된 227개의 메일을 대상으로 하였다. 실험은 이메일 다원분류에 이용된 k-NN 분류방법과 동적분류체계방법을 비교하여 성능평가 하였다. 성능평가 방법은 문서분류에서 이용되는 재현율, 정확률, F1척도를 사용하였으며 식은 다음과 같다(Ricardo and Berthier,1999).
[표 3] 분류의 적합성
Figure 112005013003141-PAT00009
실험은 동적분류체계 방법의 α값 변화에 따른 이메일의 재분류에 대한 성능평가를 하였으며, k-NN에 의한 이메일 분류는 이웃하는 메일의 수인 k를 이용하였다. 제안방법과 k-NN에 의한 평가 결과는 [표 4]와 같다.
[표 4] 제안방법과 k-NN을 이용한 이메일 분류 결과
Figure 112005013003141-PAT00010
[표 4]에서 보는 바와 같이 k-NN을 이용하여 이메일 분류시 k값이 작을 수록 재현율과 정확률이 높아지나, 재현율에 비하여 정확률은 상당히 낮다. 제안방법 역시 α값 작을 수 록 재현율과 정확률이 높아지며, k-NN 방법에 비하여 정확률이 높아지는 것을 알 수 있다.
자동 카테고리 생성에서는 생성된 카테고리 수를 k로 설정하여 k-NN을 이용한 성능 평가를 비교하면 결과가 같기 때문에 자동 카테고리 생성방법과는 비교 하지 않았다. 그러나 자동 카테고리 생성 방법을 이용하여 이메일 분류후 동적분류체계방법을 이용하여 재분류하는 결과가 k-NN방법에서 k값을 조절하면서 재분류하는 것보다 더욱 향상된 성능을 보이는 것을 [표 4]의 비교 결과로 알 수 있다.
상술한 바와 같이, 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위내에서 본 발명을 다양하게 수정 또는 변경하여 실시할 수 있다.
이상에서 살펴본 바와 같이, 본 발명에 따른 이메일 분류 시스템 및 방법은, 벡터모델의 유사도를 기반으로 한 자동 카테고리 생성 방법에 의해 이메일 분류주제가 자동 생성됨으로 수신된 메시지가 들어갈 비슷한 폴더를 찾을 수 있도록 사용자가 직접 메시지 폴더를 만드는 등의 사용자의 간섭이 필요 없으며, 분류주제, 분류주제에 의한 메일, 각 이메일의 색인어 관계를 동적분류체계 방법을 적용하여 사용자가 필요하면 언제든지 재분류할 수 있는 장점이 있다.
또한, 수신되는 이메일을 다원분류함으로 대량의 메일을 효율적으로 관리할 수 있게 됨은 물론, 학습이 필요 없기 때문에 수신 받는 즉시 자동으로 분류할 수 있는 유동적인 이메일 환경에 매우 적합한 장점이 있다.

Claims (12)

  1. 이메일을 다원분류하는 시스템에 있어서,
    수신된 이메일의 제목과 본문으로부터 색인어를 추출하는 전처리부;
    상기 전처리부에서 추출된 색인어간의 유사도를 계산한 후, 유사도가 가장 높은 색인어를 대표색인어로 설정하여 이를 바탕으로 분류주제를 생성하는 자동 카테고리 생성부;
    상기 자동 카테고리 생성부에 의해 얻어진 데이터로부터 동적분류체계를 적용하여 서로 다른 두 분류주제의 유사관계를 동적으로 생성하여 이메일을 재분류할 수 있도록 하는 동적 분류부;
    상기 자동 카테고리 생성부에 의해 생성된 분류주제별로 수신받은 이메일을 자동분류하며, 유저의 요청에 따라 상기 동적 분류부에서 동적으로 생성된 두 분류주제의 유사관계를 바탕으로 이메일을 재분류 및 재구성하는 메일분류/분류재구성부;를 포함하는 것을 특징으로 하는 이메일 분류 시스템.
  2. 제 1 항에 있어서, 상기 유사도는 벡터 모델의 유사도인 것을 특징으로 하는 이메일 분류 시스템.
  3. 제 1 항에 있어서, 상기 동적 분류부는
    이메일을 색인어로 구성된 퍼지 집합으로 간주하고, 분류주제를 분류된 이메일들의 색인어들로 구성된 퍼지 집합으로 간주하여, 이메일이 속한 두 분류주제 간의 관계를 두 분류주제의 퍼지 집합의 함의 정도를 계산하여 결정하는 것을 특징으로 하는 이메일 분류 시스템.
  4. 제 3 항에 있어서, 상기 동적 분류부는
    상기 두 퍼지 집합의 함의 정도는 퍼지 함의 연산자를 이용하여 한 퍼지 집합이 다른 퍼지 집합에 포함되는 정도를 계산하여 구하고, 이를 이용하여 서로 다른 두 분류주제의 유사관계를 동적으로 생성하는 것을 특징으로 하는 이메일 분류 시스템.
  5. 제 4 항에 있어서, 상기 동적 분류부는
    분류간의 포함정도를 α-cut하여 0과 1값으로 바꾸어 각 분류간의 관계를 얻는 것을 특징으로 하는 이메일 분류 시스템.
  6. 이메일을 다원분류하는 방법에 있어서,
    수신된 이메일의 제목과 본문으로부터 색인어를 추출하는 색인어 추출단계;
    상기 추출된 색인어간의 유사도를 계산한 후, 유사도가 가장 높은 색인어를 대표색인어로 설정하여 이를 바탕으로 분류주제를 생성하여 이메일을 자동분류하는 이메일 자동 분류 단계;를 포함하는 것을 특징으로 하는 이메일 분류 방법.
  7. 제 6 항에 있어서, 상기 유사도는 벡터 모델의 유사도인 것을 특징으로 하는 이메일 분류 방법.
  8. 이메일을 다원분류하는 방법에 있어서,
    수신된 이메일의 제목과 본문으로부터 색인어를 추출하는 색인어 추출단계;
    상기 추출된 색인어간의 유사도를 계산한 후, 유사도가 가장 높은 색인어를 대표색인어로 설정하여 이를 바탕으로 분류주제를 생성하여 분류주제별로 이메일을 자동분류하는 이메일 자동 분류 단계;
    유저의 요청에 따라 상기 분류주제, 분류주제에 포함된 이메일, 각 이메일의 색인어 관계를 동적분류체계를 적용하여 재분류 및 재구성하는 이메일 재분류 단계;를 포함하는 것을 특징으로 하는 이메일 분류 방법.
  9. 제 8 항에 있어서, 상기 유사도는 벡터 모델의 유사도인 것을 특징으로 하는 이메일 분류 방법.
  10. 제 8 항에 있어서, 상기 이메일 재분류 단계는
    이메일을 색인어로 구성된 퍼지 집합으로 간주하고, 분류주제를 분류된 이메일들의 색인어들로 구성된 퍼지 집합으로 간주하는 단계;
    이메일이 속한 두 분류주제 간의 관계를 두 분류주제의 퍼지 집합의 함의 정도를 계산하여 결정하는 단계;로 이루어지는 것을 특징으로 하는 이메일 분류 방법.
  11. 제 10 항에 있어서, 상기 두 퍼지 집함의 함의 정도는 퍼지 함의 연산자를 이용하여 한 퍼지 집합이 다른 퍼지 집합에 포함되는 정도를 계산하여 구하고, 이를 이용하여 서로 다른 두 분류주제의 유사관계를 동적으로 생성하는 것을 특징으로 하는 이메일 분류 방법.
  12. 제 11 항에 있어서, 상기 분류간의 포함정도를 α-cut하여 0과 1값으로 바꾸어 각 분류간의 관계를 얻는 것을 특징으로 하는 이메일 분류 방법.
KR1020050020534A 2005-03-11 2005-03-11 이메일 분류 시스템 및 방법 KR100737853B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020050020534A KR100737853B1 (ko) 2005-03-11 2005-03-11 이메일 분류 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050020534A KR100737853B1 (ko) 2005-03-11 2005-03-11 이메일 분류 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20060099222A true KR20060099222A (ko) 2006-09-19
KR100737853B1 KR100737853B1 (ko) 2007-07-12

Family

ID=37630519

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050020534A KR100737853B1 (ko) 2005-03-11 2005-03-11 이메일 분류 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR100737853B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012008655A1 (ko) * 2010-07-12 2012-01-19 한국과학기술정보연구원 동적 임계값이 적용된 문서 브라우징 장치 및 방법
KR20170045135A (ko) * 2015-10-16 2017-04-26 바이두 유에스에이 엘엘씨 휴먼 인스파이어드된 간단한 질문 응답(hisqa)을 위한 시스템 및 방법
KR101886628B1 (ko) * 2017-04-27 2018-09-10 주식회사 트위니 채팅방 군집화 서비스 제공방법
CN112231491A (zh) * 2020-10-20 2021-01-15 中国科学技术大学 基于知识结构的相似试题识别方法
KR102241885B1 (ko) * 2020-10-21 2021-04-20 (주)백산씨앤씨 이메일 관리 장치

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101215116B1 (ko) 2009-02-25 2012-12-24 손태호 서적 정보 제공 시스템
KR101108700B1 (ko) 2009-09-01 2012-01-30 주식회사 다음커뮤니케이션 쇼핑 정보 제공 장치 및 제공 방법
KR102380720B1 (ko) 2020-11-26 2022-04-01 케이엠에스랩 주식회사 머신러닝에 기반하여 사용자의 이메일 분류 패턴을 학습하여 이메일을 분류하는 방법 및 이를 이용한 이메일 관리 서버

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2996173B2 (ja) * 1996-05-10 1999-12-27 日本電気株式会社 電子メール自動分類方式
JP2002334045A (ja) 2001-05-11 2002-11-22 Hitachi Ltd 電子メール分類方法及びその実施装置並びにその処理プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012008655A1 (ko) * 2010-07-12 2012-01-19 한국과학기술정보연구원 동적 임계값이 적용된 문서 브라우징 장치 및 방법
KR20170045135A (ko) * 2015-10-16 2017-04-26 바이두 유에스에이 엘엘씨 휴먼 인스파이어드된 간단한 질문 응답(hisqa)을 위한 시스템 및 방법
KR101886628B1 (ko) * 2017-04-27 2018-09-10 주식회사 트위니 채팅방 군집화 서비스 제공방법
CN112231491A (zh) * 2020-10-20 2021-01-15 中国科学技术大学 基于知识结构的相似试题识别方法
CN112231491B (zh) * 2020-10-20 2024-04-02 中国科学技术大学 基于知识结构的相似试题识别方法
KR102241885B1 (ko) * 2020-10-21 2021-04-20 (주)백산씨앤씨 이메일 관리 장치

Also Published As

Publication number Publication date
KR100737853B1 (ko) 2007-07-12

Similar Documents

Publication Publication Date Title
KR100737853B1 (ko) 이메일 분류 시스템 및 방법
US7043468B2 (en) Method and system for measuring the quality of a hierarchy
Fdez-Riverola et al. SpamHunting: An instance-based reasoning system for spam labelling and filtering
US7971150B2 (en) Document categorisation system
Glover et al. Using web structure for classifying and describing web pages
Rathi et al. Spam mail detection through data mining-A comparative performance analysis
Yu et al. A comparative study for content-based dynamic spam classification using four machine learning algorithms
Rusinol et al. Multimodal page classification in administrative document image streams
Temitayo et al. Hybrid GA-SVM for efficient feature selection in e-mail classification
CN101621391A (zh) 基于概率主题进行短文本分类的方法及系统
CN104361037A (zh) 微博分类方法及装置
Park et al. Automatic e-mail classification using dynamic category hierarchy and semantic features
CN107368610A (zh) 基于全文的大文本 crf 和规则分类方法和系统
Ulus et al. Transfer Naïve Bayes Learning using Augmentation and Stacking for SMS Spam Detection
Watanabe et al. Package ‘seededlda’
Park et al. E-mail classification agent using category generation and dynamic category hierarchy
Vineeth et al. Email Spam: A New Strategy of Screening Spam Emails using Natural Language Processing
Udogwu Ensemble Classification Method for Email Spam Prediction
Wang et al. An efficient SVM-based spam filtering algorithm
Prince Clustering-based spam image filtering considering fuzziness of the spam image
Fragos A 2-means clustering technique for unsupervised spam filtering
Bonin et al. Unsupervised instance selection from text streams
Zhang et al. Improving the classification performance of boolean kernels by applying Occam’s razor
Kim et al. Feature selection by fuzzy inference and its application to spam-mail filtering
Alla et al. Robust Text Clustering To Cluster The Text Documents In A Meta-Heuristic Optimization

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Re-publication after modification of scope of protection [patent]
FPAY Annual fee payment

Payment date: 20120619

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20130527

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee