KR20060099222A

KR20060099222A - 이메일 분류 시스템 및 방법

Info

Publication number: KR20060099222A
Application number: KR1020050020534A
Authority: KR
Inventors: 이주홍; 최범기; 박선; 박상호
Original assignee: 인하대학교 산학협력단
Priority date: 2005-03-11
Filing date: 2005-03-11
Publication date: 2006-09-19
Also published as: KR100737853B1

Abstract

본 발명은 벡터모델의 유사도를 기반으로 한 자동 카테고리 생성과 동적분류체계를 결합하여 이메일을 자동으로 다원분류하는 이메일 분류 시스템 및 방법에 관한 것으로, 본 발명은 수신된 이메일의 제목과 본문으로부터 색인어를 추출하는 색인어 추출단계; 상기 추출된 색인어간의 유사도를 계산한 후, 유사도가 가장 높은 색인어를 대표색인어로 설정하여 이를 바탕으로 분류주제를 생성하여 분류주제별로 이메일을 자동분류하는 이메일 자동 분류 단계; 유저의 요청에 따라 상기 분류주제, 분류주제에 포함된 이메일, 각 이메일의 색인어 관계를 동적분류체계를 적용하여 재분류 및 재구성하는 이메일 재분류 단계;를 수행하여 메일을 자동으로 분류할 수 있다.

이메일, 자동 분류, 동적분류, 분류주제, 색인어

Description

이메일 분류 시스템 및 방법{SYSTEM AND METHOD FOR CLASSIFICATION OF E-MAIL}

도 1은 본 발명에 따른 이메일 분류 시스템의 블록 구성도.

도 2는 본 발명의 전체적인 동작 흐름도.

도 3은 본 발명에서의 전처리 과정의 화면 상태도.

도 4a 및 도 4b는 본 발명에서의 추출될 이메일의 특질로부터 유사도를 계산하는 과정 및 자동 카테고리를 생성하여 이메일을 자동분류하는 과정의 화면 상태도.

도 5는 본 발명에서의 자동 카테고리 생성을 바탕으로 한 메일 분류 과정을 나타낸 흐름도.

도 6은 본 발명에서의 동적분류체계를 이용한 이메일 재분류 과정을 나타낸 흐름도.

도 7은 본 발명에서의 동적분류체계를 이용한 이메일 재분류 과정의 화면 상태도.

도 8a 및 도 8b는 본 발명에서의 동적분류체계에 의한 이메일 분류 관계도.

<도면의 주요부분에 대한 부호의 설명>

100 : 전처리부 200 : 자동 카테고리 생성부

300 : 동적 분류부 400 : 메일분류/분류재구성부

본 발명은 인터넷을 통해 배포되는 이메일을 자동으로 분류하는 이메일 분류 시스템 및 방법에 관한 것으로, 특히 벡터모델의 유사도를 기반으로 한 자동 카테고리 생성과 동적분류체계를 결합하여 이메일을 자동으로 다원분류하는 이메일 분류 시스템 및 방법에 관한 것이다.

인터넷의 발전에 따라 이메일 사용이 보편화됨에 따라 점차 수신되는 메일의 량이 증가하고 있으며, 이러한 메일 량의 증가는 사용자로 하여금 이메일을 좀더 효율적으로 분류할 수 있는 방법을 필요하게 한다.

이메일 분류는 대부분 스팸메일을 찾는 이원분류가 주로 연구되었다. 적용된 방법으로는 규칙기반 분류(Rule-based Classifiers), 베이시안 분류(Bayesian Classifiers), SVM(Support-Vector Machines)등이 있다. Cohen은 텍스트 마이닝 기법과 전처리시 불리안과 벡터모델을 이용한 두개의 규칙기반 시스템을 제안하였다(Cohen,1999).

Androutsopoulos(Androutsopoulos,2000)와 Sakkis(Sakkis,2001)은 안티스팸 필터링을 하기 위해 베이시안 분류자를 이용하였다. 그들의 접근방법은 규칙기반 분류자를 사용하는 것에 비해 좋은 정확성을 보였다. Drucker(Drucker et al.,1999)는 SVM을 이용한 스팸 메일 분류를 제안하였다. Kunlun는 스팸을 분류하기 위해 활성 학습 정책을 이용하는 SVM 기반의 새로운 방법을 제안하였다(Kun-Lun et al., 2002). Woitaszek는 단순 SVM을 이용하여 상업적 이메일 분류 시스템을 만들었다(Woitaszek and Shaaban,2003). SVM을 이용한 이들의 방법은 규칙기반이나 베이시안 분류에 비하여 좋은 성능을 보였다.

그러나 상기의 규칙기반, 베이시안, SVM 접근방법은 관리자 분류 방법으로 수신된 메시지가 들어갈 비슷한 폴더를 찾을 수 있도록 사용자가 직접 메시지 폴더를 만들어야 한다. 또한, 메일을 분류하기 이전에 일정량 이상의 학습이 필요하고, 학습과 테스트에 시간이 걸리는 문제가 있다.

다원분류에 대한 연구로는 비관리자 분류 방법으로 수신된 메일 집합으로부터 메일 폴더를 자동으로 구성하여 이메일을 분류한다. Mock는 벡터모델에 의한 역색인 방법으로 이메일 자동분류시스템을 제안하였다(Mock,1999). 그러나 Mock의 방법은 사용자의 필요에 따라 메일을 재분류할 수 없다. Manco는 메일을 관리 및 유지하기 위하여 데이터마이닝에 기반으로 한 k-NN을 이용하여 메일을 분류한다(Manco and Masciari,2002). Manco의 방법은 사용자의 필요에 따라 재분류 할 수 있으나, 여러 단계의 전처리와 다양한 추출 정보에 의하여 유사도를 얻기 때문에 계산이 복잡하여 분류나 재분류시 많은 시간이 필요하다는 단점이 있다.

본 발명은 이러한 점을 감안한 것으로, 본 발명의 목적은 자동 카테고리 생성에 의해 메일의 분류주제가 자동 생성됨으로 사용자의 간섭 및 학습이 필요 없음은 물론, 동적분류체계를 이용하여 분류된 메일을 재분류할 수 있도록 한 이메일 분류 시스템 및 방법을 제공함에 그 목적이 있다.

상기 목적을 달성하기 위한 본 발명에 따른 이메일 분류 시스템은, 수신된 이메일의 제목과 본문으로부터 색인어를 추출하는 전처리부; 상기 전처리부에서 추출된 색인어간의 유사도를 계산한 후, 유사도가 가장 높은 색인어를 대표색인어로 설정하여 이를 바탕으로 분류주제를 생성하는 자동 카테고리 생성부; 상기 자동 카테고리 생성부에 의해 얻어진 데이터로부터 동적분류체계를 적용하여 서로 다른 두 분류주제의 유사관계를 동적으로 생성하여 이메일을 재분류할 수 있도록 하는 동적 분류부; 상기 자동 카테고리 생성부에 의해 생성된 분류주제별로 수신받은 이메일을 자동분류하며, 유저의 요청에 따라 상기 동적 분류부에서 동적으로 생성된 두 분류주제의 유사관계를 바탕으로 이메일을 재분류 및 재구성하는 메일분류/분류재구성부;를 포함하는 것을 특징으로 한다.

상기 목적을 달성하기 위한 본 발명의 이메일 분류 방법은, 수신된 이메일의 제목과 본문으로부터 색인어를 추출하는 색인어 추출단계; 상기 추출된 색인어간의 유사도를 계산한 후, 유사도가 가장 높은 색인어를 대표색인어로 설정하여 이를 바탕으로 분류주제를 생성하여 이메일을 자동분류하는 이메일 자동 분류 단계;를 포 함하는 것을 특징으로 한다.

또한, 본 발명의 이메일 분류 방법은, 수신된 이메일의 제목과 본문으로부터 색인어를 추출하는 색인어 추출단계; 상기 추출된 색인어간의 유사도를 계산한 후, 유사도가 가장 높은 색인어를 대표색인어로 설정하여 이를 바탕으로 분류주제를 생성하여 분류주제별로 이메일을 자동분류하는 이메일 자동 분류 단계; 유저의 요청에 따라 상기 분류주제, 분류주제에 포함된 이메일, 각 이메일의 색인어 관계를 동적분류체계를 적용하여 재분류 및 재구성하는 이메일 재분류 단계;를 포함하는 것을 특징으로 한다.

이하, 본 발명을 첨부된 도면을 참조로 하여 보다 상세하게 설명한다. 단, 하기 실시예는 본 발명을 예시하는 것일 뿐 본 발명의 내용이 하기 실시예에 한정되는 것은 아니다.

일반적으로 이메일을 분류하기 위해서는 메일의 구조를 분석하여 관련성이 있는 특질을 추출하고, 추출된 특질간의 유사도를 계산하여 관련 있는 메일을 분류한다. 그러나 메일의 기본적인 구조를 보면 보낸 사람, 보낸 날자, 받는 사람, 참조, 제목, 본문, 첨부파일등 여러 항목으로 구성되어 있다. 이러한 기본구조를 모두 분석하여 유사도에 따라 분류하는 것은 계산이 복잡하여 처리시간이 길어진다. 또한, 한번에 모든 문서를 모아서 처리하는 문서분류와는 달리 메일분류는 분류할 메일들이 어느 순간에 어느 정도의 양을 처리할지 정확히 알 수 없다. 그러므로 메일을 수신 할 때 마다 유사도를 계산하여 분류하는 것이 가장 효율적이다.

따라서 본 발명에서 이메일을 분류하는 과정은 다음 세단계로 이루어진다. 첫 단계는 수신 이메일로부터 제목과 내용을 전처리하여 각각의 색인어를 추출하다. 두번째 단계는 색인어간의 유사도를 계산하여 카테고리를 자동으로 생성하고, 카테고리별로 이메일을 자동분류 한다. 세번째 단계는 두번째 단계에서 얻은 분류주제, 분류주제에 포한된 메일, 각 메일의 색인어 관계를 동적분류체계 방법에 적용하여 사용자가 원할 때면 언제든지 재분류 및 재구성할 수 있도록 하는 것으로, 도 1은 이를 구현하기 위한 본 발명에 따른 이메일 분류 시스템의 블록 구성도를 도시한 것이다.

도시한 바와 같이, 본 발명은 전처리부(100), 자동 카테고리 생성부(200), 동적 분류부(300), 메일분류/분류재구성부(400)로 구성된다.

상기 전처리부(100)는 수신된 이메일의 제목과 본문으로부터 색인어를 추출하며, 상기 자동 자동 카테고리 생성부(200)는 상기 전처리부(100)에서 추출된 색인어간의 유사도를 계산한 후, 유사도가 가장 높은 색인어를 대표색인어로 설정하여 이를 바탕으로 분류주제를 생성한다.

그리고 상기 동적 분류부(300)는 상기 자동 카테고리 생성부(200)에 의해 얻어진 데이터로부터 동적분류체계를 적용하여 서로 다른 두 분류주제의 유사관계를 동적으로 생성하여 이메일을 재분류할 수 있도록 하며, 메일분류/분류재구성부(400)는 상기 자동 카테고리 생성부(200)에 의해 생성된 분류주제별로 수신받은 이메일을 자동분류하며, 유저의 요청에 따라 상기 동적 분류부(300)에서 동적으로 생성된 두 분류주제의 유사관계를 바탕으로 이메일을 재분류 및 재구성한다.

또한, 본 발명은 도시하지는 않았지만 수신되는 이메일을 저장하기 위한 추 출메일 데이터베이스, 상기 전처리부(100)에서 추출된 색인어를 저장하기 위한 색인어 데이터 베이스, 유사도 데이터 베이스 및 메일분류 데이터 베이스 등의 데이터 베이스를 포함함은 물론이다.

이러한 본 발명을 도 2의 흐름도를 참조하여 보다 상세히 설명한다.

먼저, 본 발명은 상기 전처리부(100)에 의해 수신된 이메일의 제목과 본문으로부터 색인어를 추출하게 되며(S100), 도 3은 이의 수행 과정을 나타낸 화면이다.

메일의 모든 항목을 전처리하여 유사도를 계산하는 것은 유동적인 이메일의 특성상 맞지 않다. 따라서 본 발명에서는 메일의 제목, 본문, 보낸 사람만으로 제한하며, 전처리는 수신된 이메일의 제목과 본문으로부터 색인어를 추출하는 단계이다. 그러나 색인어 추출을 위한 불용어의 정의나 스테밍 방법에 대한 연구가 많이 되어 있는 영어 문서와는 달리, 한글 문서는 그 색인어의 추출 방법이 상대적으로 까다롭다. 특히 정보 검색과 관련해 문제가 되는 것은 복합명사와 고유명사 혹은 신조어의 존재인데, 띄어쓰기에 대한 명확한 규정이 없는 한글의 복합명사는 띄어쓰기의 방법에 따라 추출되는 색인어의 형태가 다르다. 따라서 본 발명에서는 이메일 분류 시스템의 구현상의 부담을 줄이고자 이미 개발되어 있는 한글분석 HAM을 사용하여 색인어를 추출하였다(Kang,2002).

이후, 상기 자동 카테고리 생성부(200)에 의해 메일 자동 분류를 위한 유사도를 계산한 후, 이를 바탕으로 분류주제어를 생성하고, 이로부터 상기 메일분류/분류재구성부(400)에 의해 수신된 이메일을 분류주제별로 자동으로 분류하게 되며(S200), 도 4a 및 도 4b는 각각 추출될 이메일의 특질로부터 유사도를 계산하는 과 정 및 자동 카테고리를 생성하여 이메일을 자동분류하는 화면 상태를 나타낸 것이다.

이를 도 5의 흐름도를 참조로 설명하면, 먼저 상기 전처리부(100)에 의해 전처리된 색인어들 간에 유사도를 계산한다(S201).

한편, 유사도 계산을 위한 벡터 모델은 하나의 문서를 t개의 정규화된 단어로 구성된 t-차원의 벡터로 표현하는 것으로, 벡터 모델은 불리안 모델의 0 또는 1의 가중치의 한계를 극복하고 질의문서와 검색문서 간의 부분일치를 가능하게 한다. 즉, 질의문서와 검색문서의 단어들에 연속형 수치의 가중치를 부여하고, 이 가중치들을 이용하여 유사도를 계산한 후, 상위의 유사도를 갖는 문서들을 검색해오는 방법으로, 불리안 모델에 의한 방법보다 검색효율이 좋아 현재 많이 사용되고 있다(Ricardo and Berthier, 1999).

w _ij 는 검색문서 j의 단어 i의 가중치 (w_ij ≥ 0), w _iq 는 질의문서 또는 질의어 q의 단어 i의 가중치 (w_iq ≥ 0), t는 검색문서와 질의문서 내의 단어들의 개수 일 때, 질의문서의 벡터

는 식(1)과 같이 나타낼 수 있다.

= (w _1q , w _2q , …, w _tq ) (1)

또한, 검색문서의 벡터

는 식(2)와 같이 나타낼 수 있다.

= (w _1j , w _2j , …, w _tj ) (2)

벡터 모델에서 유사도 산출 공식은 식(3)과 같다.

상기 식(3)을 이용하여 유사도를 계산한 후, 유사도가 가장 높은 색인어를 대표색인어로 설정한다(S202).

다음으로 대표색인어를 첫 번째 분류주제로 지정한다. 두 번째 수신 메일도 마찬가지로 대표색인어를 설정하고, 설정된 대표색인어를 이전 메일의 색인어간 유사도를 계산한다. 계산된 유사도가 사용자가 지정한 분류 경계값보다 높으면 첫 번째 분류주제에 포함시키고, 이보다 낮으면 두 번째 메일의 대표색인어를 두 번째 분류주제로 지정한 후, 분류주제에 메일을 포함시킨다. 이러한 과정을 마지막 수신 메일까지 반복하여 메일을 분류한다(S203),(S204).

즉, 메일에 포함된 색인어 중 유사도가 가장 높은 색인어를 대표로 지정하여 분류주제를 자동으로 생성하고, 수신받은 메일을 생성된 분류주제별로 자동 분류한다. 그러나 메일의 제목이 아무런 의미도 갖지 못함은 물론 메일의 의도도 내포하지 못한다면 상기 식(3)를 사용한 자동 카테고리 생성 방법은 불필요하거나 메일 분류를 왜곡시킬 수 있다. 또한, 메일 내용이 제목과 유사한 내용이라도 중요한 의미를 담고 있는 특질을 포함하고 있지 않다면 중요한 문장이 될 수 없으며, 반대로 제목과 유사성이 없는 내용이라도 중요한 의미를 포함한 특질이 나타나는 내용이라면 중요하게 고려해야 한다. 따라서 본 발명은 이러한 문제를 해결하기 위해 유저 의 필요에 따라 동적분류체계 방법을 이용하여 동적으로 재분류 및 재구성할 수 있게 한다(S300).

이와 같은 동적분류체계를 도 6의 흐름도를 참조하여 살펴보며, 도 7은 동적분류체계를 적용한 이메일 재분류 화면을 나타낸 것이다.

이메일을 동적분류체계로 구성하기 위해서는 색인어와 분류주제 간의 관계를 규정해야 한다. 그러나 색인어와 분류주제 간의 관계를 직접 결정할 수는 없으므로 색인어와 메일 간의 관계 및 메일과 분류주제 간의 관계에 의해서 결정한다. 이러한 관계는 상기의 유사도 계산 결과로부터 유도할 수 있다. 여기서, 이메일을 색인어로 구성된 퍼지 집합으로 간주 할 수 있고, 마찬가지 분류주제를 분류된 이메일들의 색인어들로 구성된 퍼지 집합으로 간주할 수 있다(S301).

이메일이 속한 두 분류주제 간의 관계는 생성된 두 분류주제의 퍼지 집합의 함의 정도를 계산하여 결정할 수 있다. 두 퍼지 집합의 함의 정도는 퍼지 함의 연산자를 이용하여 한 퍼지 집합이 다른 퍼지 집합에 포함되는 정도를 계산하여 구할 수 있고, 이를 이용하여 서로 다른 두 분류주제의 유사관계를 동적으로 생성할 수 있다(S302).

한편, 상기 퍼지 함의 연산자(Fuzzy Implication Operator)는 [0,1]×[0,1]→[0,1]로서 단위 구간의 다치 논리로 확장된 것이다. 퍼지 함의 연산자의 종류는 무수히 많으며 대표적인 Kleene-Diense 퍼지함의 연산자는 다음과 같다(Choi et al.,2003).

a→b = (1 a )∨b = max( 1 a , b ),

a = 0~1 , b = 0~1 (4)

본 발명에서는 상기 식(4)의 Kleen-Diense 퍼지 함의 연산자를 사용한다. 퍼지 함의 연산자를 식(5)의 퍼지관계곱을 적용하여 분류들 간의 퍼지함의 관계, C _i → C _j 를 유도할 수 있다.

여기서, K _k 는 k번째 검색어이고, C _i , C _j 는 i번째와 j번째 분류이며, C _iβ 는 C _i 의 β-제약, { x|μ _Cj (x) ≥β}이고 |C _iβ |는 C _iβ 의 원소의 갯수이다. R는 m× n행렬로서 R _ij 는 μ _Cj (K _i ), 즉, K _i ∈ C _j 인 정도이다. R ^T 는 행렬 R의 전치 행렬로서 R _ij = R ^T _ji 이다.

상기 퍼지 함의 연산자는 각 응용의 필요성에 맞게 제시되어야 하는데, 본 발명에서는 식(4)의 퍼지 함의 연산자를 사용한다. 퍼지 함의 연산자를 식(5)의 퍼지 관계곱을 적용하여 분류주제들 간의 퍼지 함의 관계, C _i → C _j를 유도할 수 있다. 이렇게 유도된 C _i → C _j는 C _i ⊆ C _j의 포함 정도를 나타낸다. 다음에는 분류간의 포함정도를 사용자가 재분류를 원할시 지정하는 α값 이상이면 1, 이하면 0으로 변환하는 α-cut하여 0과 1의 값으로 바꾸면 최종 결과로서 각 분류간의 관계를 얻을 수 있다. 여기서 α값을 조정하여 분류주제와 분류주제의 포함 관계를 동적으로 축 소하던지 확장할 수 있다.

다음은 상기 동적 분류부(300)에 의한 동적분류체계 방법을 적용하여 이메일을 재분류한 예이다.

β = 0.9일 때, π_m,β(C₅ ⊆ C₂)는 (R^T◁_βR)₅₂ = 0.82이고, π_m,β(C₃ ⊆ C₄)는 (R^T◁_βR)₃₄ = 0.42이다. 각 분류간 함의 관계는 β-제약 퍼지 관계곱에 의해 다음의 [표 1]의 (a), (b) 와 같이 설정될 수 있다

[표 1] 분류와 색인어의 β-제약 퍼지 관계곱

다음에 (R^T◁_βR)를 α으로 α-cut하여 0과 1값으로 바꾼다. [표 2]의 (a)는 (R^T◁_βR)를 0.82로 α-cut한 최종 결과이다. 즉, 0.82 미만의 값은 0이 되고 원래 0.82 이상인 값은 1이 된다. [표 2]의 (b)는 (R^T◁_βR) = 0.72로 α-cut한 최종결과이다.

[표 2] (R^T◁_βR)를 α으로 α-cut한 최종 결과

도 8은 상기 [표 2]에 의하여 얻어진 최종 결과로서 각 분류주제간 관계를 보여준다. α = 0.82일 때는 도 8a와 같으며, α = 0.76일 때는 도 8b와 같다. 도 8a에서 α = 0.82일 때, 분류주제 간의 함의 관계를 살펴보면, C ₄분류주제 항목은 모든 분류주제 항목의 상위분류이고, C ₁, C ₂, C ₅는 하위 분류주제이다. 또한, C ₁은 C ₂, C ₅에, C ₂은 C ₅에 대해서 동시에 하위분류주제로 구성된다. 이것은 일반 고정분류체계의 배타적 개념 대신 공유개념과 다중계승의 개념이 도입된 것이다.

즉, 분류주제 C ₁에 의해 분류되는 메일들은 상위 분류주제로서 C ₂ , C ₄ , C ₅를 공유하게 된다. 도 8b에서는 α = 0.76일 때, 분류간의 함의관계를 살펴보면, C ₄가 최상위 분류에 위치하며, α = 0.82일 때의 분류주제관계를 모두 포함하면서 하위분류주제 C ₁, C ₂, C ₃, C ₅로 확장된 것을 알 수 있다.

도 8과 같은 동적인 분류관계를 생성하면, 분류주제 안에 원하는 메일이 없을 때는 유사한 하위분류주제로 재구성 하여 검색할 수 있다. 그러나 위의 재분류는 분류내의 색인어들이 중복되어 나타나기 때문에 재현율은 높아지나 정확율이 낮아지는 문제가 있다. 이러한 문제를 해결하기 위해 분류 관계에 상기 유사도를 계 산하여 유사도가 낮은 분류는 제거하고 유사도가 높은 분류는 분류간 합병하여 정확율을 높이게 되는 것이다.

다음은 이와 같은 본 발명의 실험 및 이에 따른 분석결과를 살표본다.

본 발명에서는 펜티엄III 1.2GHz, 640Mb RAM상의 윈도우 XP환경에서 Visual C++6.0을 사용하여 제시된 방법을 구현하여 실험하였다. 실험자료는 2004년 4월 27일 ~ 5월 22일의 4주 동안의 수신된 227개의 메일을 대상으로 하였다. 실험은 이메일 다원분류에 이용된 k-NN 분류방법과 동적분류체계방법을 비교하여 성능평가 하였다. 성능평가 방법은 문서분류에서 이용되는 재현율, 정확률, F1척도를 사용하였으며 식은 다음과 같다(Ricardo and Berthier,1999).

[표 3] 분류의 적합성

실험은 동적분류체계 방법의 α값 변화에 따른 이메일의 재분류에 대한 성능평가를 하였으며, k-NN에 의한 이메일 분류는 이웃하는 메일의 수인 k를 이용하였다. 제안방법과 k-NN에 의한 평가 결과는 [표 4]와 같다.

[표 4] 제안방법과 k-NN을 이용한 이메일 분류 결과

[표 4]에서 보는 바와 같이 k-NN을 이용하여 이메일 분류시 k값이 작을 수록 재현율과 정확률이 높아지나, 재현율에 비하여 정확률은 상당히 낮다. 제안방법 역시 α값 작을 수 록 재현율과 정확률이 높아지며, k-NN 방법에 비하여 정확률이 높아지는 것을 알 수 있다.

자동 카테고리 생성에서는 생성된 카테고리 수를 k로 설정하여 k-NN을 이용한 성능 평가를 비교하면 결과가 같기 때문에 자동 카테고리 생성방법과는 비교 하지 않았다. 그러나 자동 카테고리 생성 방법을 이용하여 이메일 분류후 동적분류체계방법을 이용하여 재분류하는 결과가 k-NN방법에서 k값을 조절하면서 재분류하는 것보다 더욱 향상된 성능을 보이는 것을 [표 4]의 비교 결과로 알 수 있다.

상술한 바와 같이, 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위내에서 본 발명을 다양하게 수정 또는 변경하여 실시할 수 있다.

이상에서 살펴본 바와 같이, 본 발명에 따른 이메일 분류 시스템 및 방법은, 벡터모델의 유사도를 기반으로 한 자동 카테고리 생성 방법에 의해 이메일 분류주제가 자동 생성됨으로 수신된 메시지가 들어갈 비슷한 폴더를 찾을 수 있도록 사용자가 직접 메시지 폴더를 만드는 등의 사용자의 간섭이 필요 없으며, 분류주제, 분류주제에 의한 메일, 각 이메일의 색인어 관계를 동적분류체계 방법을 적용하여 사용자가 필요하면 언제든지 재분류할 수 있는 장점이 있다.

또한, 수신되는 이메일을 다원분류함으로 대량의 메일을 효율적으로 관리할 수 있게 됨은 물론, 학습이 필요 없기 때문에 수신 받는 즉시 자동으로 분류할 수 있는 유동적인 이메일 환경에 매우 적합한 장점이 있다.

Claims

이메일을 다원분류하는 시스템에 있어서,

수신된 이메일의 제목과 본문으로부터 색인어를 추출하는 전처리부;

상기 전처리부에서 추출된 색인어간의 유사도를 계산한 후, 유사도가 가장 높은 색인어를 대표색인어로 설정하여 이를 바탕으로 분류주제를 생성하는 자동 카테고리 생성부;

상기 자동 카테고리 생성부에 의해 얻어진 데이터로부터 동적분류체계를 적용하여 서로 다른 두 분류주제의 유사관계를 동적으로 생성하여 이메일을 재분류할 수 있도록 하는 동적 분류부;

상기 자동 카테고리 생성부에 의해 생성된 분류주제별로 수신받은 이메일을 자동분류하며, 유저의 요청에 따라 상기 동적 분류부에서 동적으로 생성된 두 분류주제의 유사관계를 바탕으로 이메일을 재분류 및 재구성하는 메일분류/분류재구성부;를 포함하는 것을 특징으로 하는 이메일 분류 시스템.
제 1 항에 있어서, 상기 유사도는 벡터 모델의 유사도인 것을 특징으로 하는 이메일 분류 시스템.
제 1 항에 있어서, 상기 동적 분류부는

이메일을 색인어로 구성된 퍼지 집합으로 간주하고, 분류주제를 분류된 이메일들의 색인어들로 구성된 퍼지 집합으로 간주하여, 이메일이 속한 두 분류주제 간의 관계를 두 분류주제의 퍼지 집합의 함의 정도를 계산하여 결정하는 것을 특징으로 하는 이메일 분류 시스템.
제 3 항에 있어서, 상기 동적 분류부는

상기 두 퍼지 집합의 함의 정도는 퍼지 함의 연산자를 이용하여 한 퍼지 집합이 다른 퍼지 집합에 포함되는 정도를 계산하여 구하고, 이를 이용하여 서로 다른 두 분류주제의 유사관계를 동적으로 생성하는 것을 특징으로 하는 이메일 분류 시스템.
제 4 항에 있어서, 상기 동적 분류부는

분류간의 포함정도를 α-cut하여 0과 1값으로 바꾸어 각 분류간의 관계를 얻는 것을 특징으로 하는 이메일 분류 시스템.
이메일을 다원분류하는 방법에 있어서,

수신된 이메일의 제목과 본문으로부터 색인어를 추출하는 색인어 추출단계;

상기 추출된 색인어간의 유사도를 계산한 후, 유사도가 가장 높은 색인어를 대표색인어로 설정하여 이를 바탕으로 분류주제를 생성하여 이메일을 자동분류하는 이메일 자동 분류 단계;를 포함하는 것을 특징으로 하는 이메일 분류 방법.
제 6 항에 있어서, 상기 유사도는 벡터 모델의 유사도인 것을 특징으로 하는 이메일 분류 방법.
이메일을 다원분류하는 방법에 있어서,

수신된 이메일의 제목과 본문으로부터 색인어를 추출하는 색인어 추출단계;

상기 추출된 색인어간의 유사도를 계산한 후, 유사도가 가장 높은 색인어를 대표색인어로 설정하여 이를 바탕으로 분류주제를 생성하여 분류주제별로 이메일을 자동분류하는 이메일 자동 분류 단계;

유저의 요청에 따라 상기 분류주제, 분류주제에 포함된 이메일, 각 이메일의 색인어 관계를 동적분류체계를 적용하여 재분류 및 재구성하는 이메일 재분류 단계;를 포함하는 것을 특징으로 하는 이메일 분류 방법.
제 8 항에 있어서, 상기 유사도는 벡터 모델의 유사도인 것을 특징으로 하는 이메일 분류 방법.
제 8 항에 있어서, 상기 이메일 재분류 단계는

이메일을 색인어로 구성된 퍼지 집합으로 간주하고, 분류주제를 분류된 이메일들의 색인어들로 구성된 퍼지 집합으로 간주하는 단계;

이메일이 속한 두 분류주제 간의 관계를 두 분류주제의 퍼지 집합의 함의 정도를 계산하여 결정하는 단계;로 이루어지는 것을 특징으로 하는 이메일 분류 방법.
제 10 항에 있어서, 상기 두 퍼지 집함의 함의 정도는 퍼지 함의 연산자를 이용하여 한 퍼지 집합이 다른 퍼지 집합에 포함되는 정도를 계산하여 구하고, 이를 이용하여 서로 다른 두 분류주제의 유사관계를 동적으로 생성하는 것을 특징으로 하는 이메일 분류 방법.
제 11 항에 있어서, 상기 분류간의 포함정도를 α-cut하여 0과 1값으로 바꾸어 각 분류간의 관계를 얻는 것을 특징으로 하는 이메일 분류 방법.