KR101955056B1

KR101955056B1 - 특징벡터 기반 전자문서 분류 방법

Info

Publication number: KR101955056B1
Application number: KR1020140195653A
Authority: KR
Inventors: 하영국; 김성민
Original assignee: 건국대학교 산학협력단
Priority date: 2014-12-31
Filing date: 2014-12-31
Publication date: 2019-05-31
Also published as: KR20160081604A

Abstract

본 발명은 특징벡터 기반 전자문서 분류 방법에 관한 것으로서, 본 발명에 따른 특징벡터 기반 전자문서 분류 방법은 사용자에 의해 복수의 그룹으로 분류된 복수의 전자문서에서 그룹 각각의 특징벡터를 결정하는 단계, 새로운 전자문서를 수신하는 경우 새로운 전자문서에 포함된 단어를 추출하여 문서벡터를 결정하는 단계, 그룹 각각의 특징벡터와 문서벡터를 연산하여 새로운 전자문서와 그룹 각각의 유사도를 결정하는 단계 및 그룹 각각의 유사도를 비교하여 새로운 전자문서를 유사도가 가장 큰 그룹으로 분류하는 단계를 포함하는 것을 특징으로 하며, 구축된 기존의 전자문서의 특징벡터와 새로운 전자문서의 문서벡터간의 연산을 통한 유사도를 바탕으로 새로운 전자문서를 분류하는 방법을 제공할 수 있다.

Description

특징벡터 기반 전자문서 분류 방법{METHOD FOR CLASSIFYING FEATURE VECTOR BASED ELECTRONIC DOCUMENT}

본 발명은 전자 문서를 분류하는 방법에 관한 것으로서, 보다 상세하게는 전자문서의 특징벡터를 기반으로 하여 전자문서를 분류하는 방법에 관한 것이다.

전자문서가 대중화되고 정보통신 기술이 발달하면서 매우 많은 전자문서들이 작성되고 공유되고 있으며, 작성 또는 공유되는 전자문서의 양 또한 계속 증가하는 추세이다.

하지만 기존의 전자문서를 분류하는 방법은 많은 연산량이 요구될 수 있었다. 따라서 분류될 전자문서의 수가 많아지면 전자문서 분류 시스템에 과부하가 걸리는 문제점이 있었다. 결국, 빅 데이터를 처리하거나 시스템의 성능이 우수하지 않은 모바일 기기와 같은 디바이스에서 기존의 전자문서 분류 시스템을 활용하기 어려운 문제점이 있었다.

따라서, 전자문서를 분류하는 방법이 보다 효율적이고 간단한 연산을 통해 이루어질 필요성이 부각되었다.

전자 소스로부터 특정 개체와 관련된 정보를 식별하는 방법, 시스템 및 장치 (공개특허공보 제 10-2010-0084510 호)

본 발명이 해결하고자 하는 과제는 기 분류된 전자문서의 특징벡터와 새로운 전자문서의 문서벡터간의 유사도를 바탕으로 새로운 전자문서를 분류하는 방법을 제공하는 것이다.

본 발명이 해결하고자 하는 다른 과제는 특징벡터와 문서벡터를 연산 시 사용자에 의해 선택된 특정 단어에 가중치를 부여하여 보다 정확하게 전자문서를 분류하는 방법을 제공하는 것이다.

본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 특징벡터 기반 전자문서분류 방법은, 사용자에 의해 복수의 그룹으로 분류된 복수의 전자문서에서 그룹 각각의 특징벡터를 결정하는 단계, 새로운 전자문서를 수신하는 경우 새로운 전자문서에 포함된 단어를 추출하여 문서벡터를 결정하는 단계, 그룹 각각의 특징벡터와 문서벡터에 기초하여 그룹 각각에 대한 새로운 전자문서의 유사도를 결정하는 단계 및 그룹 각각의 유사도를 비교하여 새로운 전자문서를 유사도가 가장 큰 그룹으로 분류하는 단계를 포함하는 것을 특징으로 한다.

본 발명의 다른 특징에 따르면, 특징벡터를 결정하는 단계는, 그룹에 속하는 모든 전자문서에 출현하는 단어를 수집하는 단계, 그룹에 속하는 전자문서 각각의 단어 별 출현 여부를 확인하는 단계 및 단어 각각의 그룹에 속하는 전자문서에서의 출현 확률에 따른 특징벡터를 산출하는 단계를 포함하는 것을 특징으로 한다.

본 발명의 다른 특징에 따르면, 전자문서는 전자메일문서이고, 복수의 그룹 각각은 일반전자메일문서와 스팸전자메일문서로 구분되는 것을 특징으로 한다.

본 발명의 다른 특징에 따르면, 유사도를 결정하는 단계는 특징벡터와 문서벡터를 연산할 때 새로운 전자문서의 단어의 출현 빈도를 곱하여 가중치를 부여하는 것을 특징으로 한다.

본 발명의 다른 특징에 따르면, 유사도를 결정하는 단계는 특징벡터와 문서벡터에 기초하여 유사도를 결정할 때, 사용자에 의해 선택된 특정 단어에 가중치를 부여하는 것을 특징으로 한다.

기타 실시예의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

본 발명이 해결하고자 하는 과제는 기 분류된 기존의 전자문서의 특징벡터와 새로운 전자문서의 문서벡터간의 유사도를 바탕으로 새로운 전자문서를 보다 정확하게 분류하는 방법을 제공할 수 있다.

본 발명이 해결하고자 하는 다른 과제는 특징벡터와 문서벡터를 연산 시 사용자에 의해 선택된 특정 단어에 가중치를 부여하여 전자문서를 분류하는 방법을 제공할 수 있다.

본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.

도 1 은 본 발명의 일 실시예에 따른 전자문서의 페이지데이터 관리 장치의 구성도이다.
도 2 는 본 발명의 일 실시예에 따른 특징벡터 기반 전자문서분류 방법의 동작 순서도이다.
도 3a 내지 도 4b 는 본 발명의 일 실시예에 따른 특징벡터를 설명하기 위한 도면들이다.
도 5a 내지 5d 는 본 발명의 일 실시예에 따른 유사도를 결정하는 방법을 예를 들어 설명하기 위한 도면들이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

비록 제 1, 제 2 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제 1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하며, 당업자가 충분히 이해할 수 있듯이 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.

이하, 첨부된 도면을 참조하여 본 발명의 다양한 실시예들을 상세히 설명한다.

도 1 은 본 발명의 일 실시예에 따른 전자문서의 페이지데이터 관리 장치의 구성도이다. 도 1 을 참조하면, 특징벡터 기반 전자문서분류 장치 (100) 는 프로세서 (110), 저장부 (120) 및 메모리 (130) 를 포함한다.

특징벡터 기반 전자문서분류 장치 (100) 는 저장부 (120) 에 저장된 기 분류된 복수의 전자문서 그룹 각각의 특징벡터를 결정하고, 새로운 전자문서의 문서벡터를 결정하고, 특징벡터와 문서벡터에 기초하여 기 분류된 전자문서 그룹과 새로운 전자문서의 유사도를 결정하여 새로운 전자문서를 분류하는 컴퓨팅 디바이스이다. 특징벡터 기반 전자문서분류 장치 (100) 는 개인용 PC, 테블릿 PC, 스마트폰, 노트북 PC 등과 같은 다양한 형태의 장치일 수 있다.

본 명세서의 전자문서는 다양한 형태의 전자문서일 수 있으며, 예를 들어, 워드프로세서문서, 엑셀문서, 파워포인트문서, 전자메일문서 등과 같은 문서일 수 있다.

본 명세서에서 ‘특징벡터’ 란, 전자문서 기 분류된 그룹에서의 각각 단어의 출현 확률을 기록한 확률벡터를 의미한다.

본 명세서에서 ‘문서벡터’ 란, 새로운 전자문서의 단어의 출현 여부를 표시한 확률벡터를 의미한다.

프로세서 (110) 는 특징벡터 기반 전자문서분류 장치 (100) 에서 다양한 연산을 수행한다. 특징벡터 기반 전자문서분류 장치 (100) 는 프로세서 (110) 를 통해 기 분류된 복수의 전자문서 그룹 각각의 특징벡터를 결정하고, 새로운 전자문서의 문서벡터를 결정하고, 특징벡터와 문서벡터에 기초하여 전자문서 그룹과 새로운 전자문서의 유사도를 결정하여 새로운 전자문서를 분류할 수 있다. 상술한 동작에 대해서는 도 2 를 참조하여 상세하게 후술한다.

저장부 (120) 는 특징벡터 기반 전자문서분류 장치 (100) 에서 데이터를 저장하는 저장 매체이다. 특징벡터 기반 전자문서분류 장치 (100) 는 저장부 (120) 에 전자문서 데이터를 저장할 수 있다. 저장부 (120) 는 다양한 범용 저장장치를 포함할 수 있다.

메모리 (130) 는 특징벡터 기반 전자문서분류 장치 (100) 에서 처리하고자 하는 데이터를 일시적으로 저장한다. 특징벡터 기반 전자문서분류 장치 (100) 는 메모리 (130) 에 전자문서 데이터, 특징벡터, 문서벡터를 일시적으로 저장한 후 프로세서 (110) 를 통해 처리할 수 있다.

도 2 는 본 발명의 일 실시예에 따른 특징벡터 기반 전자문서분류 방법의 동작 순서도이다. 설명의 편의를 위해 도 1, 도 3a 내지 도 5d 를 함께 참조하여 설명한다.

본 발명의 일 실시예에 따른 특징벡터 기반 전자문서분류 방법은 특징벡터 기반 전자문서분류 장치 (100) 가 사용자에 의해 복수의 그룹으로 분류된 복수의 전자문서에서 그룹 각각의 특징벡터를 결정함으로써 개시된다 (S210).

특징벡터 기반 전자문서분류 장치 (100) 는 사용자에 의해 분류된 그룹 각각에 속하는 모든 전자문서에 출현하는 단어를 수집한다. 예를 들어, 사용자가 수신된 전자메일문서를 일반전자메일문서와 스팸전자메일문서로 구분한 경우 벡터 기반 전자문서분류 장치는 일반전자메일문서 그룹과 스팸전자메일문서 그룹의 전자문서에 포함된 모든 단어를 수집할 수 있다. 수집된 단어는 조사를 생략한 명사, 동사, 형용사, 부사 등의 원형을 기준으로 저장부 (120) 에 저장될 수 있다.

특징벡터 기반 전자문서분류 장치 (100) 는 전체 전자문서에 포함된 단어를 모두 수집한 이후에 그룹에 속하는 전자문서 각각의 단어 별 출현 여부를 확인한다. 예를 들어 특징벡터 기반 전자문서분류 장치 (100) 는 전체 전자문서에서 N개의 단어가 수집되었다면 전자문서 각각에 N개의 단어 중 단어 각각의 포함 여부를 후술할 도 3a 와 같이 확인할 수 있다.

예를 들어, 도 3a 내지 도 4b 는 본 발명의 일 실시예에 따른 특징벡터를 설명하기 위한 도면이다. 도 3a 를 참조하면, 사용자에 의해 일반전자메일문서로 분류된 그룹에서 특징벡터 기반 전자문서분류 장치 (100) 가 전자문서 각각의 단어 별 출현 여부를 확인하는 실시예를 도시한다. 가로축 (310) 에는 모든 전자문서에 출현하는 모든 단어를 나열한 것이고 세로축 (320) 에는 전자문서 각각을 나열한 것이다. 따라서 도 3a 를 통해 전자문서 각각의 단어가 전자문서에 포함 되었는지 여부를 확인할 수 있다. 또한 전체문서 (330) 섹션에는 단어 각각의 일반전자메일문서 그룹의 전자문서에서 출현한 횟수를 기록한 것이다. 즉 A 단어는 일반전자메일문서 그룹의 전자문서 중 47개의 문서에서 출현하였으며, B 단어는 일반전자메일문서 그룹의 전자문서 중 45개의 전자문서에서 출현하였으며, 다른 단어 역시 도 3a 를 통해 그 출현 횟수를 확인할 수 있다.

도 4a 를 참조하면, 사용자에 의해 스팸전자메일문서로 분류된 그룹에서 전자문서 각각의 단어 별 출현 여부를 확인하는 실시예를 도시한다. 가로축 (410) 에는 모든 전자문서에 출현하는 모든 단어를 나열한 것이고 세로축 (420) 에는 전자문서 각각을 나열한 것이다. 도 3a 의 일반전자메일문서와 비교하여 도 4a 의 스팸전자메일문서는 상이한 단어 출현 횟수를 갖는다는 것을 전체문서 (330) 섹션과 전체문서 (430) 섹션을 비교함으로써 확인할 수 있다.

특징벡터 기반 전자문서분류 장치 (100) 는 전자문서 각각의 단어 별 출현 횟수가 확인되면 확인된 출현 횟수를 그룹의 전자문서의 수로 나누어 단어 각각의 그룹에 속하는 전자문서에서의 출현 확률에 따른 특징벡터를 산출할 수 있다. 특징벡터는 저장부 (120) 에 저장된 단어의 순서에 따라서 확률을 표시한 형식으로 표현될 수 있다. 도 3b 를 참조하면 특징벡터 기반 전자문서분류 장치 (100) 는 일반전자메일문서 전체의 단어 각각의 출현 횟수를 일반전자메일문서 전체의 개수인 50으로 나눈 값을 기록한 형식의 특징벡터 (340) 로 표현될 수 있다. 또한 도 4b 를 참조하면 특징벡터 기반 전자문서분류 장치 (100) 는 스팸전자메일문서 전체의 단어 각각의 출현 횟수를 스팸전자메일문서 전체의 개수인 50 으로 나눈값을 기록한 형식의 특징벡터 (440) 로 표현될 수 있다. 다만 도 3b 및 4b 에 표시된 특징벡터는 예시에 불과하며 다른 형식으로 표현될 수도 있다.

본 발명의 몇몇 실시예에 따르면, 특징벡터 기반 전자문서분류 장치 (100) 는 특징벡터를 문서 각각의 단어 출현횟수에 따라서 가중치를 부여하여 결정할 수 있으며, 또는 사용자의 의사나 임의의 규칙에 따라서 특정 단어에 가중치를 부여하여 특징벡터를 결정할 수 있다.

다음으로, 특징벡터 기반 전자문서분류 장치 (100) 는 특징벡터가 결정된 이후, 새로운 전자문서를 수신하는 경우 새로운 전자문서에 포함된 단어를 추출하여 문서벡터를 결정한다 (S220).

문서벡터는 특징벡터와 동일한 차원을 갖는 벡터로 표시되며 문자의 유무에 따라서 ‘1’ 또는 ‘0’ 의 값을 갖는다. 다만 기록되는 순서는 특징벡터와 동일한 순서로 저장될 수 있다.

다음으로, 특징벡터 기반 전자문서분류 장치 (100) 는 그룹 각각의 특징벡터와 문서벡터를 연산하여 새로운 전자문서와 그룹 각각의 유사도를 결정한다 (S230).

도 5a 내지 5d 는 본 발명의 일 실시예에 따른 유사도를 결정하는 방법을 예를 들어 설명하기 위한 도면이다.

도 5a 를 참조하면, 새로운 전자문서가 수신된 경우 새로운 전자문서의 단어 별 출현 여부를 확인하는 예를 도시한다. 새로운 전자문서를 수신하는 경우 특징벡터와 동일한 순서에 따라서 단어 별 출현 여부를 확인한다. 가로축 (510) 에는 모든 전자문서에 출현하는 단어를 나열한 것이고 단어의 배열 순서는 특징벡터의 순서와 동일하다.

새로운 전자문서의 단어 별 출현 여부를 확인하였으면, 확인 결과에 따라서 문서벡터를 결정한다. 도 5b 를 참조하면, 새로운 전자문서가 수신된 경우 새로운 전자문서의 문서벡터를 생성하는 예를 도시한다. 수신메일 문서벡터 (530) 는 단어 출연 여부에 따라서 출현하였으면 ‘1’ 로 출현하지 않았으면 ‘0’ 으로 기록한다. 다만 도 5b 에 표시된 수신메일 문서벡터 (530) 는 예시에 불과하며 다른 형식으로 표현될 수도 있다.

특징벡터와 문서벡터를 연산하는 방법은 특징벡터와 문서벡터의 동일한 열의 값을 곱하며, 곱한 값을 모두 더하여 유사도를 결정한다. 또한, 그룹은 복수이므로 각각의 그룹마다 유사도를 결정한다.

예를 들어, 도 5c 를 참조하면, 일반전자메일문서의 특징벡터 (340) 와 문서벡터 (530) 를 연산하여 일반전자메일문서와 새로운 전자문서와의 유사도를 결정할 수 있다. 우선 1 열의 특징벡터 (340) 와 문서벡터 (530) 의 값은 각각 0.94 및 1 이므로 두수의 곱은 0.94 이다. 그리고 2 열의 특징벡터 (340) 와 문서벡터 (530) 의 값은 각각 0.90 및 0 이므로 두수의 곱은 0 이다. 그리고 3열의 특징벡터 (340) 와 문서벡터 (530) 의 값은 각각 0.86 및 1 이므로 두수의 곱은 0.86 이다. 이처럼 특징벡터 (340) 와 문서벡터 (530) 의 동일한 열의 값을 곱한 값을 모두 더하여 일반전자메일문서와 새로운 전자문서와의 유사도를 결정할 수 있다. 도 5c 의 경우 일반전자메일문서와 새로운 전자문서와의 유사도는 26.7 로 결정될 수도 있다.

다른 예를 들어, 도 5d 를 참조하면, 스팸전자메일문서의 특징벡터 (440) 과 문서벡터 (530) 을 연산하여 스팸전자메일문서와 새로운 전자문서와의 유사도를 결정할 수 있다. 우선 1 열의 특징벡터 (440) 와 문서벡터 (530) 의 값은 각각 0.28 및 1 이므로 두수의 곱은 0.28 이다. 그리고 2 열의 특징벡터 (440) 와 문서벡터 (530) 의 값은 각각 0.10 및 0 이므로 두수의 곱은 0 이다. 그리고 3 열의 특징벡터 (440) 와 문서벡터 (530) 의 값은 각각 0.16 및 1 이므로 두수의 곱은 0.16 이다. 이처럼 특징벡터 (440) 와 문서벡터 (530) 의 동일한 열의 값을 곱한 값을 모두 더하면 스팸전자메일문서와 새로운 전자문서와의 유사도를 결정할 수 있다. 도 5d 의 경우 스팸전자메일문서와 새로운 전자문서와의 유사도는 10.3 으로 결정될 수도 있다.

상술한 바와 같이, 특징벡터 기반 전자문서분류 장치 (100) 는 특징벡터와 문서벡터의 동일한 열의 값을 곱한 값을 모두 더하는 연산을 통해 유사도를 결정한다. 이러한 연산이 기존의 유사도를 결정하는 연산에 비해 연산이 단순하여 보다 빠르게 유사도를 결정할 수 있으며, 또한 시스템의 부하를 줄일 수 있다는 본 발명의 유리한 효과가 획득된다.

다음으로, 특징벡터 기반 전자문서분류 장치 (100) 는 그룹 각각의 유사도를 비교하여 새로운 전자문서와 그룹 각각의 유사도를 비교하여 새로운 전자문서를 유사도가 가장 큰 그룹으로 분류한다 (S240).

유사도가 클수록 해당 그룹에 포함된 단어가 포함된 확률이 높다고 할 수 있고 해당 그룹의 단어가 다수 포함되어 있다면 새로운 전자문서가 해당 그룹에 속할 가능성이 높다고 할 수 있다. 따라서 특징벡터 기반 전자문서분류 장치 (100) 는 유사도가 가장 큰 그룹으로 새로운 전자문서를 분류할 수 있다.

다시 도 5c 및 도 5d 를 참조하면, 새로운 전자문서의 일반전자메일문서와의 유사도는 26.7 이고 스팸전자메일문서와의 유사도는 10.3 이므로 특징벡터 기반 전자문서분류 장치 (100) 는 새로운 전자문서를 일반전자메일문서로 분류 될 수 있다.

본 발명의 몇몇 실시예에 의하면, 사용자는 전자문서를 3개 이상을 그룹으로 구분할 수 있으며, 특징벡터 기반 전자문서분류 장치 (100) 는 3 개 이상의 그룹 중 가장 유사도가 큰 그룹으로 새로운 전자문서를 분류할 수 있다.

본 명세서에서, 각 블록 또는 각 단계는 특정된 논리적 기능 (들) 을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또한, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.

본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서에 의해 실행되는 하드웨어, 소프트웨어 모듈 또는 그 2 개의 결합으로 직접 구현될 수도 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM 또는 당업계에 알려진 임의의 다른 형태의 저장 매체에 상주할 수도 있다. 예시적인 저장 매체는 프로세서에 커플링되며, 그 프로세서는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로 (ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형실시될 수 있다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100 : 특징벡터 기반 전자문서분류 장치
110 : 저장부
120 : 프로세서
130 : 메모리

Claims

사용자에 의해 복수의 그룹들 각각으로 분류된 복수의 전자문서에서 상기 복수의 그룹들 각각의 특징벡터를 결정하는 단계;
새로운 전자문서를 수신하는 경우, 상기 새로운 전자문서에 포함된 단어를 추출하여 문서벡터를 결정하는 단계;
상기 복수의 그룹들 각각의 상기 특징벡터와 상기 문서벡터에 기초하여 상기 복수의 그룹들 각각에 대한 새로운 전자문서의 유사도를 결정하는 단계; 및
상기 그룹 각각의 유사도를 비교하여 상기 새로운 전자문서를 유사도가 가장 큰 그룹으로 분류하는 단계를 포함하는 것을 특징으로 하고,
상기 유사도는 상기 특징벡터 및 상기 문서벡터에서 각각 동일한 열에 존재하는 값을 곱하고 상기 동일한 열 각각의　곱한 값을　합산하여 산출되고,
상기 유사도를 결정하는 단계는,
상기 특징벡터와 상기 문서벡터에 기초하여 유사도를 결정할 때, 상기 새로운 전자문서의 단어의 출현 빈도를 곱하여 가중치를 부여하는 것을 특징으로 하고,
상기 복수의 그룹들 각각의 특징 벡터를 결정하는 단계는,
상기 복수의 전자문서들 각각의 단어별 출현 횟수를 확인하고, 상기 확인된 단어별 출현 횟수를 상기 복수의 그룹들 각각에 속하는 전체 전자 문서의 개수로 나눈 값에 상기 단어별 출현 횟수에 따라 가중치를 부여하여 상기 복수의 그룹들 각각의 특징벡터를 결정하는 단계이며,
상기 복수의 그룹들 각각에 대한 새로운 전자문서의 유사도를 결정하는 단계는,
상기 복수의 전자 문서들 각각에 출현한 적어도 하나의 단어가 상기 새로운 전자문서에 출현하는지를 확인하고, 상기 새로운 전자 문서의 단어별 출현 여부를 나타내는 문서벡터를 결정하는 단계를 포함하며,
상기 새로운 전자문서의 유사도를 결정하는 단계는,
상기 복수의 그룹들 각각의 특징벡터와 상기 문서벡터에서 각각 동일한 열에 존재하는 값을 곱하고, 상기 동일한 열 각각의 곱한 값을 합산하여 상기 복수의 그룹들 각각에 대한 새로운 전자문서의 유사도를 결정하는 단계인, 특징벡터 기반 전자문서분류 방법.
삭제
제 1 항에 있어서,
상기 전자문서는 전자메일문서이고,
상기 복수의 그룹 각각은 일반전자메일문서와 스팸전자메일문서로 구분되는 것을 특징으로 하는, 특징벡터 기반 전자문서 분류 방법.
삭제
제 1 항에 있어서,
상기 유사도를 결정하는 단계는,
상기 특징벡터와 상기 문서벡터를 연산할 때 사용자에 의해 선택된 특정 단어에 가중치를 부여하는 것을 특징으로 하는, 특징벡터 기반 전자문서 분류 방법.