KR101983975B1

KR101983975B1 - 문장 분류에 기반하는 문서 자동분류 방법 및 그 장치

Info

Publication number: KR101983975B1
Application number: KR1020170050598A
Authority: KR
Inventors: 이훈석; 안순홍; 이지민; 이상원; 박진표
Original assignee: 아시아나아이디티 주식회사
Priority date: 2017-04-19
Filing date: 2017-04-19
Publication date: 2019-05-30
Also published as: KR20180117458A

Abstract

본 발명의 다양한 실시 예는 문장 분류에 기반하는 문서 자동분류 방법 및 그 장치에 관한 것이다. 일 실시 예에 따르면, 문장 분류에 기반하는 문서 자동분류 방법은, 입력된 문서를 문장 단위로 분류하는 단계; 분류된 문장들 중 적어도 하나의 문장에 대하여 키워드를 추출하는 단계; 추출된 상기 키워드에 기반하여 상기 적어도 하나의 문장에 대한 카테고리를 결정하는 단계; 및 상기 적어도 하나의 문장에 대하여 결정된 카테고리에 기반하여 상기 문서의 카테고리를 결정하는 단계;를 포함한다.

Description

문장 분류에 기반하는 문서 자동분류 방법 및 그 장치{METHOD FOR AUTOMATIC DOCUMENT CLASSIFICATION USING SENTENCE CLASSIFICATION AND DEVICE THEREOF}

본 발명의 다양한 실시 예는 문장 분류에 기반하는 문서 자동분류 방법에 관한 것으로, 더욱 상세하게는 입력된 문서의 문장을 분류하고 분류된 문장에 기반하여 문서를 분류하는 방법에 관한 것이다.

하지만, 작성자에 따라서 문서를 작성하는 방법과 문서의 형식은 너무나도 다양하고, 인력을 통하여 접수되는 문서들 모두를 체크하고 카테고리 또는 주제를 판단하는 것에는 한계가 존재한다.

특히 기업의 경우, 고객으로부터 수신하는 다양한 문서들로부터 시스템의 문제점, 불편한 점 등을 파악하고 개선하여 보다 나은 서비스를 제공하기 위하여, 시스템을 통해서 문서를 빠르게 분류하고, 문서의 주제를 출력하는 기술이 필수적으로 요구되고 있다.

특허문헌 제10-1681109호는 문서에서 의미 있는 단어를 추출하고, 단어의 출현 횟수와 문서의 수에 따른 각 단어의 가중치를 산출하고, 가중치가 높은 단어들에 대하여 연관용어 집합을 구성하고 분야별 대표 색인어를 추출하고, 추출된 대표 색인어와 문서간의 유사도를 이용하여 문서를 자동으로 분류하는, 대표 색인어와 유사도를 이용한 문서 자동 분류 방법을 개시하고 있지만,

문서 전체에서 단어의 출현 횟수에 따라서 가중치를 산출하고, 산출된 가중치에 따라서 대표 색인어를 추출하고, 대표 색인어에 따라서 문서를 분류하는, 즉, 많이 출현된 단어에 따라서 문서를 분류하는 것을 개시할 뿐, 문서 작성자의 의도를 정확히 판단하고 문서를 분류하는 것에 여전히 기술적 한계가 존재한다.

10-1681109 (등록특허공보)

본 발명의 다양한 실시 예에 따르면, 문서에 포함된 문장을 이용하여 작성자의 목적, 또는 의도에 부합하도록 문서의 카테고리를 분류하는, 문장 분류에 기반하는 문서 자동분류 방법 및 그 장치를 제공할 수 있다.

본 발명의 다양한 실시 예에 따르면, 문서에 포함된 문장을 이용하여 문서의 카테고리를 결정하는, 문장 분류에 기반하는 문서 자동분류 방법 및 그 장치를 제공할 수 있다.

본 발명의 일 실시 예에 따르면, 입력된 문서를 문장 단위로 분류하는 단계; 분류된 문장들 중 적어도 하나의 문장에 대하여 키워드를 추출하는 단계; 추출된 상기 키워드에 기반하여 상기 적어도 하나의 문장에 대한 카테고리를 결정하는 단계; 및 상기 적어도 하나의 문장에 대하여 결정된 카테고리에 기반하여 상기 문서의 카테고리를 결정하는 단계;를 포함하는, 문장 분류에 기반하는 문서 자동분류 방법을 제공한다.

다양한 실시 예에 따르면, 상기 입력된 문서를 문장 단위로 분류하는 단계는, 마침표, 쉼표, 콜론, 세미콜론의 문장부호 중 적어도 하나에 기반하여 문장을 분류할 수 있다.

또한, 상기 키워드는, 상기 적어도 하나의 문장에 포함된 단어들 중 기 설정된 단어와 매칭되는 적어도 하나의 단어를 포함할 수 있다.

또한, 상기 추출된 상기 키워드에 기반하여 상기 적어도 하나의 문장에 대한 카테고리를 결정하는 단계는, 상기 적어도 하나의 문장에 대한 카테고리의 정확도와 관련된 수치를 결정하는 단계;를 더 포함할 수 있다.

또한, 상기 적어도 하나의 문장에 대한 카테고리를 결정하는 단계는, 둘 이상의 문장에 대하여 각각의 문장에 결정된 카테고리 및 상기 각각의 문장에 대하여 결정된 카테고리의 정확도와 관련된 수치에 기반하여 카테고리 각각에 대한 결과값 리스트를 생성하는 단계를 더 포함할 수 있다.

또한, 상기 문서의 카테고리는, 둘 이상의 문장에 대하여 각각의 문장에 결정된 카테고리 및 상기 각각의 문장에 대하여 결정된 카테고리의 정확도와 관련된 수치 중 적어도 일부에 기반하여 결정될 수 있다.

또한, 상기 문서의 카테고리를 결정하는 단계는, 추출된 상기 키워드 중 적어도 일부에 설정된 가중치에 기반하여 상기 가중치가 부여된 키워드에 대응되는 카테고리의 정확도와 관련된 수치를 변경할 수 있다.

또한, 상기 문서의 카테고리를 결정하는 단계는, 둘 이상의 문장에 대한 카테고리의 정확도와 관련된 수치에 기반하여 상기 문서에 대한 제1순위 카테고리 및 제2순위 카테고리를 결정하는 단계; 및 상기 제2순위 카테고리가 상기 제1순위 카테고리보다 상위 카테고리인 경우 상기 제2순위 카테고리를 상기 문서의 카테고리로 결정하는 단계;를 포함할 수 있다.

또한, 상기 문서의 카테고리를 결정하는 단계는, 둘 이상의 문장에 대한 카테고리의 정확도와 관련된 수치에 기반하여 상기 문서에 대한 제1순위 카테고리 및 제2순위 카테고리를 결정하는 단계; 및 상기 제1순위 카테고리의 정확도와 관련된 수치와 제2순위 카테고리의 정확도와 관련된 수치가 지정된 수치범위 내인 경우, 상기 제1순위 카테고리 및 상기 제2순위 카테고리를 상기 문서의 카테고리로 결정하는 단계;를 포함할 수 있다.

한편, 본 발명의 일 실시 예에 따르면, 입력된 문서를 문장 단위로 분류하는 문장 처리부; 분류된 문장들 중 적어도 하나의 문장에 대하여 키워드를 추출하고, 추출된 상기 키워드에 기반하여 상기 적어도 하나의 문장에 대한 카테고리를 결정하는 키워드 추출부; 및 상기 적어도 하나의 문장에 대하여 결정된 카테고리에 기반하여 상기 문서의 카테고리를 결정하는 카테고리 결정부;를 포함하는, 문장 분류에 기반하는 문서 자동분류 장치를 제공한다.

다양한 실시 예에 따르면, 상기 문장 처리부는, 마침표, 쉼표, 콜론, 세미콜론의 문장부호 중 적어도 하나에 기반하여 상기 입력된 문서를 문장 단위로 분류할 수 있다.

또한, 상기 키워드 추출부는, 상기 적어도 하나의 문장에 포함된 단어들 중 기 설정된 단어와 매칭되는 적어도 하나의 단어를 상기 키워드에 포함할 수 있다.

또한, 상기 키워드 추출부는, 상기 적어도 하나의 문장에 대한 카테고리의 정확도와 관련된 수치를 결정할 수 있다.

또한, 상기 키워드 추출부는, 둘 이상의 문장에 대하여 각각의 문장에 결정된 카테고리 및 상기 각각의 문장에 대하여 결정된 카테고리의 정확도와 관련된 수치에 기반하여 카테고리 각각에 대한 결과값 리스트를 생성할 수 있다.

또한, 상기 카테고리 결정부는, 둘 이상의 문장에 대하여 각각의 문장에 결정된 카테고리 및 상기 각각의 문장에 대하여 결정된 카테고리의 정확도와 관련된 수치 중 적어도 일부에 기반하여 상기 문서의 카테고리를 결정할 수 있다.

또한, 문장 분류에 기반하는 문서 자동분류 장치는, 추출된 상기 키워드 중 적어도 일부에 설정된 가중치에 기반하여 상기 가중치가 부여된 키워드에 대응되는 카테고리의 정확도와 관련된 수치를 변경하는 가중치 처리부;를 더 포함할 수 있다.

또한, 문장 분류에 기반하는 문서 자동분류 장치는, 둘 이상의 문장에 대한 카테고리의 정확도와 관련된 수치에 기반하여 상기 문서에 대한 제1순위 카테고리 및 제2순위 카테고리를 결정하고, 상기 제2순위 카테고리가 상기 제1순위 카테고리보다 상위 카테고리인 경우 상기 제2순위 카테고리를 상기 문서의 카테고리로 결정하는 레벨링 처리부;를 더 포함할 수 있다.

또한, 상기 카테고리 결정부는, 둘 이상의 문장에 대한 카테고리의 정확도와 관련된 수치에 기반하여 상기 문서에 대한 제1순위 카테고리 및 제2순위 카테고리를 결정하고, 상기 제1순위 카테고리의 정확도와 관련된 수치와 제2순위 카테고리의 정확도와 관련된 수치가 지정된 수치범위 내인 경우, 상기 제1순위 카테고리 및 상기 제2순위 카테고리를 상기 문서의 카테고리로 결정할 수 있다.

본 발명의 다양한 실시 예에 따르면, 입력된 문서의 카테고리를 문장 단위로 분류하고, 분류된 문장 단위로 카테고리를 결정하고 이를 종합하여 가장 우선순위의 카테고리를 결정함으로써 고객의 요구를 효과적으로 확인할 수 있다.

본 발명의 다양한 실시 예에 따르면, 수신한 문서를 분류함에 있어서, 각각의 문장에 대하여 카테고리와 정확도를 결정하고, 문장에 포함된 키워드에 기반하여 결정된 카테고리에 가중치를 부여하고, 카테고리에 대하여 지정된 우선순위를 고려하는 동작을 통해서 최종적으로 결정되는 문서에 대한 카테고리의 정확도를 향상시킬 수 있다.

도 1은 본 발명의 일 실시 예에 따른 문서분류방법의 세부 구성 요소를 도시한다.
도 2는 본 발명의 일 실시 예에 따른 문서분류방법에서 입력되는 문서, 분류된 분장에 기반하는 다양한 리스트 및 리스트, 그리고 그에 기반하여 문서의 카테고리를 결정하는 처리 프로세스를 도시한다.
도 3은 본 발명의 일 실시 예에 따른 문서분류방법에서 문장에 포함된 키워드에 기반하여 가중치가 적용된 리스트 및 리스트, 그리고 그에 기반하여 문서의 카테고리를 결정하는 처리 프로세스를 도시한다.
도 4는 본 발명의 일 실시 예에 따른 문서분류방법에서 카테고리의 우선순위에 따라서 문서의 카테고리를 결정하는 처리 프로세스를 도시한다.
도 5는 본 발명의 일 실시 예에 따른 문서분류방법에서 카테고리의 정확도와 관련된 수치에 따라서 문서의 카테고리를 결정하는 처리 프로세스를 도시한다.
도 6은 본 발명의 일 실시 예에 따른 문서분류방법에서 카테고리를 결정하는데 작용된 키워드를 결정하는 처리 프로세스를 도시한다.
도 7은 본 발명의 일 실시 예에 따른 문서분류장치의 구성 요소를 도시한다.
도 8은 본 발명의 일 실시 예에 따른 문서분류장치에서 입력된 문서의 문장 분류에 기반하여 문서를 분류하는 동작의 흐름을 도시한다.

이하, 첨부한 도면을 참고로 하여 본 발명의 다양한 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 특정 실시 예가 도면에 예시되고, 관련된 상세한 설명이 기재될 수 있다, 그러나, 이는 본 발명을 특정한 실시 형태에 대하여 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경 및/또는 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략할 수 있고, 명세서 전체를 통하여 동일 또는 유사한 구성 요소에 대해서는 동일한 참조 부호를 사용할 수 있다.

본 발명의 다양한 실시 예에서, '또는', '적어도 하나' 등의 표현은 함께 나열된 단어들 중 하나를 나타내거나, 또는 둘 이상의 조합을 나타낼 수 있다. 예를 들어, 'A 또는 B', 'A 및 B 중 적어도 하나'는 A 또는 B 중 하나만을 포함할 수도 있고, A와 B를 모두 포함할 수도 있다.

본 발명의 다양한 실시 예에서 어떤 구성 요소가 다른 구성 요소에 '연결'되어 있다거나 '접속'되어 있다고 언급된 경우, 구성 요소들은 직접적으로 연결되어 있거나 접속되어 있을 수 있지만, 구성 요소들 사이에 적어도 하나의 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면, 어떤 구성 요소가 다른 구성 요소에 '직접 연결'되어 있다거나, '직접 접속'되어 있다고 언급된 경우, 구성 요소들 사이는 다른 구성 요소가 존재하지 않는 것으로 이해될 수 있어야 할 것이다.

본 발명의 다양한 실시 예에서 사용되는 용어들은 특정 일 실시 예를 설명하기 위한 것으로, 본 발명을 한정하는 것으로 해석되어서는 안되며, 예를 들어, 단수의 표현은 문맥상 명백하게 다른 것으로 명시되지 않는 한 복수의 표현을 포함할 수 있을 것이다.

이하, 도 1 내지 도 6을 참조하여 입력된 문서의 문장을 분류하고, 분류된 문장에 기반하여 문서를 분류하는 문서 자동분류 방법(이하, 문서분류방법)을 설명한다. 여기서 문서를 분류하는 동작은, 문서의 카테고리를 결정하는 동작으로 설명할 수 있다.

도 1은 본 발명의 일 실시 예에 따른 문서분류방법에서 문서를 처리하는 세부 구성 요소들의 블럭도를 도시한다.

일 실시 예에 따르면, 문서분류방법(100)은 복수의 세부 구성 요소로 구분하여 설명될 수 있다. 예를 들면, 문서분류방법(100)은 문장 처리(101) 동작, 키워드 추출(103) 동작, 가중치 처리(105) 동작, 레벨링 처리(107) 동작 및 카테고리 결정(109) 동작 중 적어도 하나의 동작을 수행할 수 있다.

문장 처리(101) 동작은, 확인된 문서를 문장별로 구분한다. 일 실시 예에 따르면, 문장 처리(101) 동작은, 문서에 포함된 텍스트를 마침표(.), 줄바꾸기, 한줄띄기와 같이 지정된 서식이 사용된 위치에 기반하여 문장을 구분할 수 있다. 이하 설명에서 텍스트는, 문자, 숫자, 기호, 도형 또는 둘 이상의 조합으로 구성된 적어도 하나의 단어를 포함하는 의미로 정의될 수 있다.

더하여, 문장 처리(101) 동작은, 문서에 포함된 문장을 구분함에 있어서, 종결어, 어미 중 적어도 일부에 지정된 텍스트가 사용된 경우 문장을 구분할 수 있다.

도 1에 도시된 바와 같이, 문장 처리(101) 동작은, 카테고리를 결정하기 위한 문서를 확인하는 동작이 선행된 후 처리될 수 있다.

키워드 추출(103) 동작은, 입력된 문서의 분류된 각각의 문장에 대하여 키워드를 추출할 수 있다. 여기서, 키워드는, 텍스트로 구성되며, 문장에 포함된 다양한 형태소를 포함할 수 있다. 예를 들어, 키워드는, 명사, 동사, 형용사, 부사 중 적어도 하나인 단어를 포함할 수 있다.

일 실시 예에 따르면, 키워드 추출(103) 동작은, 입력된 문서에 포함된 문장들을 구분하고, 각각의 문장에 대하여 기계학습 모델 또는 회기분석 모델을 적용하여 생성된 결과에 기반하여 키워드를 추출할 수 있다.

키워드 추출(103) 동작은, 각각의 문장으로부터 추출된 텍스트를 비교군 데이터에 포함된 기 지정된 텍스트와 비교하여 동일 또는 유사한 것으로 결정되는 텍스트를 해당 문장의 키워드로 결정할 수 있다. 여기서, 기 지정된 텍스트는, 비교 대상이 되는 문서에 포함된 텍스트 중 적어도 일부, 또는 사용자에 의하여 설정된 텍스트 중 적어도 일부를 포함할 수 있다. 즉, 키워드는, 문장으로부터 추출된 텍스트 중 기 지정된 텍스트와 매칭되는 텍스트를 포함하여 결정될 수 있다.

키워드 추출(103) 동작은, 각각의 문장에서 추출된 키워드에 기반하여 문장의 속성값을 결정할 수 있다. 여기서, 속성값은 도 3의 문서에 대한 속성값 리스트(51)에 도시된 바와 같이, 문서에 포함된 하나의 문장을 구성하는 키워드에 기반하여 예상되는 카테고리 및 예상되는 카테고리의 정확도와 관련된 수치로 결정될 수 있다. 예를 들면, 카테고리는, 예약, 발권, 취소, 서비스 또는 관련된 항목들 중 적어도 하나를 포함하여 결정될 수 있다.

일 실시 예에 따르면, 키워드 추출(103) 동작은, 문서에 포함되는 각각의 문장에 대하여 카테고리를 결정함에 있어서, 문장에 포함된 형태소 대비 키워드의 비율, 키워드에 대응되는 카테고리, 동일 키워드가 반복되는 경우 반복되는 횟수와 반복되는 횟수에 기반하여 결정되는 우선순위, 중 적어도 하나의 요소에 기반하여 결정할 수 있다.

이때, 카테고리의 정확도와 관련된 수치는, 각각의 문장에 대하여 문장에 포함된 단어의 수, 키워드의 수, 명사의 수, 문장에서 2회 이상 반복되는 키워드와 반복되는 횟수 중 적어도 하나의 요소에 기반하여 결정될 수 있다.

키워드 추출(103) 동작은, 각각의 문장에 대하여 결정된 카테고리 및 정확도와 관련된 수치를 이용하여, 도 2에 도시된 바와 같이 문서(10)에서, 문장에 대하여 추출된 적어도 하나의 카테고리 및 각각의 카테고리의 정확도와 관련된 수치를 포함하는 결과값 리스트(71)를 출력할 수 있다.

일 실시 예에 따르면, 키워드 추출(103) 동작은, 각각의 문장에 대하여 결정된 속성값에 기반하여 문서에 포함되는 문장들에 대한 카테고리 결과값을 결정할 수 있다. 예를 들면, 키워드 추출(103) 동작은, 각각의 문장에 대하여 결정된 속성값에 기반하여 각각의 문장에 대한 카테고리를 결정할 수 있고, 동일한 카테고리 단위로 구분하여 정확도와 관련된 수치를 처리할 수 있다.

예를 들면, 키워드 추출(103) 동작은, 속성값 리스트(51)에 포함된 각각의 문장에 대한 속성값에 기반하여 결정되는 동일한 카테고리에 대응되는 문장에서 정확도와 관련된 수치를 조합, 결합, 통계, 합산하는 방법 중 적어도 하나의 방법을 통하여, 예를 들면, 각각의 카테고리에 대한 평균값을 산출함으로써, 해당 카테고리에 대한 결과값을 결정할 수 있다.

키워드 추출(103) 동작은, 해당 문서(10)에 대하여, 상술한 바와 같이 문서에 포함된 문장들이 포함되는 카테고리 및 각각의 카테고리에 대한 정확도와 관련된 수치를 포함하는 결과값 리스트(71)를 출력할 수 있다.

더하여, 키워드 추출(103) 동작은, 결정된 결과값 리스트에 포함되는 카테고리들 중 가장 수치가 높은 카테고리(예: 제1순위 카테고리)를 해당 문서의 주제로 결정할 수 있다. 이때, 키워드 추출(103) 동작은, 해당 문서를 해당 카테고리(예: 예약)의 문서로 결정(91)할 수 있고, 결정된 문서에 대하여 카테고리(예: 예약)를 출력할 수 있다.

다양한 실시 예에 따르면, 키워드 추출(103) 동작은, 문서에 포함되는 각각의 문장에 대하여 속성값을 결정함에 있어서, 보편적으로 문서의 카테고리를 결정하는 자동 문서분류 모델(31)을 적용하여 결정할 수 도 있다.

가중치 처리(105) 동작은, 문서의 카테고리를 결정함에 있어서, 각각의 문장에 포함된 키워드 일부에 가중치를 부여하여 카테고리의 정확도와 관련된 수치 또는 카테고리의 결과값을 결정(또는 수정)할 수 있다.

일 실시 예에 따르면, 키워드 중 적어도 일부에 대하여 가중치가 지정된 상태일 수 있다. 예를 들면, 문서에 포함되는 다양한 키워드 중 문서의 카테고리를 결정하는데 결정적으로 작용하는 키워드가 존재할 수 있다. 여기서, 도 2의 문서(10)를 참조하면, “발권”의 단어는 예약의 범위에 포함되지 않으면서 발권의 카테고리를 나타내는 확정적인 키워드로 결정될 수 있다.

가중치 처리(105) 동작은, 이러한 키워드에 대하여 카테고리의 정확도와 관련된 수치 또는 카테고리의 결과값에 가중치 수치를 추가하도록 가중치 수치를 부여할 수 있다. 가중치 처리(105) 동작은, 상술한 바와 같이 키워드 중 적어도 일부에 가중치를 부여하는 경우, 텍스트 또는 키워드에 가중치가 기 설정된 가중치 데이터에 기반하여 가중치를 부여할 수 있다.

도 3의 가중치가 적용된 결과값 리스트(73)에 도시된 바와 같이, 가중치 처리(105) 동작은, 문서에 포함된 키워드를 참고하여, 가중치가 설정된 키워드를 검출하는 경우, 해당 카테고리에 각각의 키워드에 설정된 가중치를 해당 카테고리의 결과값에 반영할 수 있다.

도 3의 결과값 리스트(73)를 참고하면, 문서(10)에 포함된 키워드 일부에 기반하여 예약 카테고리의 결과값에 0.08의 가중치 수치(301)가 부여되고, 발권 카테고리의 결과값에 0.5의 가중치 수치(303)가 부여된 것을 확인할 수 있다.

다양한 실시 예에 따르면, 가중치 처리(105) 동작은, 카테고리의 결과값에 가중치를 부여하는 것에 한정하지 않고, 문서에 포함된 각각의 문장에 대하여 가중치를 부여할 수 있다.

예를 들면, 가중치 처리(105) 동작은, 각각의 문장에 대하여 가중치가 설정된 키워드를 검출하는 경우, 해당 키워드에 설정된 가중치를 속성값, 예를 들면, 해당 문장에 대하여 결정된 카테고리의 정확도와 관련된 수치에 적용할 수 있다.

이때, 일 실시 예에 따르면, 가중치 처리(105) 동작은, 각각의 문장에 대하여 속성값 수치를 변경하는 경우, 변경된 수치에 기반하여 해당 문장의 카테고리가 변경되는 것을 확인할 수 있고, 변경된 속성값에 기반하여 카테고리 또는 카테고리의 정확도와 관련된 수치를 결정할 수 있다.

가중치 처리(105) 동작은 도 2 및 도 3에 도시된 바와 같이, 가중치가 부여되기 전 속성값 리스트(51)를 참조하면 “예약” 카테고리를 문서(10)의 카테고리로 결정하지만, 가중치가 부여된 후 결과값 리스트(73)를 참조하면 가중치가 적용된 결과값에 기반하여 “발권” 카테고리를 문서(10)의 카테고리로 결정할 수 있다.

가중치 처리(105) 동작은, 결과값 리스트(71 또는 73)에서 제1순위 카테고리를 해당 문서의 카테고리(예: 발권)로 결정 (92)할 수 있고, 해당 문서의 결정된 카테고리(예: 발권)를 출력할 수 있다.

레벨링 처리(107) 동작은, 문서에 대하여 결정된 카테고리의 연관성 또는 레벨(등급 또는 우선순위)에 기반하여 문서의 카테고리를 결정할 수 있다. 일 실시 예에 따르면, 카테고리 각각은, 상/하위 카테고리 또는 레벨이 설정될 수 있다.

여기서, 카테고리의 상/하위 관계는 카테고리는 시간적 및/또는 단계적 흐름에 기반하여 결정될 수 있고, 예를 들면, 도 4의 결과값 리스트(75)에 도시된 바와 같이, 문서(10)에 대하여 “예약”, “발권”, “취소”, 서비스” 및 “기타” 의 카테고리를 결정한 경우 “예약”과 “발권”의 카테고리를 상/하위(상위 또는 하위) 카테고리로 결정할 수 있다.

예를 들면, 카테고리는, 상/하위 연관성을 가지는 둘 이상의 카테고리에 대하여 등급(예: 레벨1, 레벨2 등)을 설정하고, 등급의 수치에 따라서 우선순위를 설정(예: 숫자가 큰 또는 작은 순서에 따라서 우선순위를 설정)할 수 있다.

일 실시 예에 따르면, 레벨링 처리(107) 동작은, 결과값 리스트(75)에 기반하여 “예약”의 카테고리가 제1순위 카테고리로, “발권” 카테고리를 제2순위 카테고리로 결정한 상태에서, “발권” 카테고리가 “예약” 카테고리보다 상위 카테고리로 설정된 것을 확인할 수 있다.

레벨링 처리(107) 동작은, 결과값 리스트(75)에 기반하여 “예약” 카테고리가 문서(10)에 포함된 문장들에 대하여 결정된 복수의 카테고리 중 가장 높은 수치의 결과값을 나타내는 경우에도, “예약” 카테고리의 상위 카테고리인 “발권” 카테고리를 제1순위 카테고리로 결정할 수 있고, 문서(10)의 카테고리로 결정(94)할 수 있다.

여기서, 레벨링 처리(107) 동작은, 카테고리의 상/하위 개념에 기반하여 문서의 카테고리를 결정함에 있어서, 상/하위 카테고리에 대하여 결정된 결과값의 차이가 지정된 수치범위 내인 경우 우선순위를 적용하여 문서의 카테고리를 결정할 수 있다.

예를 들면, 레벨링 처리(107) 동작은, 상/하위 카테고리의 차이가 0.3의 수치범위 내인 경우, 우선순위를 적용하여 문서의 카테고리를 결정하도록 지정된 상태일 수 있다. 이때, 도 4의 결과값 리스트(75)에서 “발권” 카테고리의 결과값이 0.5 미만인 경우 “발권” 카테고리가 “예약” 카테고리보다 상위 카테고리로 “예약” 카테고리보다 우선순위를 가진다 하더라도 문서(10)의 카테고리를 “예약”으로 결정할 수 있다.

도 4를 참조하면, 레벨링 처리(107) 동작은, 상/하위 카테고리의 우선순위에 기반하여 문서의 카테고리를 결정함에 있어서, 가중치 처리(105) 동작을 통하여 가중치가 적용된 결과값 리스트(93)에 포함된 정보를 이용하여 처리하는 것으로 도시하고 있지만, 이에 한정하지 않고, 다양한 결과값 리스트에 포함된 정보를 이용하여 처리할 수 있다.

예를 들면, 레벨링 처리(107) 동작은 키워드 추출(103) 동작을 통해서 생성된 문서에 대한 결과값 리스트에 포함된 정보를 이용하여 가중치가 적용되지 않은 상태에서, 상/하위 카테고리의 우선순위에 기반하여 문서의 카테고리를 결정할 수 있다.

카테고리 결정(109) 동작은, 문서의 카테고리를 결정함에 있어서, 키워드 추출(103) 동작, 가중치 처리(105) 동작 또는 레벨링 처리부(205)를 통해서 출력되는 결과값 리스트에 기반하여 제1순위 카테고리 또는 제2순위 카테고리를 문서의 카테고리로 결정할 수 있다.

또한, 다양한 실시 예에 따르면, 카테고리 결정(109) 동작은, 문서의 카테고리를 결정함에 있어서, 결과값 리스트에 기반하여 둘 이상의 카테고리를 해당 문서(예: 문서(10))에 대한 카테고리로 결정할 수 있다.

일 실시 예에 따르면, 카테고리 결정(109) 동작은 결과값 리스트(77)에 포함된 정보에 기반하여 제1순위 카테고리와 제2순위 카테고리 사이의 수치 차이가 지정된 수치범위 내인 경우, 제1순위 카테고리와 제2순위 카테고리를 문서의 카테고리로 결정할 수 있다.

예를 들면, 결정된 카테고리의 결과값에 기반하여 제1순위 카테고리와 제2순위 카테고리의 결과값 수치 차이가 0.01 이하인 경우 해당 카테고리 모두를 문서에 대한 카테고리로 결정하도록 처리될 수 있다.

이때, 카테고리 결정(109) 동작은, 도 5의 결과값 리스트(77)에 도시된 바와 같이, 제1순위 카테고리인 “취소” 카테고리와 제2순위 카테고리인 “예약” 카테고리의 결과값 차이가 0.01로 확인되는 경우, 해당 문서의 카테고리를 “예약” 및 “취소”의 복합 카테고리로 결정(95)할 수 있다.

다양한 실시 예에 따르면, 카테고리 결정(109) 동작은, 도 6에 도시된 바와 같이, 문서에 대하여 “취소” 카테고리의 결정에 작용한 키워드를 기여도 수치에 기반하여 나열한 결과값 리스트(79)를 확인할 수 있다.

이때, 카테고리 결정(109) 동작은, 제1순위 키워드(예: 자연재해)와 제2순위 키워드(예: 질별)의 결과값 수치 차이가 0.01 이하인 경우 해당 키워드 모두를 해당 카테고리(취소)를 결정하는데 작용한 키워드로 결정(96)할 수 있다.

카테고리 결정(109) 동작은, 제1순위 키워드 및 제2순위 키워드를 경합하여 해당 카테고리를 결정하는데 작용한 복수의 키워드를 복합 결과로 결정하는 것에 한정하지 않고, 정렬된 키워드에 기반하여 지정된 순위까지의 키워드를 해당 카테고리를 결정하는데 작용한 키워드로 결정할 수 있다.

또한, 카테고리 결정(109) 동작은, 상술한 바와 같이 카테고리 또는 키워드에 대하여 둘 이상의 복합 결과를 결정하는 것에 한정하지 않고, 유사한 다양한 항목들에 대하여도 둘 이상의 복합 결과를 결정하는 동작을 수행할 수 있음은 자명하다.

카테고리 결정(109) 동작은, 문서에 대하여 결정된 카테고리를 출력할 수 있다. 도 1을 참조하면, 카테고리 결정(109) 동작을 통해서 수행된 결과를 출력하는 것으로 도시하고 있지만, 이에 한정하지 않고 다양한 결과를 출력할 수 있음은 자명하다. 예를 들면, 문서분류방법(100)에서 수행되는, 문장 처리(101) 동작, 키워드 추출(103) 동작, 가중치 처리(105) 동작, 레벨링 처리(107) 동작, 카테고리 결정(109) 동작 중 적어도 하나의 동작에 대한 처리 결과를 출력할 수 있다.

상술한 바와 같이, 문서분류방법(100)은, 입력되는 문서를 분류함에 있어서, 문서에 포함된 문장들의 카테고리를 결정하고, 결정된 문장의 카테고리에 기반하여 문서의 카테고리를 결정할 수 있다.

본 발명의 다양한 실시 예에 따르면, 문서분류방법(100)은 적어도 하나의 장치(또는 전자장치)를 통하여 수행될 수 있다. 예를 들면, 문서분류방법(100)은 입력된 문서의 문장을 분류하고 분류된 문장에 기반하여 문서를 자동분류 하는 장치(이하, 문서분류장치)를 통하여 수행될 수 있다.

도 7은 본 발명의 일 실시 예에 따른 문서분류장치(700)의 구성 요소를 도시한다. 문서분류장치(700)는, 처리부(701), 입력부(703), 출력부(705), 통신부(707) 및 저장부(709) 중 적어도 하나의 구성 요소를 포함한다.

처리부(701)는, 전술한 다른 구성 요소들(예: 입력부(703), 출력부(705), 통신부(707) 및 저장부(709))로부터 데이터를 수신하여, 수신한 데이터를 확인하고, 확인된 데이터의 처리를 실행할 수 있다.

일 실시 예에 따르면, 처리부(701)는, 입력부(703) 또는 통신부(707)를 통해서 입력되는 문서를 확인할 수 있다. 처리부(701)는, 입력된 문서들을 문장 단위로 분류하고, 각각의 문장에 대하여 키워드를 분석한다. 처리부(701)는, 각각의 문장에 대한 분류 결과에 대하여 속성값 및 속성값에 기반하는 카테고리를 결정할 수 있고, 각각의 문장에 대하여 결정된 속성값에 기반하여 문서 전체의 카테고리를 결정할 수 있다.

상술한 바에 따르면, 처리부(701)는, 모든 문장 각각에 대하여 속성 값 및 카테고리를 결정하는 것으로 설명하고 있지만, 이에 한정하지 않고, 속성값 및 카테고리를 결정하는 동작은 적어도 일부 문장에 대해서 수행할 수 있다.

일 실시 예에 따르면, 처리부(701)는, 상술한 동작들을 처리하기 위한 적어도 하나의 구성 요소를 포함하여 구성될 수 있다. 예를 들면, 처리부(701)는, 문장 처리(101) 동작을 수행하는 문장 처리부, 키워드 추출(103) 동작을 수행하는 키워드 추출부, 가중치 처리(105) 동작을 수행하는 가중치 처리부, 레벨링 처리(107) 동작을 수행하는 레벨링 처리부 및 카테고리 결정(109) 동작을 수행하는 카테고리 결정부 중 적어도 하나의 구성 요소를 포함하여 구성될 수 있다.

여기서, 처리부(701)의 세부 구성 요소들은 논리적/물리적으로 구분될 수 있다. 이때, 처리부(701)의 세부 구성 요소들이 물리적으로 구분되는 경우, 각각의 세부 구성 요소들은 별도의 모듈 형태로 제공될 수 있고, 또는 둘 이상의 모듈이 연결된 하나의 모듈로 구성될 수 있다.

입력부(703)는, 통신부(707)를 통하여 수신하는 문서를 처리하기 위한 정보 및/또는 제어명령을 입력하기 위한 구성 요소로서, 예를 들면, 키보드, 키패드, 터치 스크린, 적어도 하나의 버튼, 마이크 중 적어도 하나를 포함할 수 있다.

출력부(705)는, 처리부(701)를 통한 처리 결과를 출력할 수 있다. 예를 들면, 출력부(705)는 입력된 문서에서 추출된 키워드, 문장에 대하여 결정된 카테고리 또는 문서에 대하여 결정된 카테고리를 출력한다. 일 실시 예를 들면, 출력부(705)는 디스플레이 및 스피커 중 적어도 하나의 장치를 포함할 수 있다.

출력부(705)가 디스플레이로 구비되는 경우, 처리부(701)를 통해서 디스플레이에 전송되는 데이터는 사용자 그래픽 인터페이스(graphic user interface)로 표시될 수 있다. 또한, 출력부(705)가 스피커로 구비되는 경우, 처리부(701)를 통해서 스피커에 전송되는 데이터는 오디오로 출력할 수 있다.

통신부(707)는 문서분류장치(700)와 외부의 통신을 연결할 수 있다. 예를 들면, 통신부(707)는 무선 통신 또는 유선 통신을 통해서 네트워크(720)에 연결되며, 및/또는 외부장치(730)와 통신할 수 있다.

본 발명의 일 실시 예에 따르면, 네트워크(720)는 통신 네트워크(telecommunications network)일 수 있다. 통신 네트워크는 컴퓨터 네트워크(computer network), 인터넷(internet), 사물 인터넷(internet of things) 또는 전화망(telephone network) 중 적어도 하나를 포함할 수 있다.

도 7을 참조하면, 외부장치(730)는 네트워크(720)를 통해서 문서분류장치(700)와 통신하는 것으로 도시하고 있지만, 이에 한정하지 않고, 통신부(707)를 통해서 문서분류장치(700)와 직접 통신을 수행할 수 있음은 자명하다.

저장부(709)는, 처리부(701) 또는 다른 구성 요소들로부터 수신되거나 처리부(701) 또는 다른 구성 요소들에 의해 생성된 명령 및/또는 데이터를 저장할 수 있다. 저장부(709)는, 예를 들면, 커널, 미들웨어, 어플리케이션 프로그래밍 인터페이스(API: application programming interface) 또는 어플리케이션 등의 프로그래밍 모듈들을 포함할 수 있다. 상술한 각각의 프로그래밍 모듈들은 소프트웨어, 펌웨어, 하드웨어 또는 이들 중 적어도 둘 이상의 조합으로 저장부(709)에 저장될 수 있다.

더하여, 저장부(709)는, 입력부(703) 및/또는 통신부(707)를 통해서 입력되는 데이터가 저장되며, 처리부(701)를 통하여 처리되는 문장, 키워드, 문장에 대한 속성값, 카테고리와 관련된 정보 중 적어도 일부가 저장될 수 있다.

예를 들면, 저장부(709)는, 적어도 하나의 키워드가 저장될 수 있다. 이때, 키워드에 가중치가 부여되는 경우, 가중치가 부여되는 키워드 및 가중치 수치가 저장될 수 있다. 또한, 저장부(709)는, 적어도 하나의 카테고리가 저장될 수 있다. 더하여, 카테고리와 관련된 키워드, 상/하위 카테고리와 같은 정보가 함께 저장될 수 있다.

저장부(709)는, 문장으로부터 추출된 텍스트를 비교하여 키워드를 추출하기 위한 비교군 데이터(예: 기 지정된 텍스트) 또는 키워드에 대하여 가중치를 결정하기 위하여 텍스트/키워드에 가중치가 설정된 가중치 데이터가 저장될 수 있다. 여기서, 비교군 데이터 및 가중치 데이터는 사전과 같이 하나의 데이터 모듈로 저장될 수 있다.

일 실시 예에 따르면, 비교군 데이터 또는 가중치 데이터는 카테고리에 따라서 구분되어 저장될 수 있다. 이때, 기 지정된 텍스트 또는 키워드는 카테고리에 따라서 구분될 수 있지만, 카테고리가 설정되지 않은 상태로 저장될 수 있다. 또한 가중치는, 카테고리 각각에 대하여 설정될 수 있고, 카테고리가 설정되지 않은 텍스트/키워드의 경우 각각에 대하여 설정될 수 있다. 또한, 카테고리에 포함된 텍스트/키워드 각각에도 가중치가 설정될 수도 있다.

외부장치(730)는, 문서분류장치(700)와 무선 통신 및/또는 유선 통신으로 연결될 수 있고, 문서분류장치(700)와 동일 또는 유사한 장치로 제공될 수 있다. 예를 들면, 외부장치(730)는, 방송, 통신, 라디오, TV, 뉴스, 잡지, 신문, 저널, 일간지, 지방지 등의 다양한 매체를 제공하는 장치일 수 있다. 또한, 외부장치(730)는, 문서분류장치(700)와 마찬가지로 기재된 다양한 장치들 중 하나 또는 그 이상의 조합으로 구성될 수 있다. 예를 들어, 장치는 기재된 장치들 중 적어도 일부, 또는 장치의 기능 중 적어도 일부를 포함하는 구조물로 제공될 수도 있다.

도 8을 참조하면, 본 발명의 일 실시 예에 따른 문서분류장치(700)에서 입력된 문서의 문장 분류에 기반하여 문서를 분류하는 동작의 흐름을 설명한다.

본 발명의 일 실시 예에 따르면, 문서분류장치(700)는, 입력된 문서를 문장 단위로 분류한다(S801). 문서분류장치(700)는, 입력된 문서에 포함된 텍스트를 문장 단위로 분류함에 있어서, 지정된 문장부호(예: 마침표, 쉼표, 콜론, 세미콜론)를 검출하고, 검출된 문장 부호에 기반하여 문서에 포함된 문장을 분류할 수 있다.

문서분류장치(700)는, 분류된 각각의 문장에 대하여 키워드를 추출한다(S803). 일 실시 예에 따르면, 문서분류장치(700)는, 문서에 포함된 적어도 하나의 문장으로부터 형태소를 포함하여 구성되는 단어를 추출할 수 있다. 문서분류장치(700)는, 각각의 문장에 대하여 추출된 단어를 저장부(109)에 저장된 텍스트와 비교하여 동일 또는 유사한 적어도 하나의 단어를 해당 문장에 대한 키워드로 결정할 수 있다. 여기서, 기 지정된 키워드는, 비교 대상이 되는 문서에 포함된 텍스트 중 적어도 일부, 또는 사용자에 의하여 설정된 텍스트 중 적어도 일부를 포함하는 데이터로, 저장부(109)에 저장될 수 있다.

문서분류장치(700)는, 추출된 키워드에 기반하여 문장에 대한 카테고리를 결정한다(S805). 일 실시 예에 따르면, 문서분류장치(700)는, 문서에 포함된 각각의 문장(또는 적어도 하나의 문장)으로부터 추출된 키워드에 기반하여 각각의 문장에 대하여 속성값을 결정할 수 있다.

문서분류장치(700)는, 각각의 문장에 대하여 결정된 속성값에 기반하여 문서에 포함되는 문장들에 대한 카테고리 결과값을 결정할 수 있다. 예를 들면, 문서분류장치(700)는, 문장에 포함되는 각각의 문장에 대하여 결정된 속성값에 기반하여 각각의 문장에 대한 카테고리를 결정할 수 있고, 동일한 카테고리 각각에 대하여 정확도와 관련된 수치를 포함하는 결과값 리스트를 생성할 수 있다.

문서분류장치(700)는, 문서에 대하여 생성된 속성값 리스트 또는 결과값 리스트를 이용하여 문장 또는 카테고리 단위로 가중치를 부여할 수 있다. 문서분류장치(700)는, 속성값 리스트에 대하여 가중치가 적용된 결과값 리스트를 생성 또는 출력할 수 있다.

문서분류장치(700)는, 문장에 결정된 카테고리에 기반하여 문서의 카테고리를 결정한다(S807). 일 실시 예에 따르면, 문서분류장치(700)는, 입력된 문서(10)에 포함되는 각각의 문장의 속성값, 속성값에 기반하여 결정된 문서의 결과값 또는 가중치가 적용된 결과값에 기반하여 문서의 카테고리를 결정할 수 있다.

예를 들면, 문서분류장치(700)는, 속성값, 속성값에 기반하여 결정된 문서의 결과값 또는 가중치가 적용된 결과값에 기반하여, 제2순위 카테고리라 하더라도, 제1순위 카테고리보다 상위 카테고리인지 여부를 확인하여 제2순위 카테고리가 제1순위 카테고리보다 상위 카테고리인 경우, 제2순위 카테고리를 해당 문서의 카테고리로 결정할 수 있다.

또한, 문서분류장치(700)는, 문서의 카테고리를 둘 이상으로 결정하거나, 또는 카테고리를 결정하는데 작용한 키워드를 둘 이상으로 결정하는 복합 결과를 생성할 수 있다.

일 실시 예에 따르면, 문서분류장치(700)는, 둘 이상의 카테고리에 대한 속성값 또는 결과값의 수치 차이가 지정된 수치범위 내인 것을 확인하는 경우, 해당 복수의 카테고리를 문서의 카테고리로 결정할 수 있다.

또한, 문서분류장치(700)는, 문서의 카테고리와 관련된 둘 이상의 키워드에 대하여 속성값 또는 결과값의 수치 차이가 지정된 수치범위 내인 것을 확인하는 경우, 해당 복수의 키워드를 해당 문서에 대하여 카테고리를 결정하는데 작용한 키워드로 결정할 수 있다.

상술한 바와 같이, 문서분류장치(700)는, 입력된 문서의 카테고리를 자동으로 분류한다. 일반적으로, 문서에서 작성자의 의도는 문장 전체에 걸쳐서 표현되기도 하지만, 한정된 수의 문장에 집중적으로 표현될 수 있다.

문서분류장치(700)는, 고객의 요청이 일부에 집중된 문서를 수신하는 경우에도, 문장 단위로 카테고리를 결정하고 이를 종합하여 가장 우선순위의 카테고리를 문서의 카테고리로 결정함으로써 고객의 요구를 효과적으로 판단할 수 있다.

본 발명의 다양한 실시 예에 따르면, 문서분류장치(700)는, 수신한 문서를 분류함에 있어서, 제공된 서비스에 대한 고객의 의견(예: 고객의 소리)에 대한 문서는 지정된 수의 카테고리 내에서 문서를 분류할 수 있다.

문서분류장치(700)는, 문서를 문장 단위로 분류하여 각각의 문장에 대하여 카테고리와 정확도를 결정하고, 문장에 포함된 키워드에 기반하여 결정된 카테고리에 가중치를 부여하고, 카테고리에 대하여 지정된 우선순위를 고려하는 동작을 통해서 최종적으로 결정되는 문서에 대한 카테고리의 정확도를 향상시킬 수 있다.

본 발명의 다양한 실시 예에 따른 문서분류장치 또는 그 구성 요소들은, 명백한 한정 사항을 기재하고 있지 않은 한 동일 또는 유사한 다른 형태로 대체될 수 있음은 자명하다.

또한, 본 발명의 다양한 실시 예에 따른 문서분류장치는 동일 또는 유사한 장치들 중 하나 또는 그 이상의 조합으로 구성될 수 있다. 예를 들어, 장치는 기재된 장치들 중 적어도 일부, 또는 장치의 기능 중 적어도 일부를 포함하는 구조물로 제공될 수도 있다.

다양한 실시 예에 따르면, 본 발명의 청구항 및/또는 명세서에 기재된 다양한 실시 예에 따른 장치, 방법의 적어도 일부는, 하드웨어, 소프트웨어, 펌웨어, 또는 하드웨어, 소프트웨어 및 펌웨어 중 둘 이상의 조합을 포함하는 형태(예: 모듈, unit)로 구현될(implemented) 수 있다.

모듈은, 일체로 구성된 부품의 최소 단위 또는 그 일부로서 본 발명의 다양한 실시 예를 수행하는 최소 단위 또는 그 일부가 될 수도 있다. 모듈은 기계적으로 또는 전자적으로 구현될 수 있다.

본 명세서와 도면에 개시된 본 발명의 실시 예들은 본 발명의 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 따라서 본 발명의 범위는 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상을 바탕으로 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

10 : 문서 700 : 문서분류장치
701 : 처리부 703 : 입력부
705 : 출력부 707 : 통신부
709 : 저장부 720 : 네트워크
730 : 외부장치

Claims

문서분류장치에 의한 문장 분류에 기반하는 문서 자동분류 방법으로서,
(a) 입력된 문서를 문장 단위로 분류하는 단계;
(b) 분류된 각 문장의 키워드를 추출하는 단계;
(c) 추출된 키워드에 기반하여 각 문장에 대한 예상 카테고리 및 예상 카테고리의 정확도 관련 수치를 결정하며, 동일 예상 카테고리들의 정확도 관련 수치를 조합, 결합, 통계 및 합산 중 적어도 하나의 방법으로 연산하여 각 예상 카테고리의 정확도 결과 수치를 포함한 결과값 리스트를 생성하는 단계; 및
(d) 각 문장에 대하여 결정된 예상 카테고리 및 예상 카테고리의 정확도 관련 수치에 기반하여 상기 문서의 카테고리를 결정하되, 결과값 리스트에 포함된 각 예상 카테고리의 정확도 결과 수치가 가장 높은 예상 카테고리를 상기 문서의 카테고리로 결정하는 단계;를 포함하며,
상기 예상 카테고리의 정확도 관련 수치는 각 문장에서 포함된 단어의 수, 키워드의 수, 명사의 수, 문장에서 2회 이상 반복되는 키워드의 반복되는 횟수 중 적어도 하나에 기반하여 결정되고,
상기 (b) 단계는 추출된 키워드가 가중치 부여 대상 키워드에 대응하는 경우에 해당 키워드에 따른 예상 카테고리의 정확도 관련 수치 또는 정확도 결과 수치를 가중치에 따라 추가 변경하는 단계를 포함하며,
상기 (d) 단계는,
각 예상 카테고리의 정확도 결과 수치에 기반하여 상기 문서에 대한 제1순위 카테고리 및 제2순위 카테고리를 결정하는 단계; 및
제2순위 카테고리가 제1순위 카테고리보다 상위 카테고리이고 제1순위 카테고리와 제2순위 카테고리 간의 정확도 결과 수치 차이가 지정 범위 이내인 경우, 제2순위 카테고리를 상기 문서의 카테고리로 결정하는 단계;를 포함하는, 문장 분류에 기반하는 문서 자동분류 방법.
제1항에 있어서,
상기 (a) 단계는, 마침표, 쉼표, 콜론, 세미콜론의 문장부호 중 적어도 하나에 기반하여 문장을 분류하는, 문장 분류에 기반하는 문서 자동분류 방법.
제1항에 있어서,
상기 키워드는, 각 문장에 포함된 단어들 중 기 설정된 단어와 매칭되는 적어도 하나의 단어를 포함하는, 문장 분류에 기반하는 문서 자동분류 방법.
삭제
삭제
삭제
삭제
삭제
제1항에 있어서,
상기 (d) 단계는,
제1순위 카테고리의 정확도 결과 수치와 제2순위 카테고리의 정확도 결과 수치가 지정 수치범위 이내인 경우, 제1순위 카테고리 및 제2순위 카테고리 모두를 상기 문서의 카테고리로 결정하는 단계;를 포함하는, 문장 분류에 기반하는 문서 자동분류 방법.
입력된 문서를 문장 단위로 분류하는 문장 처리부;
분류된 각 문장의 키워드를 추출하고, 추출된 키워드에 기반하여 각 문장에 대한 예상 카테고리 및 예상 카테고리의 정확도 관련 수치를 결정하며, 동일 예상 카테고리들의 정확도 관련 수치를 조합, 결합, 통계 및 합산 중 적어도 하나의 방법으로 연산하여 각 예상 카테고리의 정확도 결과 수치를 포함한 결과값 리스트를 생성하는 키워드 추출부;
추출된 키워드가 가중치 부여 대상 키워드에 대응하는 경우에 해당 키워드에 따른 예상 카테고리의 정확도 관련 수치 또는 정확도 결과 수치를 가중치에 따라 추가 변경하는 가중치 처리부;
각 문장에 대하여 결정된 예상 카테고리 및 예상 카테고리의 정확도 관련 수치에 기반하여 상기 문서의 카테고리를 결정하되, 결과값 리스트에 포함된 각 예상 카테고리의 정확도 결과 수치가 가장 높은 예상 카테고리를 상기 문서의 카테고리로 결정하는 카테고리 결정부; 및
각 예상 카테고리의 정확도 결과 수치에 기반하여 상기 문서에 대한 제1순위 카테고리 및 제2순위 카테고리를 결정하며, 제2순위 카테고리가 제1순위 카테고리보다 상위 카테고리이고 제1순위 카테고리와 제2순위 카테고리 간의 정확도 결과 수치 차이가 지정 범위 이내인 경우, 제2순위 카테고리를 상기 문서의 카테고리로 결정하는 레벨링 처리부;를 포함하며,
상기 키워드 추출부는 각 문장에서 포함된 단어의 수, 키워드의 수, 명사의 수, 문장에서 2회 이상 반복되는 키워드의 반복되는 횟수 중 적어도 하나에 기반하여 상기 예상 카테고리의 정확도 관련 수치를 결정하는, 문장 분류에 기반하는 문서 자동분류 장치.
제10항에 있어서,
상기 문장 처리부는, 마침표, 쉼표, 콜론, 세미콜론의 문장부호 중 적어도 하나에 기반하여 상기 입력된 문서를 문장 단위로 분류하는, 문장 분류에 기반하는 문서 자동분류 장치.
제10항에 있어서,
상기 키워드 추출부는, 각 문장에 포함된 단어들 중 기 설정된 단어와 매칭되는 적어도 하나의 단어를 상기 키워드에 포함하는, 문장 분류에 기반하는 문서 자동분류 장치.
삭제
삭제
삭제
삭제
삭제
제10항에 있어서,
상기 카테고리 결정부는, 제1순위 카테고리의 정확도 결과 수치와 제2순위 카테고리의 정확도 결과 수치가 지정된 수치범위 이내인 경우, 제1순위 카테고리 및 제2순위 카테고리 모두를 상기 문서의 카테고리로 결정하는, 문장 분류에 기반하는 문서 자동분류 장치.