KR101948257B1

KR101948257B1 - 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법

Info

Publication number: KR101948257B1
Application number: KR1020160161224A
Authority: KR
Inventors: 장준환; 김현태; 고준호; 이재안; 윤도현
Original assignee: 주식회사 와이즈넛
Priority date: 2016-11-30
Filing date: 2016-11-30
Publication date: 2019-02-15
Also published as: KR20180062490A; WO2018101506A1

Abstract

본 발명은 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 방법에 관한 것이다. 본 발명은 형태소, 음절, 및 어절로 이루어진 어휘의미패턴(Lexico-semantic pattern: LSP)을 정의하여 데이터베이스에 저장하고, 계층적으로 구조화된 복수의 어휘의미패턴의 집단인 컨셉을 정의하여 데이터베이스에 저장하는 전처리유닛, 분석대상문서에 포함된 문장을 형태소 분석하고 상기 어휘의미패턴에 매칭시켜 구문분석결과를 연산하는 분석유닛, 및 상기 구문분석결과를 문서분류규칙에 따라 매칭하여 분석대상문서의 문서분류를 적어도 하나 이상 추출하는 분류유닛을 포함한다.

Description

문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법 {MULTI-CLASSIFICATION DEVICE AND METHOD USING LSP}

본 발명은 언어 처리 기술을 이용하여 문서를 분류하는 방법에 관한다.

하루가 다르게 증가하는 정보의 홍수 속에서 가치 있는 정보를 찾기 위한 방편으로 정보검색의 효율을 향상시키는 기술이 진화되어 왔다. 특히 문서에 포함된 내용에 따라 문서를 특정분류로 카테고라이징 하는 문서분류기술이 전해진다. 예를 들어 기계학습을 통한 문서분류기술로서 SLDA(Supervised Latent Dirichlet Allocation), SVM(Support Vector Machines) 등의 알고리즘이 알려져있다.

그러나 기계학습을 통한 문서분류기술은 학습초기에 학습에 필요한 데이터셋을 준비하는 것이 쉽지 않고, 어떤 데이터셋을 사용하여 학습시켰는지에 따라 분류결과에 편차가 큰 편이어서 문제된다.

그와 같은 한계는 특히 다수의 문장을 포함하는 문서에서 특정 키워드를 추출하기 어렵고, 유의미한 부분만을 추출하여 문서를 분류하기에 적합하지 않기 때문이다. 또한, 의미의 확장이나 새로운 지식에 대한 대응을 하기 쉽지 않다는 문제점도 지니고 있었다.

본 발명의 발명자들은 위와 같은 문제점을 해결하기 위해서 연구하고 노력한 결과 본 발명을 완성하기에 이르렀다.

본 발명의 발명자들은 문서에 포함된 문장의 실질적 의미를 어휘의미패턴을 기반으로 분석하여 해당 문서를 어느 분류에 매칭시켜야 하는 지에 대한 대답을 제공하려고 한다. 특히 본 발명에 따르면 어휘의미패턴을 이용하여 문서가 담고 있는 실질적인 의미에 따라 문서를 보다 정확하게 분류할 수 있다. 또한, 하나의 문서를 복수의 카테고리(문서분류)로 분류하여 문서가 포함하고 있는 다양한 의미를 용이하게 추론할 수 있도록 한다.

한편, 본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론할 수 있는 범위 내에서 추가적으로 고려될 것이다.

이와 같은 과제를 달성하기 위하여 본 발명의 제1국면은 형태소, 음절, 및 어절로 이루어진 어휘의미패턴(Lexico-semantic pattern: LSP)을 정의하여 데이터베이스에 저장하고, 계층적으로 구조화된 복수의 어휘의미패턴의 집단인 컨셉을 정의하여 데이터베이스에 저장하는 전처리유닛;

분석대상문서에 포함된 문장을 형태소 분석하고 상기 어휘의미패턴에 매칭시켜 구문분석결과를 연산하는 분석유닛; 및

상기 구문분석결과를 문서분류규칙에 따라 매칭하여 분석대상문서의 문서분류를 적어도 하나 이상 추출하는 분류유닛을 포함하는 것을 특징으로 하는, 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치를 제공한다.

바람직한 실시예에 있어서 상기 분석유닛은 분석대상문서를 문장 단위로 분리하는 문장추출부;

문장을 형태소, 음절, 및 어절 중 적어도 어느 하나로 분석하는 문장요소분석부; 및

문장요소 분석결과를 사전에 정의된 어휘의미패턴에 매칭하여 개별 문장에 대한 어휘의미패턴의 매칭결과를 구문분석결과로 도출하는 구문분석부를 포함할 수 있다.

바람직한 실시예에 있어서 상기 분류유닛은 어휘의미패턴 식별자 및 컨셉 식별자 중 적어도 어느 하나를 포함하는 문서분류규칙을 입력받는 분류규칙입력부; 및

구문분석결과를 문서분류규칙에 따라 사전에 정의된 문서분류에 매칭하여 분석대상문서의 문서분류를 적어도 하나 이상 추출하는 문서분류매칭부를 포함할 수 있다.

본 발명의 제2국면은 전처리유닛이 1) 어휘의미패턴, 2) 계층적으로 구조화된 복수의 어휘의미패턴의 집단인 컨셉, 3) 어휘의미패턴에 기반하여 문서의 카테고리를 분류한 문서분류를 각각 정의하여 데이터베이스에 저장하는 단계;

분석유닛이 분석대상문서를 문장 단위로 분리하는 단계;

분리된 문장을 형태소, 음절, 및 어절 중 적어도 어느 하나의 문장요소로 분석하는 단계;

문장요소 분석결과를 사전에 정의된 어휘의미패턴에 매칭하여 개별 문장에 대한 어휘의미패턴의 매칭결과를 구문분석결과로 도출하는 단계;

어휘의미패턴 식별자 및 컨셉 식별자 중 적어도 어느 하나를 포함하는 문서분류규칙을 입력받는 단계; 및

구문분석결과를 문서분류규칙에 따라 사전에 정의된 문서분류에 매칭하여 분석대상문서의 문서분류를 적어도 하나 이상 추출하는 단계를 포함하는 것을 특징으로 하는, 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 방법을 제공한다.

본 발명은 문서가 담고 있는 내용을 파악하여 해당 문서를 사전에 정의된 문서 카테고리로 자동분류할 수 있다. 특히, 본 발명은 기구축된 어휘의미패턴 혹은 컨셉 모델을 기반으로 구문의 실질적 의미를 파악해서 문서분류의 정확성을 크게 개선하는 효과가 있다.

한편 본 발명은 문서를 하나의 문서분류로 분류하는 것이 아니고 문서가 포함하고 있는 다양한 의미에 따라 복수의 문서분류를 추출할 수 있다. 사용자는 이를 통해 실제 문서를 읽지 않아도 해당 문서가 어떤 내용을 포함하고 있는지 손쉽게 파악할 수 있다.

한편, 여기에서 명시적으로 언급되지 않은 효과라 하더라도, 본 발명의 기술적 특징에 의해 기대되는 이하의 명세서에서 기재된 효과 및 그 잠정적인 효과는 본 발명의 명세서에 기재된 것과 같이 취급됨을 첨언한다.

도 1은 본 발명의 다중분류장치의 바람직한 실시예를 나타내는 도면이다.
도 2는 본 발명에서 어휘의미패턴을 정의하는 실시예를 나타내는 도면이다.
도 3은 본 발명에서 컨셉을 정의하는 실시예를 나타내는 도면이다.
도 4는 본 발명에서 어휘의미패턴을 이용하여 문서를 분석하는 실시예를 나타내는 도면이다.
도 5는 본 발명에서 문서를 다중분류하는 실시예를 나타내는 도면이다.
도 6은 본 발명의 다중분류방법의 바람직한 실시예를 나타내는 도면이다.
첨부된 도면은 본 발명의 기술사상에 대한 이해를 위하여 참조로서 예시된 것임을 밝히며, 그것에 의해 본 발명의 권리범위가 제한되지는 아니한다.

본 발명을 설명함에 있어서 관련된 공지기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.

도 1은 본 발명의 다중분류장치의 바람직한 실시예를 나타내는 도면이다.

도 1에서 알 수 있듯이, 본 발명의 다중분류장치(100)는 전처리유닛(110), 분석유닛(120), 분류유닛(130)을 포함한다.

전처리유닛(110)은 형태소, 음절, 및 어절로 이루어진 어휘의미패턴(Lexico-semantic pattern: LSP)을 정의하여 제1데이터베이스(111)에 저장한다. 예를 들어 전처리유닛(110)은 도 2와 같이 복수의 어휘의미패턴을 정의하고 식별자(ID)를 부여한다. 어휘의미패턴은 텍스트를 매칭하기 위한 정규식과 유사한 것으로, 단어뿐만 아니라 형태소 태그, 의미자질, 각종 연산자들을 사용하여 구성한다. 예를 들어, '이번달 핸드폰 요금이 얼마'라는 문장이 있다면, 이를 분석하기 위해서 LSP는 '/NNG+@month @phone @pay+(/J_)? @how+(/SC)?' 같이 구성될 수 있다. 여기서 '@'는 의미자질을 의미하며, '/'가 앞에 들어간 것은 형태소 태그를 의미한다. '/J_'는 조사를 의미한다. LSP를 정의하는 기호를 표로 정리하면 다음과 같다.

연산자	의미
\|	OR
=	값의 범주를 지정하는 연산자
/	품사 표현
+	좌/우변에 대한 형태소 결합을 표현
?	모든 표현에 대해 적용 혹은 미적용을 의미 모든 표현을 한 번 대치하거나 공집합을 의미
!	표현이나 단어의 본래 의미를 부정하는 표현
*	표현식을 반복
품사	N_: 체언(명사류를 포함) J_: 조사 V_: 용언(동사, 형용사) E_: 어미 MA: 부사

전처리유닛(110)은 계층적으로 구조화된 복수의 어휘의미패턴의 집단인 컨셉(concept)을 정의하여 제2데이터베이스(113)에 저장한다. 예를 들어 컨셉은 도 3과 같이 계층적인 구조를 포함할 수 있다. 컨셉은 일종의 LSP의 집합이다. 컨셉은 비슷한 의미를 가지는 LPS들을 하나로 묶어주는 역할을 한다. 컨셉을 통해서 LSP를 통해 매칭된 문장에 의미를 부여할 수 있다. 따라서, 컨셉은 특정한 의도를 갖고 특정한 의미를 부여하기 위해 계층적으로 구조화되는 것이 좋다. 예를 들어, 상품의 환불, 반품, 문의 등과 같이 특정한 의미를 갖는 컨셉을 구축할 수 있으며, 환불 컨셉에 속한 LSP에 매칭된 문장은 그 문장이 환불에 관한 의미를 포함하고 있다는 의미이다.

한편 의미자질은 컨셉의 의미를 구성하는 기본 단위로 정의될 수 있다. 그것은 일종의 단어 사전으로 비슷한 의미를 가진 어휘나 형태소 태그 또는 패턴 정보를 가지게 된다. 의미자질 안에 속한 정보를 '엔트리'라고 정의한다. 동일한 의미를 가지는 한 개 이상의 엔트리들을 각 의미자질에 속하는 하나의 집합으로 구축할 수 있다. 이러한 의미자질은 LSP 내에 사용할 수 있으며, 실제 분석 단계에서 의미자질 내에 속한 모든 엔트리를 대상으로 분석을 진행하게 된다. 예를 들어, '의류'이라는 의미자질과 그 안에 '가디건', '니트', '조끼', '점퍼' 등의 엔트리를 미리 구축하여 놓을 수 있고, 그렇다면 문장 내에 '가디건', '니트', '조끼', '점퍼' 등의 엔트리가 나타나면 매칭이 되게 된다.

전처리유닛(110)은 문서분류를 사전에 정의하여 제3데이터베이스(115)에 저장한다. 문서분류는 적어도 하나 이상의 어휘의미패턴 또는 컨셉이 매칭되어 있다. 이와 같이 문서분류에 매칭되어 있는 어휘의미패턴 또는 컨셉은 해당 문서분류가 어떤 의미인지 특정하게 된다. 또한, 문서에 매칭된 어휘의미패턴이 특정 문서분류에 매칭된 어휘의미패턴과 동일한 경우 해당 문서를 해당 문서분류에 할당 할 수 있는 매개역할을 한다.

바람직한 실시예에 있어서 문서분류를 저장하는 데이터베이스는 문서분류 식별자(ID), 해당 문서분류 식별자에 매칭된 어휘의미패턴 식별자, 해당 문서분류 식별자에 매칭된 컨셉 식별자를 포함할 수 있다.

분석유닛(120)은 분석대상문서에 포함된 문장을 형태소 분석하고 어휘의미패턴에 매칭시켜 구문분석결과를 연산한다. 바람직한 실시예에서 분석유닛(120)은 분석대상문서를 문장 단위로 분리하는 문장추출부, 문장을 형태소, 음절, 및 어절 중 적어도 어느 하나로 분석하는 문장요소분석부, 및 문장요소 분석결과를 사전에 정의된 어휘의미패턴에 매칭하여 개별 문장에 대한 어휘의미패턴의 매칭결과를 구문분석결과로 도출하는 구문분석부를 포함한다. 분석유닛(120)에서 도출한 구문분석결과를 도 4에 예시하였다. 예를 들어 분석유닛(120)은 문서(21)를 분석하여 구문분석결과(23)를 도출한다. 구문분석결과(23)는 해당 문서가 n개의 문장으로 구분되며, 각 문장에 어떤 어휘의미패턴에 매칭되어 있는지에 대한 정보를 포함한다. 즉, 문장 1은 어휘의미패턴 1과 어휘의미패턴 10에 매칭됨을 알 수 있다.

분류유닛(130)은 구문분석결과를 문서분류규칙에 따라 매칭하여 분석대상문서의 문서분류를 적어도 하나 이상 추출한다. 바람직한 실시예에 있어서 분류유닛(130)은 어휘의미패턴 식별자 및 컨셉 식별자 중 적어도 어느 하나를 포함하는 문서분류규칙을 입력받는 분류규칙입력부, 및 구문분석결과를 문서분류규칙에 따라 사전에 정의된 문서분류에 매칭하여 분석대상문서의 문서분류를 적어도 하나 이상 추출하는 문서분류매칭부를 포함한다. 분류유닛(130)에서 분석한 문서의 분류결과를 도 5에 예시하였다. 예를 들어 문서 1(31)은 문서분류 1과 문서분류 2로 다중 분류된다. 문서 2(32)는 문서분류 2, 3, n으로 다중 분류된다.

도 6은 본 발명의 다중분류방법의 바람직한 실시예를 나타내는 도면이다. 본 발명의 방법은 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류한다.

바람직한 실시예에서 전처리유닛이 1) 어휘의미패턴, 2) 계층적으로 구조화된 복수의 어휘의미패턴의 집단인 컨셉, 3) 어휘의미패턴에 기반하여 문서의 카테고리를 분류한 문서분류를 각각 정의하여 데이터베이스에 저장한다. 이와 같이 어휘의미패턴, 컨셉, 문서분류를 사정에 정의한 다음 실제 분석하고자 하는 분석대상문서를 분석유닛에 입력한다. 먼저 분석유닛은 분석대상문서를 문장 단위로 분리한다(S110).

분석유닛이 분리된 문장을 형태소, 음절, 및 어절 중 적어도 어느 하나의 문장요소로 분석한다(S120). 이렇게 분석된 문장요소 분석결과를 사전에 정의된 어휘의미패턴에 매칭한다. 개별 문장에 대한 어휘의미패턴의 매칭결과를 구문분석결과로 도출한다(S130). 예를들어 문장이 '인터넷쇼핑' 및 '환불정책'이고, '인터넷쇼핑' 및 '환불정책'에 관련된 어휘의미패턴의 LSP 식별자가 3번이라면, 해당 문장에 LSP 3번이 매칭된다.

분류유닛이 문장을 순서대로 정렬하고 개별 문장에 매칭된 LSP를 정렬하여 문장별로 LSP를 그룹핑한다(S140).

분류유닛이 어휘의미패턴 식별자 및 컨셉 식별자 중 적어도 어느 하나를 포함하는 문서분류규칙을 입력받는다.

문서분류규칙은 문서를 분류하기 위한 기준을 의미한다. 문서분류규칙은 함수명, LSP 식별자, 컨셉 식별자를 포함할 수 있다. 바람직한 실시예에서 문서분류규칙은 아래와 같이 LSP 식별자, 컨셉 식별자 중 적어도 하나 이상을 포함한다.

(함수명, LSP 식별자, 컨셉 식별자)

그 밖에 문서분류규칙은 컨셉의 계층적 구조 중에서 특정 LSP의 경로를 포함할 수 있다. 또한, 문서분류규칙은 문자열을 포함할 수도 있다. 예를 들면 다음과 같다.

(함수명, L43, C12, (or, "지연", "장애"))

문서분류규칙은 또한 분류규칙에 포함된 인자들의 연산방식을 정의하는 함수명을 포함한다. 함수명과 그 의미는 아래 표와 같다.

함수 이름	함수 기능			함수 제약 사항	사용 예시
AND	AND 연산자는 한 개 이상의 조건을 취하며, 결과가 참이 되기 위해서는 입력 문서에 대하여 주어진 모든 조건들이 만족되어야 한다.			LSP, Concept, 문자열, 함수 등이 인자로 사용 가능	(AND, "요금제", "핸드폰")
OR	OR 연산자는 한 개 이상의 조건을 취하며, 결과가 참이 되기 위해서는 입력 문서에 대하여 주어진 조건들 중 한 개 이상이 만족되어야 한다.			LSP, Concept, 문자열, 함수 등이 인자로 사용 가능	(OR, "요금제", "핸드폰")
NOT	NOT 연산자는 한 개의 조건만을 취하며, AND 연산자의 자식으로만 존재 할 수 있습니다. 이 조건은 문자열이 온 경우에는 해당 문자열이 주어진 문서 범위 안에 존재하지 않을 때 참을 반환한다. LSP나 개념이 인자로 있을 때는 분석 결과에 해당 사항이 없을 때에 참을 반환하며, 함수가 인자로 온 경우에는 함수의 반환 결과를 역으로 반환한다.			LSP, Concept, 문자열, 함수 등이 인자로 사용 가능	(AND, (NOT, "비싸"), (OR, L49))
MIN_n	MIN_n (minimum) 연산자는 한 개의 정수(n)와 한 개 이상의 조건을 매개변수로 취합니다. 해당 규칙은 최소 n개의 조건이 만족될 때 참이 된다.			LSP, Concept, 문자열, 함수 등이 인자로 사용 가능	(MIN_2, L21, C11, "반품")
MINOC_n	MINOC_n (minimum occurrences) 연산자는 MIN_n과 비슷한 연산자로, 조건이 참이 되기 위해서는 연산자에 명시된 단어가 최소 n번 등장해야 한다.			n에는 정수만 올 수 있으며, 인자에는 문자열만 사용 가능합니다.	(MINOC_2, "제품", "결함", "리콜")
MAXOC_n	MAXOC_n (maximum occurrences) 연산자는 MINOC_n의 반대 연산자이며, 조건이 참이 되기 위해서는 연산자에 명시된 단어가 최대 n번만 등장해야 한다.			n에는 정수만 올 수 있으며, 인자에는 문자열만 사용 가능합니다.	(MAXOC_2, "약정", "반품")
SENT	SENT (sentence) 연산자는 한 개 이상의 조건을 취하며, 모든 조건이 한 문장 내에서 만족될 때 참을 반환한다.			LSP, Concept, 문자열, 함수 등이 인자로 사용 가능	(SENT, "달력", L41, C12)
DIST_n	DIST_n (distance) 연산자는 한 개의 정수(n)와 두 개의 조건을 취한다. 이 규칙은 두 문자열의 거리가 n 이내 일 때 참을 반환한다.			n에는 정수만 올 수 있으며, 인자에는 문자열만 사용 가능합니다.	(DIST_3, "공동", "연구")
DMS_n	DMS_n (distance matched sentence) 함수는 인자로 주어진 LSP나 개념에 매칭된 문장들의 거리를 비교하며, 하나라도 조건을 만족시키는 문장이 있을 시 참을 반환한다.			n에는 정수만 올 수 있으며, 인자에는 LSP 혹은 Concept 만 사용 가능	(DMS_3, L3241, C12)
NSENEQ_n	NSENEQ_n (Number of Sentence Equal) 기타 다른 인자를 사용하지 않으며 문장 개수를 정의하는 인자만 사용된다. 분석 대상 문서의 문장 분리 후 문장 개수가 n과 같을 때 참을 반환	n에는 정수만 올 수 있으며, n이외 기타 다른 인자 사용 불가		(NSENEQ_3) 문서가 총 3문장 일 때 참을 반환한다.
NSENLT_n	NSENLT_n (Number of Sentence Less Than) 기타 다른 인자를 사용하지 않으며 문장 개수를 정의하는 인자만 사용된다. 분석 대상 문서의 문장 분리 후 문장 개수가 n개 미만일 때 참을 반환한다.	n에는 정수만 올 수 있으며, n이외 기타 다른 인자 사용 불가		(NSENLT_3) 문서가 총 3문장 미만 일 때 참을 반환한다.
NSENGT_n	NSENGT_n (Number of Sentence Greater Than) 기타 다른 인자를 사용하지 않으며 문장 개수를 정의하는 인자만 사용된다. 부석 대상 문서의 문장 분리 후 문장 개수가 n개 미만일 때 참을 반환한다.	n에는 정수만 올 수 있으며, n이외 기타 다른 인자 사용 불가	(NSENGT_3) 문서가 총 3문장 초과 일 때 참을 반환한다.

분류유닛이 구문분석결과를 문서분류규칙에 따라 사전에 정의된 문서분류에 매칭하여 분석대상문서의 문서분류를 적어도 하나 이상 추출한다(S150).

참고로, 본 발명의 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독가능매체에 기록될 수 있다. 상기 컴퓨터 판독가능매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용가능한 것일 수도 있다. 컴퓨터 판독가능매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체, 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급언어코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

본 발명의 보호범위가 이상에서 명시적으로 설명한 실시예의 기재와 표현에 제한되는 것은 아니다. 또한, 본 발명이 속하는 기술분야에서 자명한 변경이나 치환으로 말미암아 본 발명이 보호범위가 제한될 수도 없음을 다시 한 번 첨언한다.

Claims

형태소, 음절, 및 어절로 이루어진 어휘의미패턴(Lexico-semantic pattern: LSP)을 정의하여 데이터베이스에 저장하고, 계층적으로 구조화된 복수의 어휘의미패턴의 집단인 컨셉을 정의하여 데이터베이스에 저장하는 전처리유닛;
분석대상문서에 포함된 문장을 형태소 분석하고 상기 어휘의미패턴에 매칭시켜 구문분석결과를 연산하는 분석유닛; 및
상기 구문분석결과를 문서분류규칙에 따라 매칭하여 분석대상문서의 문서분류를 적어도 하나 이상 추출하는 분류유닛을 포함하는 것을 특징으로 하는,
문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치.
제1항에 있어서,
상기 분석유닛은
분석대상문서를 문장 단위로 분리하는 문장추출부;
문장을 형태소, 음절, 및 어절 중 적어도 어느 하나로 분석하는 문장요소분석부; 및
문장요소 분석결과를 사전에 정의된 어휘의미패턴에 매칭하여 개별 문장에 대한 어휘의미패턴의 매칭결과를 구문분석결과로 도출하는 구문분석부를 포함하는 것인,
문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치.
제1항에 있어서,
상기 분류유닛은
어휘의미패턴 식별자 및 컨셉 식별자 중 적어도 어느 하나를 포함하는 문서분류규칙을 입력받는 분류규칙입력부; 및
구문분석결과를 문서분류규칙에 따라 사전에 정의된 문서분류에 매칭하여 분석대상문서의 문서분류를 적어도 하나 이상 추출하는 문서분류매칭부를 포함하는 것인,
문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치.
전처리유닛이 1) 어휘의미패턴, 2) 계층적으로 구조화된 복수의 어휘의미패턴의 집단인 컨셉, 3) 어휘의미패턴에 기반하여 문서의 카테고리를 분류한 문서분류를 각각 정의하여 데이터베이스에 저장하는 단계;
분석유닛이 분석대상문서를 문장 단위로 분리하는 단계;
분석유닛이 분리된 문장을 형태소, 음절, 및 어절 중 적어도 어느 하나의 문장요소로 분석하는 단계;
분석유닛이 문장요소 분석결과를 사전에 정의된 어휘의미패턴에 매칭하여 개별 문장에 대한 어휘의미패턴의 매칭결과를 구문분석결과로 도출하는 단계;
분류유닛이 어휘의미패턴 식별자 및 컨셉 식별자 중 적어도 어느 하나를 포함하는 문서분류규칙을 입력받는 단계; 및
분류유닛이 구문분석결과를 문서분류규칙에 따라 사전에 정의된 문서분류에 매칭하여 분석대상문서의 문서분류를 적어도 하나 이상 추출하는 단계를 포함하는 것을 특징으로 하는,
문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 방법.