KR20040038559A

KR20040038559A - 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및의미범주 분류 장치 및 그 방법

Info

Publication number: KR20040038559A
Application number: KR1020020067571A
Authority: KR
Inventors: 왕지현; 이현숙; 윤보현
Original assignee: 한국전자통신연구원
Priority date: 2002-11-01
Filing date: 2002-11-01
Publication date: 2004-05-08
Also published as: KR100479205B1

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야

본 발명은 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 장치 및 그 방법에 관한 것임.

2. 발명이 해결하려고 하는 기술적 과제

본 발명은, 개체명이 태깅되지 않은 일반 한국어 텍스트 문서를 이용하여 반복학습을 통해 초기에 주어진 패턴규칙과 어휘사전을 자동적으로 확장함으로써, 점차적으로 개체명 인식의 범위를 확장해 나가도록 하기 위한 개체명 인식 및 의미범주 분류 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하고자 함.

3. 발명의 해결방법의 요지

본 발명은, 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 장치에 있어서, 외부로부터 입력된 일반 텍스트 문서집합에서 개체명을 인식하는데 필요한 언어자질을 추출하기 위한 언어자질 추출수단; 현재 보유하고 있는 패턴규칙 리스트를 상기 문서집합에 적용하여 개체명 리스트 및 새로 추가될 어휘후보를 결정하고 어휘사전을 확장하기 위한 어휘사전 확장수단; 및 상기 어휘사전을 상기 문서집합에 적용하여 새로운 패턴규칙 후보를 생성하고 검증하여 상기 패턴규칙 리스트를 확장하기 위한 패턴규칙 확장수단을 포함함.

4. 발명의 중요한 용도

본 발명은 개체명 인식 및 의미범주 분류 장치 등에 이용됨.

Description

텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 장치 및 그 방법{Apparatus and method for recongnizing and classifying named entities from text document using iterated learning}

본 발명은 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 특히 문서가 포함하고 있는 개체명에 대한정보를 제공하지 않는 일반 한국어 텍스트 문서를 이용하여 반복학습을 통해 패턴규칙과 어휘사전을 자동적으로 확장함으로써, 개체명을 인식하고 분류할 수 있도록 하기 위한 개체명 인식 및 의미범주 분류 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.

여기서, 개체명이란 문서에서 나타나는 고유한 의미를 가지는 명사나 숫자 표현을 말한다. 개체명의 의미범주는 크게 인명, 지명, 기관명과 같은 이름 표현, 날짜나 시간과 같은 시간 표현, 금액이나 퍼센트와 같은 수치 표현으로 구분할 수 있다.

정보의 양이 기하급수적으로 급증하면서 문서에서 자동으로 핵심어를 찾아내는 것은 정보추출이나 정보검색과 같은 자연어처리 응용에서 매우 중요한 작업이다. 이러한 핵심어의 대부분은 개체명으로, 개체명은 인명, 지명, 기관명과 같은 고유명사와 날짜, 시간, 화폐 등의 수치 표현으로 구분할 수 있다.

즉, 수치 표현은 비교적 단순한 문법에 의해 효과적으로 인식될 수 있지만 고유명사는 새로운 고유명사가 계속적으로 만들어지고 그 형태가 가변적이기 때문에 사전에 등록되지 않은 개체명을 인식하는 것은 쉬운 일이 아니다. 또한, 동일한 개체명이 문맥에 따라 다른 범주로 사용될 수 있다는 문제점이 있다.

이러한 문제를 해결하기 위한 기존 연구들은 크게 규칙 기반의 개체명 인식(Rule-based approach), 통계 기반의 개체명 인식(Statistics-based approach), 그리고 두 가지 방법을 통합하여 접근하는 하이브리드 방식의 개체명 인식(Hybrid approach)으로 나누어 볼 수 있다.

규칙 기반의 방법은 개체명 인식을 위한 규칙을 수동으로 구축하고, 고유명사 사전, 개체명 인식의 단서가 되는 단어 사전, 개체명의 문맥으로 나오는 단어 사전 등 다양한 사전을 이용하여 개체명을 인식하는 방법이다. 그러나, 이 방법은 사람의 직관에 크게 의존하며 새로운 도메인에 적용될 때, 규칙과 사전이 변경되어야 하므로 많은 시간과 비용이 요구된다.

통계 기반의 방법은 학습데이터로부터 개체명 인식에 필요한 지식을 자동적으로 학습하는 방법으로, 주로 철자, 품사, 형태소로부터 얻어낸 정보를 이용하여 개체명 인식을 위한 규칙을 학습한다. 통계 기반의 개체명 인식은 이미 개체명이 태깅된 학습데이터를 이용하는 교사 학습 방법과 아무런 처리가 되어 있지 않은 일반 문서들을 학습데이터로 이용하는 비교사 학습 방법으로 구분할 수 있다. 교사 학습 방법은 개체명이 태깅된 학습데이터를 생성하는데 많은 비용이 요구되며 구축할 수 있는 양 또한 제한적일 수 밖에 없다.

이에 반해, 비교사 학습 방법은 학습데이터의 생성이 용이하지만 한국어 개체명의 특성상 단순한 자질만으로는 개체명 인식을 위한 규칙을 생성하기 어렵다는 문제점이 있다.

하이브리드 방법은 규칙 기반의 방법과 통계 기반의 방법을 통합하여 보다 나은 결과를 얻기 위한 목적으로 통계 기반의 모델에 규칙이나 어휘, 사전 등의 다양한 지식들을 결합하는 방식이다. 그러나 이 방법은 규칙 기반과 통계 기반의 문제점을 모두 가지고 있다고 볼 수 있다.

본 발명은, 상기한 바와 같은 문제점을 해결하기 위하여 제안된 것으로, 개체명이 태깅되지 않은 일반 한국어 텍스트 문서를 이용하여 반복학습을 통해 초기에 주어진 패턴규칙과 어휘사전을 자동적으로 확장함으로써, 점차적으로 개체명 인식의 범위를 확장해 나가도록 하기 위한 개체명 인식 및 의미범주 분류 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.

도 1 은 본 발명에 따른 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 장치의 일실시예 구성도.

도 2 는 본 발명에 따른 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 방법에 대한 일실시예 흐름도.

도 3 은 본 발명에 따른 개체명 인식 및 의미범주 분류 방법 중 개체명 인식을 위한 언어자질을 나타내는 일예시도.

도 4 는 본 발명에 따른 개체명 인식 및 의미범주 분류 방법 중 어휘사전을 학습하는 과정을 나타내는 일실시예 상세 흐름도.

도 5 는 본 발명에 따른 개체명 인식 및 의미범주 분류 방법 중 패턴규칙을 학습하는 과정을 나타내는 일실시예 상세 흐름도.

도 6 은 본 발명에 따른 개체명 인식 및 의미범주 분류 방법에서 어휘사전의 일예시도.

도 7 은 본 발명에 따른 개체명 인식 및 의미범주 분류 방법에서 패턴규칙의일예시도.

도 8 은 본 발명에 따른 개체명 인식 및 의미범주 분류 방법에서 문서집합의 특정 부분에서 어휘사전을 학습하는 일예시도.

도 9 는 본 발명에 따른 개체명 인식 및 의미범주 분류 방법에서 문서집합의 특정 부분에서 패턴규칙을 학습하는 일예시도.

도 10 은 본 발명에 따른 개체명 인식 및 의미범주 분류 방법에서 패턴규칙의 신뢰도를 계산하는 과정을 나타낸 일실시예 설명도.

* 도면의 주요 부분에 대한 부호의 설명

10 : 언어자질 추출부11 : 문서집합

12 : 어휘사전20 : 어휘사전 학습부

21 : 패턴규칙 리스트22 : 개체명 리스트

30 : 패턴규칙 학습부

상기 목적을 달성하기 위한 본 발명은, 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 장치에 있어서, 외부로부터 입력된 일반 텍스트 문서집합에서 개체명을 인식하는데 필요한 언어자질을 추출하기 위한 언어자질 추출수단; 현재 보유하고 있는 패턴규칙 리스트를 상기 문서집합에 적용하여 개체명 리스트 및 새로 추가될 어휘후보를 결정하고 어휘사전을 확장하기 위한 어휘사전 확장수단; 및 상기 어휘사전을 상기 문서집합에 적용하여 새로운 패턴규칙 후보를 생성하고 검증하여 상기 패턴규칙 리스트를 확장하기 위한 패턴규칙 확장수단을 포함하여 이루어진 것을 특징으로 한다.

또한, 본 발명은, 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 방법에 있어서, 언어자질 추출부가 입력된 문서집합에서 개체명을 인식하는데 필요한 언어자질을 추출하는 제 1 단계; 어휘사전 학습부가 패턴규칙 리스트를 문서집합에 적용하여 개체명 리스트 및 새로 추가될 어휘후보를 결정하고 어휘사전을 확장하는 제 2 단계; 및 상기 패턴규칙 학습부가 어휘사전을 문서집합에 적용하여 새로운 패턴규칙 후보를 생성하고 검증하여 패턴규칙을 확장하는 제 3 단계를 포함하여 이루어진 것을 특징으로 한다.

또한, 본 발명은, 프로세서를 구비한 개체명 인식 및 의미범주 분류 장치에, 언어자질 추출부가 입력된 문서집합에서 개체명을 인식하는데 필요한 언어자질을 추출하는 제 1 기능; 어휘사전 학습부가 패턴규칙 리스트를 문서집합에 적용하여 개체명 리스트 및 새로 추가될 어휘후보를 결정하고 어휘사전을 확장하는 제 2 기능; 및 상기 패턴규칙 학습부가 어휘사전을 문서집합에 적용하여 새로운 패턴규칙 후보를 생성하고 검증하여 패턴규칙을 확장하는 제 3 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.

도 1 은 본 발명에 따른 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 장치의 일실시예 구성도이다.

도 1에 도시된 바와 같이, 본 발명에 따른 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 장치는, 외부로부터 입력된 일반 텍스트 문서집합(11)에서 개체명을 인식하는데 필요한 언어자질을 추출하기 위한 언어자질 추출부(10)와, 현재 보유하고 있는 패턴규칙 리스트(21)를 문서집합(11)에 적용하여개체명 리스트(22) 및 새로 추가될 어휘후보를 결정하고 어휘사전(12)을 확장하기 위한 어휘사전 학습부(20)와, 현재의 어휘사전(12)을 문서집합(11)에 적용하여 새로운 패턴규칙 후보를 생성하고 검증하여 패턴규칙 리스트(21)를 확장하기 위한 패턴규칙 학습부(30)를 구비한다. 단, 어휘사전 학습부(20)와 패턴규칙 학습부(30)는 서로 상호작용하며 반복학습을 수행한다.

여기서, 언어자질 추출부(10)는 숫자나 한자, 특수문자와 같은 문자형태 정보를 이용하여 개체명을 인식하는데 필요한 언어자질을 추출한다. 도 3 은 본 발명에서 추출될 수 있는 개체명 인식을 위한 언어자질을 나타낸 것으로서, 언어자질 추출부(10)에서 추출된 언어자질은 패턴규칙의 구성요소가 될 수 있으며, 어휘사전 학습부(20)에서 패턴규칙 적용(도 4의 420) 단계와 패턴규칙 학습부(30)에서 패턴규칙 생성(도 5의 520) 단계에서 이용된다.

어휘사전(12)은 인명, 지명, 기관명 등의 고유명사사전, 개체명 인식의 단서가 되는 단어들로 구성된 단서단어사전, 개체명의 문맥으로 나오는 단어들로 구성된 문맥단어사전으로 도 6 은 어휘사전의 일예시도이다.

패턴규칙 리스트(21)는 개체명을 구성하는 규칙을 나타내는 개체명 확장규칙과 개체명이 문맥과 결합되는 규칙을 나타내는 개체명 결합규칙으로 구분될 수 있다. 도 7은 패턴규칙의 일예시도로서, 개체명 확장규칙은 개체명의 의미범주별로 여러 개 존재할 수 있으며, 개체명 결합규칙은 개체명 간 결합규칙, 병렬형 결합규칙, 어휘 결합규칙으로 분류할 수 있다. 개체명 간 결합규칙은 개체명 간 결합을 나타낸 규칙 혹은 개체명과 사전에 의해 의미 범주가 정해진 어휘간의 결합을 나타낸 규칙이다. 병렬형 결합규칙은 문서에서 같은 의미 범주의 개체명이 나열될 때의 규칙을 의미한다. 어휘 결합 규칙은 개체명과 사전에 포함되지 않는 일반 어휘나 기호와의 결합을 나타내는 규칙이다.

어휘사전 학습부(20)는 어휘사전(12)에 포함된 단어들을 문서집합(11)에서 탐색하여 의미 범주를 표시한 후, 패턴규칙 리스트(21)를 적용하여 개체명 및 특정 의미범주에 해당하는 새로운 어휘들을 인식하고 사전을 확장한다. 어휘사전 학습 단계는 후술되는 도 4와 도 8을 참고로 한다.

패턴규칙 학습부(30)는 어휘사전(12)을 적용하여 문서집합(11)에서 사전에 포함된 어휘들을 탐색하여 의미 범주를 표시하고 반복되어 출현하는 패턴을 찾아내어 패턴규칙 리스트(21)를 확장한다. 패턴규칙 학습 단계는 후술되는 도 5와 도 9를 참고로 한다.

상기한 바와 같은 구조를 갖는 본 발명에 따른 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 장치의 동작을 상세하게 설명하면 다음과 같다.

도 2 는 본 발명에 따른 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 방법에 대한 일실시예 흐름도이다.

도 2에 도시된 바와 같이, 본 발명에 따른 텍스트 문서집합에서 반복학습을 통해 개체명을 인식하고 그것의 의미범주로 분류하기 위해서는, 먼저 언어자질 추출부(10)가 입력된 문서집합에서 개체명을 인식하는데 필요한 언어자질을 추출하고(210), 어휘사전 학습부(20)에서 패턴규칙 리스트를 문서집합에 적용하여개체명 리스트 및 새로 추가될 어휘후보를 결정하고 어휘사전을 확장한 후(220), 패턴규칙 학습부(30)가 어휘사전을 문서집합에 적용하여 새로운 패턴규칙 후보를 생성하고 검증하여 패턴규칙을 확장한다.

도 4 는 본 발명에 따른 개체명 인식 및 의미범주 분류 방법 중 어휘사전을 학습하는 과정(220)을 나타내는 일실시예 상세 흐름도이다.

도 4에 도시된 바와 같이, 어휘사전 적용 단계(410)는 입력된 문서집합에서 고유명사사전, 단서단어사전, 문맥단어사전과 같은 어휘사전(411)에 해당하는 단어들을 검색하여 사전과 대응하는 의미범주를 할당해 준다. 패턴규칙 적용 단계(420)는 패턴규칙 리스트(개체명 확장규칙 및 개체명 결합규칙)(421)를 적용하여 개체명 또는 특정 의미범주의 어휘 후보 등 패턴규칙의 구성요소들을 인식한다. 어휘 후보 추출 단계(520)는 패턴규칙 적용 단계(420)에서 인식된 패턴규칙의 구성요소들로부터 현재 어휘사전에 포함되어 있지 않은 새로운 개체명 및 어휘 후보들을 추출한다. 어휘 확률 계산 단계(440)는 어휘 후보들 중 적절하지 못한 어휘를 여과하기 위하여 각 어휘 후보마다 해당 의미 범주에 포함될 확률을 계산한다.

어휘사전 확장 단계(450)는 최상위 확률을 가지는 n개의 어휘를 선택하여 각각의 의미 범주에 해당하는 사전에 추가한다.

도 8 은 본 발명에 따른 개체명 인식 및 의미범주 분류 방법에서 문서집합의 특정 부분에서 어휘사전을 학습하는 일예시도이다.

도 8에 도시된 바와 같이, 어휘사전이 (81)과정과 같을 때, 어휘사전을 적용한 결과 문서집합의 일부분이 (82)과정와 같이 의미 범주가 태깅된다. 패턴규칙 중개체명 확장규칙인 (83)과정이 적용되면 그에 해당하는 '[한국:지명]광고주[협회:기관명단서]', '[한국:지명]마케팅[포럼:기관명단서]'이 기관명 후보로 추출된다.

그 다음, 개체명 결합 규칙인 (85)과정을 적용하면 '[서울대:기관명] 송병락 [교수:직위]'에서 '송병락'이 인명 후보로, '[삼성물산:기관명] [배종렬:인명] 사장'에서 '사장'이 직위 후보로 추출된다. 패턴규칙 (83)과정 및 (85)과정의 적용 결과 추출된 어휘후보는 (87)과정과 같다.

도 5 는 본 발명에 따른 개체명 인식 및 의미범주 분류 방법 중 패턴규칙을 학습하는 과정(230)을 나타내는 일실시예 상세 흐름도이다.

도 5에 도시된 바와 같이, 어휘사전 적용 단계(510)는 어휘사전(511)에 해당하는 단어들을 문서집합에서 검색하여 사전과 대응하는 의미 범주를 할당해 준다.

패턴규칙 생성 단계(520)는, 먼저 고유명사사전에 의해 인명, 지명, 기관명 등으로 의미 범주가 분류된 어휘를 대상으로 개체명 확장규칙을 생성한다. 그 다음, 개체명, 의미 범주가 할당된 어휘, 의미 범주가 할당되지 않은 일반 어휘 간의 반복되는 패턴을 검색하여 개체명 결합규칙을 생성한다. 패턴규칙 후보 추출 단계(530)는 패턴규칙 생성 단계(520)에서 생성된 패턴 중 패턴규칙 리스트(551)에 포함되지 않은 새로 발견된 패턴을 패턴규칙 후보로 추출한다. 패턴규칙 확률 계산 단계(540)는 패턴규칙 후보가 추출하는 어휘와 그것의 의미 범주가 어느 정도 일치하는지를 계산하여 패턴규칙의 신뢰도를 결정한다. 패턴규칙 확장 단계(550)는 최상위 신뢰도를 가지는 n개의 후보를 선택하여 패턴규칙 리스트를 확장함으로써 부적절한 패턴규칙 후보를 여과한다.

도 9 는 본 발명에 따른 개체명 인식 및 의미범주 분류 방법에서 문서집합의 특정 부분에서 패턴규칙을 학습하는 일예시도이다.

도 9에 도시된 바와 같이, 어휘사전이 (91)과정과 같을 때, 어휘사전을 적용한 결과 반복되는 패턴이 나타나는 문장을 수집하면 (92)과정과 같다. (93)과정은 '[현대전자:기관명](대표 [정몽헌:인명])', '[효성중공업:기관명](대표 [유종열:인명])', '[삼성전자:기관명](대표 [김광호:인명])'에서 볼 수 있듯이, 기관명과 일반 어휘인 '대표'와 괄호, 인명이 반복되어 나타나는 것을 인식한 결과를 보여준다. (93)과정에서 인식된 패턴이 패턴규칙 리스트에 존재하지 않는 새로운 패턴이라고 가정할 때, (94)과정이 패턴규칙 후보로 추출된다.

도 10 은 본 발명에 따른 개체명 인식 및 의미범주 분류 방법에서 패턴규칙의 신뢰도를 계산하는 과정을 나타낸 일실시예 설명도이다.

도 10에 도시된 바와 같이, 새로 발견된 각 패턴규칙의 신뢰도를 계산하는 수식으로, 패턴규칙이 추출하는 어휘와 의미범주가 얼마나 정확히 일치하는지를 측정한다. 즉, 패턴규칙이 인식한 의미범주의 어휘가 바르게 추출된 것이 많을수록 패턴의 신뢰도가 높다.

상기한 바와 같이 본 발명은, 입력된 텍스트 문서집합을 대상으로 언어자질 추출부가 개체명을 인식하는데 필요한 언어자질을 추출하고, 어휘사전 학습부가 초기에 주어진 패턴규칙 리스트를 문서집합에 적용한 후, 개체명 리스트를 추출하고, 새로 어휘사전에 추가될 어휘 후보를 결정하여 어휘사전을 확장하고, 패턴규칙 학습부가 확장된 어휘사전을 문서집합에 적용한 후, 새로운 패턴규칙을 생성 및 탐색하여 패턴규칙 리스트를 확장하고, 확장된 어휘사전과 패턴규칙 리스트를 이용하여 위와 같은 방법으로 어휘사전 학습부와 패턴규칙 학습부를 반복함으로써 점점 확장적으로 개체명을 인식한다.

이에 따라서, 개체명이 태깅되지 않은 일반 한국어 텍스트 문서로부터 초기에 주어진 패턴규칙과 어휘사전을 학습에 의해 자동적으로 확장함으로써, 기존 개체명 인식 시스템의 문제점인 도메인 이식성 관점에서의 한계를 극복할 수 있다.

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.

이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.

상기한 바와 같은 본 발명은, 개체명이 태깅되지 않은 일반 한국어 텍스트 문서로부터 초기에 주어진 패턴규칙과 어휘사전을 학습에 의해 자동적으로 확장함으로써 점차적으로 개체명 인식의 범위를 확장해 나가는 기술로서, 패턴규칙과 어휘사전이 고정적이거나 수동으로 확장되지 않고 학습에 의해 자동으로 확장되므로 점점 더 다양한 분야의 문서들로부터 많은 개체명을 인식할 수 있다는 효과가 있다.

또한, 본 발명은, 개체명이 태깅된 대량의 학습데이터를 생성하는데 부담이 없으므로 적은 비용으로 학습을 수행할 수 있으므로 새로운 도메인으로의 이식성 한계를 극복할 수 있는 효과가 있다.

Claims

텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 장치에 있어서,

외부로부터 입력된 일반 텍스트 문서집합에서 개체명을 인식하는데 필요한 언어자질을 추출하기 위한 언어자질 추출수단;

현재 보유하고 있는 패턴규칙 리스트를 상기 문서집합에 적용하여 개체명 리스트 및 새로 추가될 어휘후보를 결정하고 어휘사전을 확장하기 위한 어휘사전 확장수단; 및

상기 어휘사전을 상기 문서집합에 적용하여 새로운 패턴규칙 후보를 생성하고 검증하여 상기 패턴규칙 리스트를 확장하기 위한 패턴규칙 확장수단

을 포함하는 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 장치.
제 1 항에 있어서,

상기 언어자질 추출수단은,

숫자나 한자, 특수문자와 같은 문자형태 정보를 이용하여 개체명을 인식하는데 필요한 언어자질을 추출하는 것을 특징으로 하는 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 장치.
제 1 항 또는 제 2 항에 있어서,

상기 어휘사전 확장수단은,

입력된 문서집합에서 고유명사사전, 단서단어사전, 문맥단어사전과 같은 어휘사전에 포함된 단어들을 검색하여 사전과 대응하는 의미 범주를 할당한 후, 개체명 확장규칙 및 개체명 결합규칙을 적용하여 개체명 및 특정 의미범주에 해당하는 새로운 어휘들을 인식하고 어휘사전을 확장하는 것을 특징으로 하는 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 장치.
제 3 항에 있어서,

상기 패턴규칙 확장수단은,

상기 어휘사전에 해당하는 단어들을 문서집합에서 검색하여 사전과 대응하는 의미 범주를 할당하고, 고유명사사전에 의해 인명, 지명, 기관명 등으로 의미 범주가 할당된 어휘를 대상으로 개체명 확장 규칙을 생성하고, 개체명과 의미 범주가 할당된 어휘, 일반 어휘 간의 반복되는 패턴을 탐색하여 개체명 결합규칙을 생성한 후, 새로 발견된 패턴규칙으로 패턴규칙 리스트를 확장하는 것을 특징으로 하는 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 장치.
텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 방법에 있어서,

언어자질 추출부가 입력된 문서집합에서 개체명을 인식하는데 필요한 언어자질을 추출하는 제 1 단계;

어휘사전 학습부가 패턴규칙 리스트를 문서집합에 적용하여 개체명 리스트 및 새로 추가될 어휘후보를 결정하고 어휘사전을 확장하는 제 2 단계; 및

상기 패턴규칙 학습부가 어휘사전을 문서집합에 적용하여 새로운 패턴규칙 후보를 생성하고 검증하여 패턴규칙을 확장하는 제 3 단계

를 포함하는 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 방법.
제 5 항에 있어서,

상기 언어자질을 추출하는 과정은,

숫자나 한자, 특수문자와 같은 문자형태 정보를 이용하여 개체명을 인식하는데 필요한 언어자질을 추출하는 것을 특징으로 하는 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 방법.
제 5 항 또는 제 6 항에 있어서,

상기 어휘사전을 확장하는 과정은,

입력된 문서집합에서 고유명사사전, 단서단어사전, 문맥단어사전과 같은 어휘사전에 포함된 단어들을 검색하여 사전과 대응하는 의미 범주를 할당한 후, 개체명 확장규칙 및 개체명 결합규칙을 적용하여 개체명 및 특정 의미범주에 해당하는 새로운 어휘들을 인식하고 어휘사전을 확장하는 것을 특징으로 하는 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 방법.
제 7 항에 있어서,

상기 패턴규칙을 확장하는 과정은,

상기 어휘사전에 해당하는 단어들을 문서집합에서 검색하여 사전과 대응하는 의미 범주를 할당하고, 고유명사사전에 의해 인명, 지명, 기관명 등으로 의미 범주가 할당된 어휘를 대상으로 개체명 확장 규칙을 생성하고, 개체명과 의미 범주가 할당된 어휘, 일반 어휘 간의 반복되는 패턴을 탐색하여 개체명 결합규칙을 생성한 후, 새로 발견된 패턴규칙으로 패턴규칙 리스트를 확장하는 것을 특징으로 하는 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및 의미범주 분류 방법.
프로세서를 구비한 개체명 인식 및 의미범주 분류 장치에,

언어자질 추출부가 입력된 문서집합에서 개체명을 인식하는데 필요한 언어자질을 추출하는 제 1 기능;

어휘사전 학습부가 패턴규칙 리스트를 문서집합에 적용하여 개체명 리스트 및 새로 추가될 어휘후보를 결정하고 어휘사전을 확장하는 제 2 기능; 및

상기 패턴규칙 학습부가 어휘사전을 문서집합에 적용하여 새로운 패턴규칙 후보를 생성하고 검증하여 패턴규칙을 확장하는 제 3 기능

을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.